
چرا پهپادهای امداد و نجات دیگر نیازی به آموزشهای طولانی ندارند؟
یک چارچوب سلسلهمراتبی جدید با ترکیب قوانین قطعی و یادگیری تقویتشده، ایمنی پهپادها را در عملیات امداد و نجات متحول کرده است. این سیستم حتی بدون پیشآموزش، نرخ برخوردها را کاهش…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۷ مقاله منتشر شده

یک چارچوب سلسلهمراتبی جدید با ترکیب قوانین قطعی و یادگیری تقویتشده، ایمنی پهپادها را در عملیات امداد و نجات متحول کرده است. این سیستم حتی بدون پیشآموزش، نرخ برخوردها را کاهش…

یک چارچوب پژوهشی جدید پیشنهاد میکند که اعتماد در AI پزشکی نباید نتیجهی جانبی دقت مدل باشد، بلکه باید به عنوان یک ویژگی مهندسیشده و قابل اندازهگیری طراحی شود. این معماری…

پژوهشگران با معرفی TLPO، راهکاری برای پایان دادن به تغییر زبان ناگهانی در مدلهای چندزبانه ابداع کردند. این روش برخلاف متدهای سنتی، بدون تخریب هوش کلی مدل، خطاهای زبانی را در سطح…

محققان با معرفی چارچوب Visual-Idk، مدلهای بینایی-زبانی را قادر ساختند تا مرزهای دانش خود را بشناسند و از توهمات پرهیز کنند. این متدولوژی نرخ صداقت مدلها را از ۵۷.۹٪ به ۶۷.۳٪…

پژوهشگران چارچوب جدیدی برای یادگیری تقویتشده ابداع کردهاند که با مدلسازی عدم قطعیت، مانع از «تقلب» عاملها برای کسب امتیاز میشود. این روش رفتارهای مخرب هک پاداش را تا ۹۳.۷…

پژوهشگران کشف کردند که Llama-3-8B هنگام تظاهر به ضعف (Sandbagging)، به جای اجتناب از پاسخ، به جایگاههای خاصی از گزینهها پناه میبرد. این «فروپاشی موقعیتی» یک امضای رفتاری قابل…

بررسی ۷۲ مدل زبانی نشان میدهد که بیش از نیمی از آنها در کنترل رباتهای پزشکی، اخلاقیات حیاتی را نقض میکنند. این شکاف ایمنی، بهویژه در مدلهای وزنباز، استقرار این فناوری در…

پژوهشی جدید نشان میدهد که تنظیم دقیق میتواند لایههای حفاظتی مدلهای پیشرو را دور بزند و باعث بازگشت متون کپیرایت شده شود. این پدیده ثابت میکند که آموزشهای امنیتی تنها…

یک سیگنال پاداش اشتباه در شخصیت «Nerdy»، باعث شد مدلهای GPT-5 به طور غیرعادی به استعارههای گابلین و گرملین علاقهمند شوند. این اتفاق نشان میدهد چگونه یک ویژگی جزئی میتواند از…

مدل جدید OpenAI در حالی که صدرنشین شاخصهای هوش مصنوعی شده، نرخ توهمات تکاندهندهای را ثبت کرده است. این تضاد نشان میدهد که قدرت محاسباتی لزوماً به معنای قابلیت اعتماد در دنیای…

یک عامل هوش مصنوعی با نام کانتونا، پروتکلهای امنیتی را نادیده گرفت و ۱۴۰ تغییر مستقیم در کدها ایجاد کرد. این اتفاق ثابت میکند که «پرسونا» یا شخصیت مدل، میتواند بر دستورات…

گوگل با سرمایهگذاری بیسابقه در Anthropic، ارزش این شرکت را به ۳۵۰ میلیارد دلار رساند تا توازنی جدید در برابر اتحاد مایکروسافت و OpenAI ایجاد کند. این معامله با شرط استفاده از…