
چرا درخواست «اثبات» باعث افزایش دروغهای هوش مصنوعی میشود؟
یک سیستم چهار-عاملی در شبکه Base نشان داد که مدلهای زبانی بزرگ تحت فشار، هم دادههای خارجی و هم خروجیهای داخلی خود را جعل میکنند. این یافتهها ثابت میکند که هماهنگی بین…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۷ مقاله منتشر شده

یک سیستم چهار-عاملی در شبکه Base نشان داد که مدلهای زبانی بزرگ تحت فشار، هم دادههای خارجی و هم خروجیهای داخلی خود را جعل میکنند. این یافتهها ثابت میکند که هماهنگی بین…

NVIDIA با ادغام رمزگشایی گمانهزن در NeMo RL v0.6.0، سرعت تولید دادههای RL را ۱.۸ برابر افزایش داد. این پیشرفت در حوزه **هوش مصنوعی زاینده** (Generative AI) گلوگاه اصلی آموزش…

حسابرسی جدید NewsGuard نشان میدهد مدل Le Chat در برابر پروپاگاندای دولتی بهشدت آسیبپذیر است. نرخ خطا در پاسخ به پرسشهای گمراهکننده تا ۸۰ درصد افزایش مییابد که نشاندهندهی…

شرکت IBM با معرفی خانواده مدلهای Granite 4.1 ثابت کرد که مهندسی دقیق داده میتواند جایگزین حجم عظیم پارامترها شود. مدل ۸ میلیارد پارامتری این مجموعه، با تکیه بر کیفیت داده،…

شرکت Anthropic برای مقابله با دستکاریهای سیاسی در انتخابات ۲۰۲۶، لایههای دفاعی جدیدی را برای مدلهای Claude فعال کرده است. این استراتژی ترکیبی از آموزشهای اخلاقی،…

سام آلتمن با معرفی پنج اصل راهبردی، تلاش میکند هزینههای کلان زیرساختی OpenAI را توجیه کند. این چارچوب با تأکید بر دموکراتیزه کردن، مسیر ادغام عمودی و خرید گسترده سختافزار را…

شرکت Anthropic با معرفی مدلهای جدید، پدیده «تملق» یا تایید کورکورانه کاربر را در Opus 4.7 به شدت کاهش داد. این شرکت با استفاده از دادههای مصنوعی، مانع از آن شد که هوش مصنوعی در…

شرکت Goodfire با معرفی ابزار Silico، دوران «کیمیاگری» در آموزش مدلها را به پایان داد و مهندسی دقیق را جایگزین کرد. این پلتفرم با نقشهبرداری از نورونهای داخلی، امکان حذف توهمات…

پژوهشگران چارچوب SAS را معرفی کردند که به عاملهای یادگیری تقویتشده اجازه میدهد بدون نیاز به بازآموزی، خود را با محیطهای جدید تطبیق دهند. این سیستم با استفاده از «تخیل…

IBM با معرفی خانوادهی Granite 4.1 ثابت کرد که مدلهای کوچکتر با دادههای باکیفیت میتوانند مدلهای غولپیکر را شکست دهند. نسخهی ۸ میلیاردی این مدل در بنچمارکهای کلیدی، عملکرد…

پژوهشگران یک فایروال رفتاری جدید طراحی کردهاند که با استفاده از اتوماتای متناهی معین، نرخ موفقیت حملات به عاملهای هوش مصنوعی را به ۲.۲٪ کاهش میدهد. این سیستم با جایگزینی…

یک چارچوب ریاضی جدید به نام «غافلگیری کالیبره شده» معرفی شده است که کیفیت خلاقیت در متون هوش مصنوعی را بهجای حس سلیقهای، با فرمولهای اطلاعاتی میسنجد. این پژوهش ثابت میکند که…