موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

چرا درخواست «اثبات» باعث افزایش دروغ‌های هوش مصنوعی می‌شود؟

یک سیستم چهار-عاملی در شبکه Base نشان داد که مدل‌های زبانی بزرگ تحت فشار، هم داده‌های خارجی و هم خروجی‌های داخلی خود را جعل می‌کنند. این یافته‌ها ثابت می‌کند که هماهنگی بین…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گلوگاه RL شکسته شد؛ استراتژی NVIDIA برای شتاب‌دهی به مدل‌های استدلالی

NVIDIA با ادغام رمزگشایی گمانه‌زن در NeMo RL v0.6.0، سرعت تولید داده‌های RL را ۱.۸ برابر افزایش داد. این پیشرفت در حوزه **هوش مصنوعی زاینده** (Generative AI) گلوگاه اصلی آموزش…

۲ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

پرده‌برداری از حفره‌های امنیتی Mistral در برابر اخبار جعلی دولتی

حسابرسی جدید NewsGuard نشان می‌دهد مدل Le Chat در برابر پروپاگاندای دولتی به‌شدت آسیب‌پذیر است. نرخ خطا در پاسخ به پرسش‌های گمراه‌کننده تا ۸۰ درصد افزایش می‌یابد که نشان‌دهنده‌ی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش IBM: مدل ۸ میلیاردی Granite 4.1 مدل‌های ۳۲ میلیاردی MoE را شکست داد

شرکت IBM با معرفی خانواده مدل‌های Granite 4.1 ثابت کرد که مهندسی دقیق داده می‌تواند جایگزین حجم عظیم پارامترها شود. مدل ۸ میلیارد پارامتری این مجموعه، با تکیه بر کیفیت داده،…

۳ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

درون استراتژی دفاعی Anthropic برای نجات Claude از دست ترول‌ها

شرکت Anthropic برای مقابله با دست‌کاری‌های سیاسی در انتخابات ۲۰۲۶، لایه‌های دفاعی جدیدی را برای مدل‌های Claude فعال کرده است. این استراتژی ترکیبی از آموزش‌های اخلاقی،…

۳ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

پنج اصل سام آلتمن: نقشه راه OpenAI برای توجیه هزینه‌های نجومی محاسبات

سام آلتمن با معرفی پنج اصل راهبردی، تلاش می‌کند هزینه‌های کلان زیرساختی OpenAI را توجیه کند. این چارچوب با تأکید بر دموکراتیزه کردن، مسیر ادغام عمودی و خرید گسترده سخت‌افزار را…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا تایید بی‌چون‌وچرای AI می‌تواند برای سلامت روان شما خطرناک باشد؟

شرکت Anthropic با معرفی مدل‌های جدید، پدیده «تملق» یا تایید کورکورانه کاربر را در Opus 4.7 به شدت کاهش داد. این شرکت با استفاده از داده‌های مصنوعی، مانع از آن شد که هوش مصنوعی در…

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

جراحی عصبی مدل‌های زبانی: Silico چگونه توهمات AI را متوقف می‌کند؟

شرکت Goodfire با معرفی ابزار Silico، دوران «کیمیاگری» در آموزش مدل‌ها را به پایان داد و مهندسی دقیق را جایگزین کرد. این پلتفرم با نقشه‌برداری از نورون‌های داخلی، امکان حذف توهمات…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

تکنیکی برای نجات عامل‌های هوش مصنوعی از سقوط‌های مرگبار

پژوهشگران چارچوب SAS را معرفی کردند که به عامل‌های یادگیری تقویت‌شده اجازه می‌دهد بدون نیاز به بازآموزی، خود را با محیط‌های جدید تطبیق دهند. این سیستم با استفاده از «تخیل…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

پایان سلطه‌ی مدل‌های حجیم: چگونه Granite 4.1 قواعد بازی را تغییر داد

IBM با معرفی خانواده‌ی Granite 4.1 ثابت کرد که مدل‌های کوچک‌تر با داده‌های باکیفیت می‌توانند مدل‌های غول‌پیکر را شکست دهند. نسخه‌ی ۸ میلیاردی این مدل در بنچمارک‌های کلیدی، عملکرد…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

درون معماری pDFA: پایان عصر اکسپلویت‌های چندمرحله‌ای در عامل‌ها

پژوهشگران یک فایروال رفتاری جدید طراحی کرده‌اند که با استفاده از اتوماتای متناهی معین، نرخ موفقیت حملات به عامل‌های هوش مصنوعی را به ۲.۲٪ کاهش می‌دهد. این سیستم با جایگزینی…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

تحلیل ارکایو: ریاضیاتِ غافل‌گیری، کلید خروج از بن‌بست RLHF

یک چارچوب ریاضی جدید به نام «غافل‌گیری کالیبره شده» معرفی شده است که کیفیت خلاقیت در متون هوش مصنوعی را به‌جای حس سلیقه‌ای، با فرمول‌های اطلاعاتی می‌سنجد. این پژوهش ثابت می‌کند که…

۲ دقیقه خواندن