پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

پرده‌برداری از حفره‌های امنیتی Mistral در برابر اخبار جعلی دولتی

پرده‌برداری از حفره‌های امنیتی Mistral در برابر اخبار جعلی دولتی

حسابرسی جدید NewsGuard نشان می‌دهد مدل Le Chat در برابر پروپاگاندای دولتی به‌شدت آسیب‌پذیر است. نرخ خطا در پاسخ به پرسش‌های گمراه‌کننده تا ۸۰ درصد افزایش می‌یابد که نشان‌دهنده‌ی…

۲ دقیقه خواندن
گزارش IBM: مدل ۸ میلیاردی Granite 4.1 مدل‌های ۳۲ میلیاردی MoE را شکست داد

گزارش IBM: مدل ۸ میلیاردی Granite 4.1 مدل‌های ۳۲ میلیاردی MoE را شکست داد

شرکت IBM با معرفی خانواده مدل‌های Granite 4.1 ثابت کرد که مهندسی دقیق داده می‌تواند جایگزین حجم عظیم پارامترها شود. مدل ۸ میلیارد پارامتری این مجموعه، با تکیه بر کیفیت داده،…

۳ دقیقه خواندن
پنج اصل سام آلتمن: نقشه راه OpenAI برای توجیه هزینه‌های نجومی محاسبات

پنج اصل سام آلتمن: نقشه راه OpenAI برای توجیه هزینه‌های نجومی محاسبات

سام آلتمن با معرفی پنج اصل راهبردی، تلاش می‌کند هزینه‌های کلان زیرساختی OpenAI را توجیه کند. این چارچوب با تأکید بر دموکراتیزه کردن، مسیر ادغام عمودی و خرید گسترده سخت‌افزار را…

۳ دقیقه خواندن
چرا تایید بی‌چون‌وچرای AI می‌تواند برای سلامت روان شما خطرناک باشد؟

چرا تایید بی‌چون‌وچرای AI می‌تواند برای سلامت روان شما خطرناک باشد؟

شرکت Anthropic با معرفی مدل‌های جدید، پدیده «تملق» یا تایید کورکورانه کاربر را در Opus 4.7 به شدت کاهش داد. این شرکت با استفاده از داده‌های مصنوعی، مانع از آن شد که هوش مصنوعی در…

۳ دقیقه خواندن
پایان سلطه‌ی مدل‌های حجیم: چگونه Granite 4.1 قواعد بازی را تغییر داد

پایان سلطه‌ی مدل‌های حجیم: چگونه Granite 4.1 قواعد بازی را تغییر داد

IBM با معرفی خانواده‌ی Granite 4.1 ثابت کرد که مدل‌های کوچک‌تر با داده‌های باکیفیت می‌توانند مدل‌های غول‌پیکر را شکست دهند. نسخه‌ی ۸ میلیاردی این مدل در بنچمارک‌های کلیدی، عملکرد…

۳ دقیقه خواندن
درون معماری pDFA: پایان عصر اکسپلویت‌های چندمرحله‌ای در عامل‌ها

درون معماری pDFA: پایان عصر اکسپلویت‌های چندمرحله‌ای در عامل‌ها

پژوهشگران یک فایروال رفتاری جدید طراحی کرده‌اند که با استفاده از اتوماتای متناهی معین، نرخ موفقیت حملات به عامل‌های هوش مصنوعی را به ۲.۲٪ کاهش می‌دهد. این سیستم با جایگزینی…

۳ دقیقه خواندن
تحلیل ارکایو: ریاضیاتِ غافل‌گیری، کلید خروج از بن‌بست RLHF

تحلیل ارکایو: ریاضیاتِ غافل‌گیری، کلید خروج از بن‌بست RLHF

یک چارچوب ریاضی جدید به نام «غافل‌گیری کالیبره شده» معرفی شده است که کیفیت خلاقیت در متون هوش مصنوعی را به‌جای حس سلیقه‌ای، با فرمول‌های اطلاعاتی می‌سنجد. این پژوهش ثابت می‌کند که…

۲ دقیقه خواندن