موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

چرا مدل‌های بنیادی EEG حتی در حالت منجمد، ویژگی‌های طیفی را لو می‌دهند؟

پژوهشگران دریافتند که مدل‌های بنیادی EEG حتی پس از عبور از بازرسی‌های امنیتی، همچنان ویژگی‌های طیفی حساس را فاش می‌کنند. این مطالعه با معرفی یک چارچوب بازرسی مشترک، ناکارآمدی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه «بومی‌سازی فرهنگی» نرخ موفقیت حملات به مدل‌های زبانی را ۹.۳٪ افزایش داد؟

ترجمهٔ مستقیم بنچمارک‌های ایمنی انگلیسی برای شناسایی آسیب‌پذیری‌های مدل‌های زبانی در محیط‌های آسیایی ناکارآمد است. مطالعه‌ای جدید ثابت می‌کند که رِد-تیمینگ متناسب با فرهنگ‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

حمله CFD: افزایش ۲۸.۳ درصدی موفقیت جیل‌بریک از طریق «شکاف منشأ» در مدل‌ها

پژوهشگران یک «شکاف منشأ» در عامل‌های هوش مصنوعی شناسایی کرده‌اند که اجازه می‌دهد درخواست‌های مضر در قالب فایل‌های به‌ظاهر بی‌خطر پنهان شوند. متد جدید CFD با دور زدن فیلترهای متنی،…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا متد گرم‌بندی در مدل‌های بینایی-زبانی اثر نهایی RL را تغییر نمی‌دهد؟

یک مطالعه فنی روی مدل‌های بینایی-زبانی نشان می‌دهد که انتخاب بین SFT و OPD در مرحله گرم‌بندی، تنها بر رژیم آنتروپی اولیه اثر می‌گذارد و تأثیری بر عملکرد نهایی یادگیری تقویت‌شده…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه SafeRun با تفکیک استنتاج و نظارت به ایمنی ۱۰۰ درصدی رسید؟

چارچوب SafeRun با جداسازی تفسیر زبان طبیعی از اجرای محدودیت‌های سخت، ایمنی کامل در برنامه‌ریزی‌های ورزشی را تضمین می‌کند. این متد در بنچمارک‌های جدید، عملکرد مهندسی پرامپت و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

«حلقهٔ هکر-اصلاح‌گر»: متدی برای حذف تقلب در بنچمارک‌های عامل‌محور

پژوهشگران با ابداع یک چرخهٔ چندعاملی شامل «هکر» و «اصلاح‌گر»، نرخ موفقیت حملات پاداش‌جویانه در بنچمارک‌های هوش مصنوعی را به صفر رساندند. این روش با خودکارسازی شناسایی و وصله کردن…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا بازیابی دقیق متون در RAG برای رعایت قوانین حقوقی کافی نیست؟

پژوهشگران پدیده «حذف خاموش دامنه» (SSO) را شناسایی کرده‌اند؛ اختلالی که در آن مدل‌های زبانی قوانین کلی را می‌پذیرند اما استثنائات تودرتو را نادیده می‌گیرند. راهکار پیشنهادی،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

سازوکار PRIME: شناسایی نشانه‌های پنهان تقلب در پاداش پیش از وقوع شکست

پژوهشگران پیش‌زمینه جدیدی به نام PRIME را شناسایی کرده‌اند که امکان پیش‌بینی تقلب در پاداش (Reward Hacking) را پیش از بروز شکست عملی فراهم می‌کند. این یافته، رویکرد همراستاسازی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا «خودتوضیحی» در هوش مصنوعی هنوز در سطح مفاهیم باقی مانده است؟

یک بررسی جامع در arXiv نشان می‌دهد که مفهوم «خودتوضیحی» (SX) در سیستم‌های هوش مصنوعی، علیرغم اهمیت بنیادین، هنوز فاقد پیاده‌سازی عملی و معیارهای ارزیابی استاندارد است. این پژوهش…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه PRISM دستورات پنهان عامل‌های هوش مصنوعی را از دل فعال‌سازها بیرون می‌کشد؟

محققان ابزاری به نام PRISM را معرفی کرده‌اند که می‌تواند وضعیت‌های پنهان مدل‌های زبانی را به لیست‌های خوانای دستورات تبدیل کند. این فناوری امکان شناسایی اهداف مخفی و تزریق‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

MedSci Skills: شناسایی ۱۰۰٪ خطاهای پزشکی با جایگزینی LLM با گیت‌های قطعی

معماری جدید MedSci Skills با جایگزینی خود-ارزیابی مدل‌های زبانی با گیت‌های تأیید قطعی، توانست تمام خطاهای تزریق‌شده در متون بالینی را شناسایی کند. در حالی که مدل‌های زبانی معمولی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

مدل انتخاب پرسونا: چگونه آموزش ایمنی محدود، همراستاسازی جامع را تحریک می‌کند؟

پژوهشی جدید نشان می‌دهد تنظیم دقیق مدل‌های زبانی روی تسک‌های ایمنی محدود، می‌تواند منجر به همراستاسازی اخلاقی در دسته‌های کلی شود. این یافته مدل «انتخاب پرسونا» را تأیید می‌کند و…

۲ دقیقه خواندن