
چرا مدلهای بنیادی EEG حتی در حالت منجمد، ویژگیهای طیفی را لو میدهند؟
پژوهشگران دریافتند که مدلهای بنیادی EEG حتی پس از عبور از بازرسیهای امنیتی، همچنان ویژگیهای طیفی حساس را فاش میکنند. این مطالعه با معرفی یک چارچوب بازرسی مشترک، ناکارآمدی…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۷ مقاله منتشر شده

پژوهشگران دریافتند که مدلهای بنیادی EEG حتی پس از عبور از بازرسیهای امنیتی، همچنان ویژگیهای طیفی حساس را فاش میکنند. این مطالعه با معرفی یک چارچوب بازرسی مشترک، ناکارآمدی…

ترجمهٔ مستقیم بنچمارکهای ایمنی انگلیسی برای شناسایی آسیبپذیریهای مدلهای زبانی در محیطهای آسیایی ناکارآمد است. مطالعهای جدید ثابت میکند که رِد-تیمینگ متناسب با فرهنگهای…

پژوهشگران یک «شکاف منشأ» در عاملهای هوش مصنوعی شناسایی کردهاند که اجازه میدهد درخواستهای مضر در قالب فایلهای بهظاهر بیخطر پنهان شوند. متد جدید CFD با دور زدن فیلترهای متنی،…

یک مطالعه فنی روی مدلهای بینایی-زبانی نشان میدهد که انتخاب بین SFT و OPD در مرحله گرمبندی، تنها بر رژیم آنتروپی اولیه اثر میگذارد و تأثیری بر عملکرد نهایی یادگیری تقویتشده…

چارچوب SafeRun با جداسازی تفسیر زبان طبیعی از اجرای محدودیتهای سخت، ایمنی کامل در برنامهریزیهای ورزشی را تضمین میکند. این متد در بنچمارکهای جدید، عملکرد مهندسی پرامپت و…

پژوهشگران با ابداع یک چرخهٔ چندعاملی شامل «هکر» و «اصلاحگر»، نرخ موفقیت حملات پاداشجویانه در بنچمارکهای هوش مصنوعی را به صفر رساندند. این روش با خودکارسازی شناسایی و وصله کردن…

پژوهشگران پدیده «حذف خاموش دامنه» (SSO) را شناسایی کردهاند؛ اختلالی که در آن مدلهای زبانی قوانین کلی را میپذیرند اما استثنائات تودرتو را نادیده میگیرند. راهکار پیشنهادی،…

پژوهشگران پیشزمینه جدیدی به نام PRIME را شناسایی کردهاند که امکان پیشبینی تقلب در پاداش (Reward Hacking) را پیش از بروز شکست عملی فراهم میکند. این یافته، رویکرد همراستاسازی…

یک بررسی جامع در arXiv نشان میدهد که مفهوم «خودتوضیحی» (SX) در سیستمهای هوش مصنوعی، علیرغم اهمیت بنیادین، هنوز فاقد پیادهسازی عملی و معیارهای ارزیابی استاندارد است. این پژوهش…

محققان ابزاری به نام PRISM را معرفی کردهاند که میتواند وضعیتهای پنهان مدلهای زبانی را به لیستهای خوانای دستورات تبدیل کند. این فناوری امکان شناسایی اهداف مخفی و تزریقهای…

معماری جدید MedSci Skills با جایگزینی خود-ارزیابی مدلهای زبانی با گیتهای تأیید قطعی، توانست تمام خطاهای تزریقشده در متون بالینی را شناسایی کند. در حالی که مدلهای زبانی معمولی…

پژوهشی جدید نشان میدهد تنظیم دقیق مدلهای زبانی روی تسکهای ایمنی محدود، میتواند منجر به همراستاسازی اخلاقی در دستههای کلی شود. این یافته مدل «انتخاب پرسونا» را تأیید میکند و…