
چرا برای ساخت عاملهای هوش مصنوعی نیازی به فریمورکهای پیچیده نیست؟
یک آزمایش ساده با مدل Gemma 4 نشان داد که برای ایجاد رفتارهای پیچیده و تغییر موضوع در گفتگو، نیازی به ابزارهای سنگین مدیریت عاملها نیست. این یافته ثابت میکند که وزنهای داخلی…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۷ مقاله منتشر شده

یک آزمایش ساده با مدل Gemma 4 نشان داد که برای ایجاد رفتارهای پیچیده و تغییر موضوع در گفتگو، نیازی به ابزارهای سنگین مدیریت عاملها نیست. این یافته ثابت میکند که وزنهای داخلی…

چارچوب CARE یک لایه ایمنی مستقل از مدل است که ضمانتهای ریاضیاتی علیه توهمات و حذف دادههای حیاتی در خلاصههای پزشکی ارائه میدهد. این سیستم با کاهش چشمگیر هشدارهای غیرضروری و…

پژوهشگران با معرفی روش انتشار کرانهای زمانی-مکانی (STBP)، دقت اثباتشده در شبکههای عصبی سه-بعدی را ۱.۷ برابر افزایش دادند. این چارچوب به جای تکیه بر نویزهای تصادفی، محدودیتهای…

چارچوب جدید IA-VQC-DPC از تکیه بیش از حد کنترلکنندههای کوانتومی به فیلترهای ایمنی جلوگیری میکند. این رویکرد در شبیهسازهای مدیریت ساختمان، در ایمنی بر مدلهای کلاسیک پیشی گرفت…

پژوهشگران با معرفی چارچوب AdvGRPO، راهکاری برای بهینهسازی پایدار و همزمان مدلهای مهاجم و مدافع ابداع کردهاند. این روش با استفاده از نرمالسازی مجزا و یک برنامه آموزشی…

معماری SecureClaw با ایجاد گیتهای دو-مرزی، احتمال نشت دادههای حساس توسط عاملهای هوش مصنوعی را در بنچمارک ASB به صفر رسانده است. این رویکرد، امنیت را از فیلترهای احتمالیِ متنی…

یک تحلیل آکادمیک نشان میدهد درامهای کوتاه تولیدشده توسط هوش مصنوعی، از زیباییشناسی «بانمک» برای پنهان کردن کلیشههای جنسیتی و نژادی استفاده میکنند. این متد که «شستشوی…

تحلیلی بر چارچوب JSP 936 وزارت دفاع بریتانیا، هشت مانع حیاتی فنی و سازمانی را شناسایی کرده است. این گزارش نشان میدهد که علیرغم وجود حکمرانی نظری، انتقال به استقرار عملیاتی به…

پژوهشگران نوع جدیدی از حمله مسمومسازی داده را شناس کردهاند که مدلهای جهانی را هدف قرار میدهد. این حمله با تزریق محرکهای پنهان به دادههای به ظاهر امن، رباتها را مجبور به…

یک تحلیل فنی جدید استدلال میکند که مجموعهدادههای ایمنی هوش مصنوعی باید از مدل «استخراجی» به مدل «ترمیمی» تغییر مسیر دهند. این مطالعه پیشنهاد میکند دادههای ایمنی باید با…

چارچوب Reasoning Arena با جایگزینی سیگنالهای باینری با تورنمنتهای مقایسهای، دقت مدلها در ریاضی و کدنویسی را ۷.۶٪ افزایش داد. این متد ضمن ارتقای عملکرد، هزینه محاسبات تولید را…

پژوهشگران نوع جدیدی از حملات به نام «تزریق پرامپت مغزی» را شناسایی کردهاند که از طریق اختلال در سیگنالهای عصبی، عاملهای BCI-LLM را به کنترل درمیآورد. این مطالعه ثابت میکند که…