پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

دو هوش مصنوعی اولاما در حال گفتگو با یکدیگر
آموزش کاربردی

چرا برای ساخت عامل‌های هوش مصنوعی نیازی به فریم‌ورک‌های پیچیده نیست؟

یک آزمایش ساده با مدل Gemma 4 نشان داد که برای ایجاد رفتارهای پیچیده و تغییر موضوع در گفتگو، نیازی به ابزارهای سنگین مدیریت عامل‌ها نیست. این یافته ثابت می‌کند که وزن‌های داخلی…

۸ دقیقه خواندن
مطالعه CARE: کاهش ۵ برابری هشدارهای خطا در خلاصه‌سازی پزشکی با لایه ایمنی جدید

مطالعه CARE: کاهش ۵ برابری هشدارهای خطا در خلاصه‌سازی پزشکی با لایه ایمنی جدید

چارچوب CARE یک لایه ایمنی مستقل از مدل است که ضمانت‌های ریاضیاتی علیه توهمات و حذف داده‌های حیاتی در خلاصه‌های پزشکی ارائه می‌دهد. این سیستم با کاهش چشمگیر هشدارهای غیرضروری و…

۲ دقیقه خواندن
چگونه مدل‌سازی محدودیت‌های زمانی-مکانی پایداری ویدیو-AI را ۱.۷ برابر کرد؟

چگونه مدل‌سازی محدودیت‌های زمانی-مکانی پایداری ویدیو-AI را ۱.۷ برابر کرد؟

پژوهشگران با معرفی روش انتشار کران‌های زمانی-مکانی (STBP)، دقت اثبات‌شده در شبکه‌های عصبی سه-بعدی را ۱.۷ برابر افزایش دادند. این چارچوب به جای تکیه بر نویزهای تصادفی، محدودیت‌های…

۲ دقیقه خواندن
IA-VQC-DPC: ارتقای ایمنی کنترل‌کننده‌های کوانتومی با کاهش اتکا به فیلترهای خارجی

IA-VQC-DPC: ارتقای ایمنی کنترل‌کننده‌های کوانتومی با کاهش اتکا به فیلترهای خارجی

چارچوب جدید IA-VQC-DPC از تکیه بیش از حد کنترل‌کننده‌های کوانتومی به فیلترهای ایمنی جلوگیری می‌کند. این رویکرد در شبیه‌سازهای مدیریت ساختمان، در ایمنی بر مدل‌های کلاسیک پیشی گرفت…

۲ دقیقه خواندن
چگونه AdvGRPO پایداری آموزش مشترک مدل‌های مهاجم و مدافع را ممکن کرد؟

چگونه AdvGRPO پایداری آموزش مشترک مدل‌های مهاجم و مدافع را ممکن کرد؟

پژوهشگران با معرفی چارچوب AdvGRPO، راهکاری برای بهینه‌سازی پایدار و هم‌زمان مدل‌های مهاجم و مدافع ابداع کرده‌اند. این روش با استفاده از نرمال‌سازی مجزا و یک برنامه آموزشی…

۱ دقیقه خواندن
SecureClaw: توقف نشت داده‌ها در عامل‌های هوش مصنوعی با گیت‌های دو-مرزی

SecureClaw: توقف نشت داده‌ها در عامل‌های هوش مصنوعی با گیت‌های دو-مرزی

معماری SecureClaw با ایجاد گیت‌های دو-مرزی، احتمال نشت داده‌های حساس توسط عامل‌های هوش مصنوعی را در بنچمارک ASB به صفر رسانده است. این رویکرد، امنیت را از فیلترهای احتمالیِ متنی…

۱ دقیقه خواندن
توت‌فرنگی عجیب با شکلی شبیه شکم باردار

«شستشوی زیبایی‌شناختی»؛ سازوکاری برای دور زدن فیلترهای ایمنی در درام‌های میوه‌ای

یک تحلیل آکادمیک نشان می‌دهد درام‌های کوتاه تولیدشده توسط هوش مصنوعی، از زیبایی‌شناسی «بانمک» برای پنهان کردن کلیشه‌های جنسیتی و نژادی استفاده می‌کنند. این متد که «شستشوی…

۱ دقیقه خواندن
گزارش دفاعی بریتانیا: ۸ شکاف فنی که استقرار عملیاتی هوش مصنوعی را متوقف کرده است

گزارش دفاعی بریتانیا: ۸ شکاف فنی که استقرار عملیاتی هوش مصنوعی را متوقف کرده است

تحلیلی بر چارچوب JSP 936 وزارت دفاع بریتانیا، هشت مانع حیاتی فنی و سازمانی را شناسایی کرده است. این گزارش نشان می‌دهد که علی‌رغم وجود حکمرانی نظری، انتقال به استقرار عملیاتی به…

۱ دقیقه خواندن
چگونه مدل‌های جهانی در تولید داده‌های رباتیک، «درب‌های پشتی» مخفی ایجاد می‌کنند؟

چگونه مدل‌های جهانی در تولید داده‌های رباتیک، «درب‌های پشتی» مخفی ایجاد می‌کنند؟

پژوهشگران نوع جدیدی از حمله مسموم‌سازی داده را شناس کرده‌اند که مدل‌های جهانی را هدف قرار می‌دهد. این حمله با تزریق محرک‌های پنهان به داده‌های به‌ ظاهر امن، ربات‌ها را مجبور به…

۱ دقیقه خواندن
چرا عدالت ترمیمی باید جایگزین مدل استخراجی در مجموعه‌داده‌های ایمنی شود؟

چرا عدالت ترمیمی باید جایگزین مدل استخراجی در مجموعه‌داده‌های ایمنی شود؟

یک تحلیل فنی جدید استدلال می‌کند که مجموعه‌داده‌های ایمنی هوش مصنوعی باید از مدل «استخراجی» به مدل «ترمیمی» تغییر مسیر دهند. این مطالعه پیشنهاد می‌کند داده‌های ایمنی باید با…

۲ دقیقه خواندن
Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

چارچوب Reasoning Arena با جایگزینی سیگنال‌های باینری با تورنمنتهای مقایسه‌ای، دقت مدل‌ها در ریاضی و کدنویسی را ۷.۶٪ افزایش داد. این متد ضمن ارتقای عملکرد، هزینه محاسبات تولید را…

۲ دقیقه خواندن
چرا دقت دکودر برای توقف تزریق‌های پرامپت مغزی کافی نیست؟

چرا دقت دکودر برای توقف تزریق‌های پرامپت مغزی کافی نیست؟

پژوهشگران نوع جدیدی از حملات به نام «تزریق پرامپت مغزی» را شناسایی کرده‌اند که از طریق اختلال در سیگنال‌های عصبی، عامل‌های BCI-LLM را به کنترل درمی‌آورد. این مطالعه ثابت می‌کند که…

۲ دقیقه خواندن