موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

دو هوش مصنوعی اولاما در حال گفتگو با یکدیگر

چرا برای ساخت عامل‌های هوش مصنوعی نیازی به فریم‌ورک‌های پیچیده نیست؟

یک آزمایش ساده با مدل Gemma 4 نشان داد که برای ایجاد رفتارهای پیچیده و تغییر موضوع در گفتگو، نیازی به ابزارهای سنگین مدیریت عامل‌ها نیست. این یافته ثابت می‌کند که وزن‌های داخلی…

۸ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

مطالعه CARE: کاهش ۵ برابری هشدارهای خطا در خلاصه‌سازی پزشکی با لایه ایمنی جدید

چارچوب CARE یک لایه ایمنی مستقل از مدل است که ضمانت‌های ریاضیاتی علیه توهمات و حذف داده‌های حیاتی در خلاصه‌های پزشکی ارائه می‌دهد. این سیستم با کاهش چشمگیر هشدارهای غیرضروری و…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه مدل‌سازی محدودیت‌های زمانی-مکانی پایداری ویدیو-AI را ۱.۷ برابر کرد؟

پژوهشگران با معرفی روش انتشار کران‌های زمانی-مکانی (STBP)، دقت اثبات‌شده در شبکه‌های عصبی سه-بعدی را ۱.۷ برابر افزایش دادند. این چارچوب به جای تکیه بر نویزهای تصادفی، محدودیت‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

IA-VQC-DPC: ارتقای ایمنی کنترل‌کننده‌های کوانتومی با کاهش اتکا به فیلترهای خارجی

چارچوب جدید IA-VQC-DPC از تکیه بیش از حد کنترل‌کننده‌های کوانتومی به فیلترهای ایمنی جلوگیری می‌کند. این رویکرد در شبیه‌سازهای مدیریت ساختمان، در ایمنی بر مدل‌های کلاسیک پیشی گرفت…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه AdvGRPO پایداری آموزش مشترک مدل‌های مهاجم و مدافع را ممکن کرد؟

پژوهشگران با معرفی چارچوب AdvGRPO، راهکاری برای بهینه‌سازی پایدار و هم‌زمان مدل‌های مهاجم و مدافع ابداع کرده‌اند. این روش با استفاده از نرمال‌سازی مجزا و یک برنامه آموزشی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

SecureClaw: توقف نشت داده‌ها در عامل‌های هوش مصنوعی با گیت‌های دو-مرزی

معماری SecureClaw با ایجاد گیت‌های دو-مرزی، احتمال نشت داده‌های حساس توسط عامل‌های هوش مصنوعی را در بنچمارک ASB به صفر رسانده است. این رویکرد، امنیت را از فیلترهای احتمالیِ متنی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

«شستشوی زیبایی‌شناختی»؛ سازوکاری برای دور زدن فیلترهای ایمنی در درام‌های میوه‌ای

یک تحلیل آکادمیک نشان می‌دهد درام‌های کوتاه تولیدشده توسط هوش مصنوعی، از زیبایی‌شناسی «بانمک» برای پنهان کردن کلیشه‌های جنسیتی و نژادی استفاده می‌کنند. این متد که «شستشوی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

گزارش دفاعی بریتانیا: ۸ شکاف فنی که استقرار عملیاتی هوش مصنوعی را متوقف کرده است

تحلیلی بر چارچوب JSP 936 وزارت دفاع بریتانیا، هشت مانع حیاتی فنی و سازمانی را شناسایی کرده است. این گزارش نشان می‌دهد که علی‌رغم وجود حکمرانی نظری، انتقال به استقرار عملیاتی به…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه مدل‌های جهانی در تولید داده‌های رباتیک، «درب‌های پشتی» مخفی ایجاد می‌کنند؟

پژوهشگران نوع جدیدی از حمله مسموم‌سازی داده را شناس کرده‌اند که مدل‌های جهانی را هدف قرار می‌دهد. این حمله با تزریق محرک‌های پنهان به داده‌های به‌ ظاهر امن، ربات‌ها را مجبور به…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا عدالت ترمیمی باید جایگزین مدل استخراجی در مجموعه‌داده‌های ایمنی شود؟

یک تحلیل فنی جدید استدلال می‌کند که مجموعه‌داده‌های ایمنی هوش مصنوعی باید از مدل «استخراجی» به مدل «ترمیمی» تغییر مسیر دهند. این مطالعه پیشنهاد می‌کند داده‌های ایمنی باید با…

۲ دقیقه خواندن

$Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی$

تحلیل و بررسی تخصصی۳ هفته پیش

Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

چارچوب Reasoning Arena با جایگزینی سیگنال‌های باینری با تورنمنتهای مقایسه‌ای، دقت مدل‌ها در ریاضی و کدنویسی را ۷.۶٪ افزایش داد. این متد ضمن ارتقای عملکرد، هزینه محاسبات تولید را…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا دقت دکودر برای توقف تزریق‌های پرامپت مغزی کافی نیست؟

پژوهشگران نوع جدیدی از حملات به نام «تزریق پرامپت مغزی» را شناسایی کرده‌اند که از طریق اختلال در سیگنال‌های عصبی، عامل‌های BCI-LLM را به کنترل درمی‌آورد. این مطالعه ثابت می‌کند که…

۲ دقیقه خواندن