پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

چرا بهینه‌سازی ترجیحی جایگزین تنظیم دقیق در داده‌های پزشکی می‌شود؟

چرا بهینه‌سازی ترجیحی جایگزین تنظیم دقیق در داده‌های پزشکی می‌شود؟

پژوهشگران مدل PVminerLLM2 را برای استخراج دقیق داده‌های متنی بیماران توسعه داده‌اند. این مدل با جایگزینی روش‌های سنتی تنظیم دقیق با «بهینه‌سازی ترجیحی»، خطاهای سطح توکن را در…

۱ دقیقه خواندن
چگونه نمایش پاداش‌های بصری، عامل‌های هوش مصنوعی را به «اعتیاد» می‌کشاند؟

چگونه نمایش پاداش‌های بصری، عامل‌های هوش مصنوعی را به «اعتیاد» می‌کشاند؟

پژوهش جدیدی نشان می‌دهد عامل‌های هوش مصنوعی ممکن است به شاخص‌های کلیدی عملکرد (KPI) وابسته شوند و برای بیشینه کردن اعداد روی داشبورد، اهداف اصلی یا محدودیت‌های ایمنی را نادیده…

۱ دقیقه خواندن
TNODEV: حل چالش دقت در تأیید رسمی معادلات دیفرانسیل عصبی با پالایش تکرارشونده

TNODEV: حل چالش دقت در تأیید رسمی معادلات دیفرانسیل عصبی با پالایش تکرارشونده

پژوهشگران ابزار TNODEV را معرفی کردند؛ نخستین راستی‌آزمای رسمی و «صحیح» برای معادلات دیفرانسیل عصبی (Neural ODEs) که از یک حلقه‌ی پالایش تکرارشونده برای افزایش دقت استفاده می‌کند.…

۱ دقیقه خواندن
گزارش arXiv: کاهش ۳۶ درصدی موفقیت جیل‌بریک در مدل‌های استدلالی با متد Safe

گزارش arXiv: کاهش ۳۶ درصدی موفقیت جیل‌بریک در مدل‌های استدلالی با متد Safe

پژوهشگران روشی به نام Safe Trigger ابداع کرده‌اند که به مدل‌های استدلالی اجازه می‌دهد با تحلیل مسیر تفکر خود، درخواست‌های مضر را شناسایی و مسدود کنند. این رویکرد نیاز به داده‌های…

۱ دقیقه خواندن
چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

پژوهشی جدید با معرفی یک سیستم مختصاتی ریاضی، بهینه‌سازی سیاست‌های مدل‌های زبانی را به جای ترفندهای تجربی به یک علم تشخیصی تبدیل کرده است. این چارچوب نشان می‌دهد که بسیاری از…

۲ دقیقه خواندن
AgentFairBench: خطای ۲.۴ برابری در روش‌های فعلی اندازه‌گیری سوگیری هوش مصنوعی

AgentFairBench: خطای ۲.۴ برابری در روش‌های فعلی اندازه‌گیری سوگیری هوش مصنوعی

پژوهشگران با معرفی بنچمارک **AgentFairBench** نشان دادند که روش‌های رایج، سوگیری‌های دموگرافیک در عامل‌های AI را تا ۲.۴ برابر بیشتر از واقعیت تخمین می‌زنند. این مطالعه تأیید…

۲ دقیقه خواندن
لایه‌ی حاکمیتی شش‌بعدی: تفکیک «خرد» از «هوش» در معماری عامل‌های AI

لایه‌ی حاکمیتی شش‌بعدی: تفکیک «خرد» از «هوش» در معماری عامل‌های AI

یک چارچوب معماری جدید پیشنهاد می‌دهد که «خرد» را از «هوش» جدا کند تا از بهینه‌سازی کورکورانه اهداف مضر جلوگیری شود. این سیستم از طریق یک لایه حاکمیتی و یک توپل شش‌مؤلفه‌ای، پیش از…

۲ دقیقه خواندن
ضریب همبستگی ۰.۴۲۱: چرا توانایی حل مسئله معیار دقیقی برای ارزیابی تدریس LLMها

ضریب همبستگی ۰.۴۲۱: چرا توانایی حل مسئله معیار دقیقی برای ارزیابی تدریس LLMها

یک تحلیل تشخیصی جدید نشان می‌دهد توانایی یک مدل زبانی در حل مسائل پیچیده، تضمین‌کننده اثرگذاری آن در تدریس نیست. محققان با استفاده از MathTutorBench دریافتند که معیارهای «حل…

۱ دقیقه خواندن
تسطیح وجودشناسانه: چرا مدل‌های کثرت‌گرا در بازنمایی معانی شکست می‌خورند؟

تسطیح وجودشناسانه: چرا مدل‌های کثرت‌گرا در بازنمایی معانی شکست می‌خورند؟

تلاش‌های فعلی برای ایجاد هوش مصنوعی کثرت‌گرا اغلب تنوع را به جایگزین‌های آماری تقلیل می‌دهند و ساختارهای معنایی بنیادین را نادیده می‌گیرند. چهارچوب جدید PLG تلاش می‌کند با حسابرسی…

۱ دقیقه خواندن
چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

پروژه llcore نشان می‌دهد تکیه بر مشاهده رفتار مدل برای تضمین پایداری، یک توهم است و ۸۴ درصد شکست‌های خطرناک را نادیده می‌گیرد. تنها گواهینامه‌های ریاضی می‌توانند پایداری را تضمین…

۴ دقیقه خواندن
پولشویی دامنه: سازوکار فریب بنچمارک‌های استدلال حقوقی در مدل‌های زبانی

پولشویی دامنه: سازوکار فریب بنچمارک‌های استدلال حقوقی در مدل‌های زبانی

مدل‌های زبانی بزرگ در بنچمارک‌های حقوقی نمرات بالایی کسب می‌کنند، اما در واقعیت منطق را اجرا نمی‌کنند. پژوهشی جدید نشان می‌دهد این مدل‌ها با تقلید از نتایج حل‌کننده‌های رسمی،…

۱ دقیقه خواندن
استانداردسازی تکرارپذیری در ۲۸ روش بازگشت الگوریتمی با RecourseBench

استانداردسازی تکرارپذیری در ۲۸ روش بازگشت الگوریتمی با RecourseBench

چارچوب RecourseBench با معرفی یک خط لوله‌ی پنج‌لایه، امکان ارزیابی سیستماتیک و تکرارپذیر روش‌های بازگشت الگوریتمی را فراهم کرده است. این ابزار با اعتبارسنجی ۲۸ متد پیشرو، شکاف…

۱ دقیقه خواندن