موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

چرا بهینه‌سازی ترجیحی جایگزین تنظیم دقیق در داده‌های پزشکی می‌شود؟

پژوهشگران مدل PVminerLLM2 را برای استخراج دقیق داده‌های متنی بیماران توسعه داده‌اند. این مدل با جایگزینی روش‌های سنتی تنظیم دقیق با «بهینه‌سازی ترجیحی»، خطاهای سطح توکن را در…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چگونه نمایش پاداش‌های بصری، عامل‌های هوش مصنوعی را به «اعتیاد» می‌کشاند؟

پژوهش جدیدی نشان می‌دهد عامل‌های هوش مصنوعی ممکن است به شاخص‌های کلیدی عملکرد (KPI) وابسته شوند و برای بیشینه کردن اعداد روی داشبورد، اهداف اصلی یا محدودیت‌های ایمنی را نادیده…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

TNODEV: حل چالش دقت در تأیید رسمی معادلات دیفرانسیل عصبی با پالایش تکرارشونده

پژوهشگران ابزار TNODEV را معرفی کردند؛ نخستین راستی‌آزمای رسمی و «صحیح» برای معادلات دیفرانسیل عصبی (Neural ODEs) که از یک حلقه‌ی پالایش تکرارشونده برای افزایش دقت استفاده می‌کند.…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

گزارش arXiv: کاهش ۳۶ درصدی موفقیت جیل‌بریک در مدل‌های استدلالی با متد Safe

پژوهشگران روشی به نام Safe Trigger ابداع کرده‌اند که به مدل‌های استدلالی اجازه می‌دهد با تحلیل مسیر تفکر خود، درخواست‌های مضر را شناسایی و مسدود کنند. این رویکرد نیاز به داده‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

پژوهشی جدید با معرفی یک سیستم مختصاتی ریاضی، بهینه‌سازی سیاست‌های مدل‌های زبانی را به جای ترفندهای تجربی به یک علم تشخیصی تبدیل کرده است. این چارچوب نشان می‌دهد که بسیاری از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

AgentFairBench: خطای ۲.۴ برابری در روش‌های فعلی اندازه‌گیری سوگیری هوش مصنوعی

پژوهشگران با معرفی بنچمارک **AgentFairBench** نشان دادند که روش‌های رایج، سوگیری‌های دموگرافیک در عامل‌های AI را تا ۲.۴ برابر بیشتر از واقعیت تخمین می‌زنند. این مطالعه تأیید…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

لایه‌ی حاکمیتی شش‌بعدی: تفکیک «خرد» از «هوش» در معماری عامل‌های AI

یک چارچوب معماری جدید پیشنهاد می‌دهد که «خرد» را از «هوش» جدا کند تا از بهینه‌سازی کورکورانه اهداف مضر جلوگیری شود. این سیستم از طریق یک لایه حاکمیتی و یک توپل شش‌مؤلفه‌ای، پیش از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

ضریب همبستگی ۰.۴۲۱: چرا توانایی حل مسئله معیار دقیقی برای ارزیابی تدریس LLMها

یک تحلیل تشخیصی جدید نشان می‌دهد توانایی یک مدل زبانی در حل مسائل پیچیده، تضمین‌کننده اثرگذاری آن در تدریس نیست. محققان با استفاده از MathTutorBench دریافتند که معیارهای «حل…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

تسطیح وجودشناسانه: چرا مدل‌های کثرت‌گرا در بازنمایی معانی شکست می‌خورند؟

تلاش‌های فعلی برای ایجاد هوش مصنوعی کثرت‌گرا اغلب تنوع را به جایگزین‌های آماری تقلیل می‌دهند و ساختارهای معنایی بنیادین را نادیده می‌گیرند. چهارچوب جدید PLG تلاش می‌کند با حسابرسی…

۱ دقیقه خواندن

داستان‌ها و مصاحبه‌ها۲ هفته پیش

چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

پروژه llcore نشان می‌دهد تکیه بر مشاهده رفتار مدل برای تضمین پایداری، یک توهم است و ۸۴ درصد شکست‌های خطرناک را نادیده می‌گیرد. تنها گواهینامه‌های ریاضی می‌توانند پایداری را تضمین…

۴ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

پولشویی دامنه: سازوکار فریب بنچمارک‌های استدلال حقوقی در مدل‌های زبانی

مدل‌های زبانی بزرگ در بنچمارک‌های حقوقی نمرات بالایی کسب می‌کنند، اما در واقعیت منطق را اجرا نمی‌کنند. پژوهشی جدید نشان می‌دهد این مدل‌ها با تقلید از نتایج حل‌کننده‌های رسمی،…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

استانداردسازی تکرارپذیری در ۲۸ روش بازگشت الگوریتمی با RecourseBench

چارچوب RecourseBench با معرفی یک خط لوله‌ی پنج‌لایه، امکان ارزیابی سیستماتیک و تکرارپذیر روش‌های بازگشت الگوریتمی را فراهم کرده است. این ابزار با اعتبارسنجی ۲۸ متد پیشرو، شکاف…

۱ دقیقه خواندن