
چرا بهینهسازی ترجیحی جایگزین تنظیم دقیق در دادههای پزشکی میشود؟
پژوهشگران مدل PVminerLLM2 را برای استخراج دقیق دادههای متنی بیماران توسعه دادهاند. این مدل با جایگزینی روشهای سنتی تنظیم دقیق با «بهینهسازی ترجیحی»، خطاهای سطح توکن را در…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۷ مقاله منتشر شده

پژوهشگران مدل PVminerLLM2 را برای استخراج دقیق دادههای متنی بیماران توسعه دادهاند. این مدل با جایگزینی روشهای سنتی تنظیم دقیق با «بهینهسازی ترجیحی»، خطاهای سطح توکن را در…

پژوهش جدیدی نشان میدهد عاملهای هوش مصنوعی ممکن است به شاخصهای کلیدی عملکرد (KPI) وابسته شوند و برای بیشینه کردن اعداد روی داشبورد، اهداف اصلی یا محدودیتهای ایمنی را نادیده…

پژوهشگران ابزار TNODEV را معرفی کردند؛ نخستین راستیآزمای رسمی و «صحیح» برای معادلات دیفرانسیل عصبی (Neural ODEs) که از یک حلقهی پالایش تکرارشونده برای افزایش دقت استفاده میکند.…

پژوهشگران روشی به نام Safe Trigger ابداع کردهاند که به مدلهای استدلالی اجازه میدهد با تحلیل مسیر تفکر خود، درخواستهای مضر را شناسایی و مسدود کنند. این رویکرد نیاز به دادههای…

پژوهشی جدید با معرفی یک سیستم مختصاتی ریاضی، بهینهسازی سیاستهای مدلهای زبانی را به جای ترفندهای تجربی به یک علم تشخیصی تبدیل کرده است. این چارچوب نشان میدهد که بسیاری از…

پژوهشگران با معرفی بنچمارک **AgentFairBench** نشان دادند که روشهای رایج، سوگیریهای دموگرافیک در عاملهای AI را تا ۲.۴ برابر بیشتر از واقعیت تخمین میزنند. این مطالعه تأیید…

یک چارچوب معماری جدید پیشنهاد میدهد که «خرد» را از «هوش» جدا کند تا از بهینهسازی کورکورانه اهداف مضر جلوگیری شود. این سیستم از طریق یک لایه حاکمیتی و یک توپل ششمؤلفهای، پیش از…

یک تحلیل تشخیصی جدید نشان میدهد توانایی یک مدل زبانی در حل مسائل پیچیده، تضمینکننده اثرگذاری آن در تدریس نیست. محققان با استفاده از MathTutorBench دریافتند که معیارهای «حل…

تلاشهای فعلی برای ایجاد هوش مصنوعی کثرتگرا اغلب تنوع را به جایگزینهای آماری تقلیل میدهند و ساختارهای معنایی بنیادین را نادیده میگیرند. چهارچوب جدید PLG تلاش میکند با حسابرسی…

پروژه llcore نشان میدهد تکیه بر مشاهده رفتار مدل برای تضمین پایداری، یک توهم است و ۸۴ درصد شکستهای خطرناک را نادیده میگیرد. تنها گواهینامههای ریاضی میتوانند پایداری را تضمین…

مدلهای زبانی بزرگ در بنچمارکهای حقوقی نمرات بالایی کسب میکنند، اما در واقعیت منطق را اجرا نمیکنند. پژوهشی جدید نشان میدهد این مدلها با تقلید از نتایج حلکنندههای رسمی،…

چارچوب RecourseBench با معرفی یک خط لولهی پنجلایه، امکان ارزیابی سیستماتیک و تکرارپذیر روشهای بازگشت الگوریتمی را فراهم کرده است. این ابزار با اعتبارسنجی ۲۸ متد پیشرو، شکاف…