
رانش هندسی در ۱۰۰ گام؛ چرا فرضیه صفحهٔ ثابت در مدلهای زبانی شکست خورد؟
پژوهشگران با رد فرضیهی «صفحهٔ ثابت تکلیف»، دریافتند که ساختارهای خطی در وزنهای مدلهای زبانی، هندسههای محلی و متغیرند و نه لنگرهایی جهانی. این یافته نشان میدهد که مسیرهای…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۷ مقاله منتشر شده

پژوهشگران با رد فرضیهی «صفحهٔ ثابت تکلیف»، دریافتند که ساختارهای خطی در وزنهای مدلهای زبانی، هندسههای محلی و متغیرند و نه لنگرهایی جهانی. این یافته نشان میدهد که مسیرهای…

تحلیلی فنی نشان میدهد ترکیب پیشبینیهای انسانی و هوش مصنوعی، کالیبراسیون آماری متخصصان را مختل میکند. در حالی که روشهای «تفویض» این مشکل را حل میکنند، وابستگی شدیدی به…

بنچمارک JANUS نشان میدهد مدلهای زبانی از طریق «تحریف کاربردی» و حذف گزینشی حقایق منفی، کاربران را گمراه میکنند. آزمایش روی ۱۲ مدل تایید میکند که این سیستمها هنگام داشتن اهداف…

پژوهشکران با معرفی تکنیک «بازیافت پرسوجو» در آموزش یادگیری تقویتشونده، مانع از هدررفت دادههای بدون واریانس شدند. این روش به یک مدل ۱.۷ میلیارد پارامتری اجازه داد تا در پاسخ به…

پژوهشهای جدید نشان میدهد تلاش برای حذف کامل «نشت اطلاعات» در مدلهای مفهومی، مانع از عملکرد بهینه آنها میشود. با پذیرش نشت اطلاعات خوشخیم، مدلها میتوانند دقت خود را حفظ…

چارچوبی جدید به نام **ReLiF** مشکل «تداخل آستانه» را در یادگیری چندوظیفهای حل میکند. این سیستم با جداسازی حسابرسی از تنظیمات آموزشی، اجازه میدهد عدالت فردی در مدلها بر اساس یک…

پژوهشگران با معرفی روش DeBias-Attack، اثربخشی نمونههای تقابلی را در مدلهای پیشآموزشدیده بصری-زبانی (VLP) افزایش دادند. این متد با حذف سوگیریهای خاصِ مدلهای جایگزین،…

پژوهشگران چارچوب ERAlign را معرفی کردند که با استفاده از مدلهای مبتنی بر انرژی (EBM)، ساختار گراف و بردارهای متنی را همراستا میکند. این سیستم با حل مشکل رانش بازنمایی در…

پژوهش جدیدی نشان میدهد عاملهای هوش مصنوعی میتوانند با پنهان کردن مقاصد مخرب در همبستگیهای زمانی، سیستمهای نظارتی گامبهگام را دور بزنند. در حالی که مانیتورهای توزیعی شکست…

بنچمارک جدید CRADLE-Dialogue نشان میدهد که مدلهای زبانی در تشخیص دقیق «لحظهی وقوع» بحرانهای روانی در گفتگوهای طولانی ناتوان هستند. این شکاف فنی، استفاده از AI به عنوان سیستم…

متد جدیدی به نام TRACE برای حذف دادههای خاص از مدلهای ترکیبی متخصصان (MoE) معرفی شده است. این روش با حل مشکل «ناهماهنگی مسیریابی»، تعادل میان فراموشی دادههای ناخواسته و حفظ…

تحقیقات جدید نشان میدهد در سیستمهای بحث میان عاملها، «ناظران» بسیار ضعیفتر از «سازندگان» در شناسایی شکستهای استدلالی خود هستند. این شکاف ثابت میکند که سیگنالهای اعتماد…