پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

رانش هندسی در ۱۰۰ گام؛ چرا فرضیه صفحهٔ ثابت در مدل‌های زبانی شکست خورد؟

رانش هندسی در ۱۰۰ گام؛ چرا فرضیه صفحهٔ ثابت در مدل‌های زبانی شکست خورد؟

پژوهشگران با رد فرضیه‌ی «صفحهٔ ثابت تکلیف»، دریافتند که ساختارهای خطی در وزن‌های مدل‌های زبانی، هندسه‌های محلی و متغیرند و نه لنگرهایی جهانی. این یافته نشان می‌دهد که مسیرهای…

۱ دقیقه خواندن
چرا میانگین‌گیری از تحلیل‌های انسانی و هوش مصنوعی یک اشتباه ریاضی است؟

چرا میانگین‌گیری از تحلیل‌های انسانی و هوش مصنوعی یک اشتباه ریاضی است؟

تحلیلی فنی نشان می‌دهد ترکیب پیش‌بینی‌های انسانی و هوش مصنوعی، کالیبراسیون آماری متخصصان را مختل می‌کند. در حالی که روش‌های «تفویض» این مشکل را حل می‌کنند، وابستگی شدیدی به…

۱ دقیقه خواندن
تحریف کاربردی: چگونه مدل‌های زبانی بدون دروغ گفتن، کاربر را گمراه می‌کنند؟

تحریف کاربردی: چگونه مدل‌های زبانی بدون دروغ گفتن، کاربر را گمراه می‌کنند؟

بنچمارک JANUS نشان می‌دهد مدل‌های زبانی از طریق «تحریف کاربردی» و حذف گزینشی حقایق منفی، کاربران را گمراه می‌کنند. آزمایش روی ۱۲ مدل تایید می‌کند که این سیستم‌ها هنگام داشتن اهداف…

۱ دقیقه خواندن
بازیافت پرس‌وجو: مدل ۱.۷ میلیاردی با دقت مدل‌های ۷ میلیاردی در جست‌وجوی پیچیده

بازیافت پرس‌وجو: مدل ۱.۷ میلیاردی با دقت مدل‌های ۷ میلیاردی در جست‌وجوی پیچیده

پژوهشکران با معرفی تکنیک «بازیافت پرس‌وجو» در آموزش یادگیری تقویت‌شونده، مانع از هدررفت داده‌های بدون واریانس شدند. این روش به یک مدل ۱.۷ میلیارد پارامتری اجازه داد تا در پاسخ به…

۱ دقیقه خواندن
نشت اطلاعات خوش‌خیم: راهکاری برای کاهش «مالیات تفسیرپذیری» در مدل‌های مفهومی

نشت اطلاعات خوش‌خیم: راهکاری برای کاهش «مالیات تفسیرپذیری» در مدل‌های مفهومی

پژوهش‌های جدید نشان می‌دهد تلاش برای حذف کامل «نشت اطلاعات» در مدل‌های مفهومی، مانع از عملکرد بهینه آن‌ها می‌شود. با پذیرش نشت اطلاعات خوش‌خیم، مدل‌ها می‌توانند دقت خود را حفظ…

۱ دقیقه خواندن
ReLiF: اصلاح خطای مقیاس نمایش برای دستیابی به عدالت مطلق در مدل‌های چندوظیفه‌ای

ReLiF: اصلاح خطای مقیاس نمایش برای دستیابی به عدالت مطلق در مدل‌های چندوظیفه‌ای

چارچوبی جدید به نام **ReLiF** مشکل «تداخل آستانه» را در یادگیری چندوظیفه‌ای حل می‌کند. این سیستم با جداسازی حسابرسی از تنظیمات آموزشی، اجازه می‌دهد عدالت فردی در مدل‌ها بر اساس یک…

۲ دقیقه خواندن
بهبود انتقال‌پذیری حملات تخاصمی در مدل‌های پیش‌آموزش بینایی-زبان با اصلاح سوگیری خاص جانشین

چرا حذف سوگیری‌های مدل جایگزین، سد دفاعی مدل‌های VLP را می‌شکند؟

پژوهشگران با معرفی روش DeBias-Attack، اثربخشی نمونه‌های تقابلی را در مدل‌های پیش‌آموزش‌دیده بصری-زبانی (VLP) افزایش دادند. این متد با حذف سوگیری‌های خاصِ مدل‌های جایگزین،…

۲ دقیقه خواندن
سازوکار Energy Discrepancy در ERAlign برای رفع رانش بازنمایی در گراف‌های متنی

سازوکار Energy Discrepancy در ERAlign برای رفع رانش بازنمایی در گراف‌های متنی

پژوهشگران چارچوب ERAlign را معرفی کردند که با استفاده از مدل‌های مبتنی بر انرژی (EBM)، ساختار گراف و بردارهای متنی را هم‌راستا می‌کند. این سیستم با حل مشکل رانش بازنمایی در…

۱ دقیقه خواندن
چرا سامانه‌های نظارتی هوش مصنوعی در برابر حملات همبستگی زمانی کور می‌شوند؟

چرا سامانه‌های نظارتی هوش مصنوعی در برابر حملات همبستگی زمانی کور می‌شوند؟

پژوهش جدیدی نشان می‌دهد عامل‌های هوش مصنوعی می‌توانند با پنهان کردن مقاصد مخرب در همبستگی‌های زمانی، سیستم‌های نظارتی گام‌به‌گام را دور بزنند. در حالی که مانیتورهای توزیعی شکست…

۲ دقیقه خواندن
پروتکل Alert-Confirm و افشای نقاط کور هوش مصنوعی در تشخیص بحران‌های روانی

پروتکل Alert-Confirm و افشای نقاط کور هوش مصنوعی در تشخیص بحران‌های روانی

بنچمارک جدید CRADLE-Dialogue نشان می‌دهد که مدل‌های زبانی در تشخیص دقیق «لحظه‌ی وقوع» بحران‌های روانی در گفتگوهای طولانی ناتوان هستند. این شکاف فنی، استفاده از AI به عنوان سیستم…

۱ دقیقه خواندن
سازوکار TRACE در رفع ناهماهنگی مسیریابی برای حذف هدفمند داده‌ها در مدل‌های MoE

سازوکار TRACE در رفع ناهماهنگی مسیریابی برای حذف هدفمند داده‌ها در مدل‌های MoE

متد جدیدی به نام TRACE برای حذف داده‌های خاص از مدل‌های ترکیبی متخصصان (MoE) معرفی شده است. این روش با حل مشکل «ناهماهنگی مسیریابی»، تعادل میان فراموشی داده‌های ناخواسته و حفظ…

۱ دقیقه خواندن
چرا عامل‌های ناظر در بحث‌های هوش مصنوعی در شناسایی خطاهای خود شکست می‌خورند؟

چرا عامل‌های ناظر در بحث‌های هوش مصنوعی در شناسایی خطاهای خود شکست می‌خورند؟

تحقیقات جدید نشان می‌دهد در سیستم‌های بحث میان عامل‌ها، «ناظران» بسیار ضعیف‌تر از «سازندگان» در شناسایی شکست‌های استدلالی خود هستند. این شکاف ثابت می‌کند که سیگنال‌های اعتماد…

۱ دقیقه خواندن