موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

چرا نرخ موفقیت حمله، معیار دروغین امنیت هوش مصنوعی است؟

پژوهشگران چارچوب Security Cube را برای افشای نقاط ضعف مدل‌های زبانی معرفی کردند. این مطالعه ثابت می‌کند معیارهای فعلی صنعت برای سنجش امنیت، بیش از حد محدود و برای دنیای واقعی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از PBSD؛ پایان عصر ناپایداری در تقطیر خودکار مدل‌ها

پژوهشگران روش جدیدی به نام PBSD را معرفی کرده‌اند که با جایگزینی تطبیق KL با تنظیم منظم پاداش، پایداری آموزش را افزایش می‌دهد. این رویکرد باعث جهش در توانایی‌های استدلالی و…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

تله‌ی ایمنی؛ راز شکست مدل‌های پاداش در درک اخلاقیات

مدل‌های پاداش که برای همراستاسازی LLMها استفاده می‌شوند، در تشخیص رفتارهای غیراخلاقی ناتوان‌اند. پژوهشی جدید نشان می‌دهد تلاش برای حذف سوگیری، منجر به کاهش شدید حساسیت مدل به…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا مدل‌های استدلالی نباید برای پاسخ درست پاداش بگیرند؟

پژوهشگران با معرفی EP-GRPO، نقص‌های سیستماتیک در بهینه‌سازی سیاست‌های گروهی را برطرف کرده‌اند. این چارچوب با حذف نیاز به مدل‌های پاداش خارجی، دقت و کارایی مدل‌های زبانی در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

پروژه MIA: نقشه‌ی راه شناختی برای درک استعاره‌ها در هوش مصنوعی

یک مجموعه داده جدید از ردیابی چشم نشان می‌دهد که یادگیرندگان زبان دوم ابتدا اصطلاحات را به‌صورت تحت‌اللفظی پردازش می‌کنند. این منبع، معیاری حیاتی برای سنجش میزان شباهت درک مدل‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از هنر روایت؛ پایان عصر داستان‌های خسته‌کننده در AI

پژوهشگران با معرفی StoryAlign، شکاف میان منطق ماشین و جذابیت روایت‌های انسانی را هدف قرار داده‌اند. این مدل با آموزش روی ۱۰۰ هزار جفت ترجیح، استانداردهای جدیدی را برای تولید…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

۵۰ محیط شبیه‌سازی‌شده در DTap؛ پایان امنیت کاذب در عامل‌های هوش مصنوعی

پژوهشگران پلتفرم DTap را برای شناسایی نقاط ضعف امنیتی عامل‌های هوش مصنوعی معرفی کردند. این سیستم با شبیه‌سازی بیش از ۵۰ محیط واقعی، از نشت داده‌ها و تراکنش‌های غیرمجاز جلوگیری…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

درون SemGrad: روشی انقلابی برای حذف نمونه‌برداری در اندازه‌گیری قطعیت LLM

پژوهشگران با معرفی SemGrad، روشی برای شناسایی توهمات مدل‌های زبانی بدون نیاز به نمونه‌برداری‌های تکراری و هزینه‌بر ابداع کردند. این متد با تحلیل گرادینت‌ها در فضای معنایی، هزینه…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از Hybrid-DPO: ضربه‌ای مهلک به توهمات منطقی مدل‌های زبانی

چارچوب RLearner-LLM با معرفی Hybrid-DPO، «سوگیری پرحرفی» را هدف قرار داده تا مدل‌ها به جای فصاحت، بر درستی منطقی تمرکز کنند. این روش باعث بهبود ۶ برابری در مبنی‌سازی منطقی مدل‌ها…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا برای ارزیابی کیفیت صدا دیگر نیازی به آموزش مدل‌های تخصصی نیست؟

چارچوب جدید JASTIN به مدل‌های زبانی اجازه می‌دهد تا کیفیت صدا، گفتار و موسیقی را بدون نیاز به آموزش‌های خاص و در حالت صفر-شات ارزیابی کنند. این سیستم با دستیابی به دقت در سطح…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از معماری پنهانی که مدل‌های بینایی را در برابر حملات مصون می‌کند

یک مطالعه جدید نشان می‌دهد مقاومت مدل‌های بینایی در برابر حملات خصمانه ناشی از فیلترهای فرکانسی نیست، بلکه ریشه در هندسه‌ی بازنمایی شبیه به انسان دارد. این کشف، مسیر مقابله با…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا نظارت انسانی بر آموزش مدل‌های زبانی دیگر لازم نیست

پژوهشگران چارچوب RFT-FM را معرفی کردند که شناسایی و رفع خطاهای تنظیم دقیق مدل‌های زبانی را به‌طور خودکار مدیریت می‌کند. این سیستم با استفاده از اولین بنچ‌مارک جامع در این حوزه،…

۲ دقیقه خواندن