پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

پروژه MIA: نقشه‌ی راه شناختی برای درک استعاره‌ها در هوش مصنوعی

پروژه MIA: نقشه‌ی راه شناختی برای درک استعاره‌ها در هوش مصنوعی

یک مجموعه داده جدید از ردیابی چشم نشان می‌دهد که یادگیرندگان زبان دوم ابتدا اصطلاحات را به‌صورت تحت‌اللفظی پردازش می‌کنند. این منبع، معیاری حیاتی برای سنجش میزان شباهت درک مدل‌های…

۲ دقیقه خواندن
رمزگشایی از هنر روایت؛ پایان عصر داستان‌های خسته‌کننده در AI

رمزگشایی از هنر روایت؛ پایان عصر داستان‌های خسته‌کننده در AI

پژوهشگران با معرفی StoryAlign، شکاف میان منطق ماشین و جذابیت روایت‌های انسانی را هدف قرار داده‌اند. این مدل با آموزش روی ۱۰۰ هزار جفت ترجیح، استانداردهای جدیدی را برای تولید…

۲ دقیقه خواندن
۵۰ محیط شبیه‌سازی‌شده در DTap؛ پایان امنیت کاذب در عامل‌های هوش مصنوعی

۵۰ محیط شبیه‌سازی‌شده در DTap؛ پایان امنیت کاذب در عامل‌های هوش مصنوعی

پژوهشگران پلتفرم DTap را برای شناسایی نقاط ضعف امنیتی عامل‌های هوش مصنوعی معرفی کردند. این سیستم با شبیه‌سازی بیش از ۵۰ محیط واقعی، از نشت داده‌ها و تراکنش‌های غیرمجاز جلوگیری…

۲ دقیقه خواندن
درون SemGrad: روشی انقلابی برای حذف نمونه‌برداری در اندازه‌گیری قطعیت LLM

درون SemGrad: روشی انقلابی برای حذف نمونه‌برداری در اندازه‌گیری قطعیت LLM

پژوهشگران با معرفی SemGrad، روشی برای شناسایی توهمات مدل‌های زبانی بدون نیاز به نمونه‌برداری‌های تکراری و هزینه‌بر ابداع کردند. این متد با تحلیل گرادینت‌ها در فضای معنایی، هزینه…

۲ دقیقه خواندن
رمزگشایی از Hybrid-DPO: ضربه‌ای مهلک به توهمات منطقی مدل‌های زبانی

رمزگشایی از Hybrid-DPO: ضربه‌ای مهلک به توهمات منطقی مدل‌های زبانی

چارچوب RLearner-LLM با معرفی Hybrid-DPO، «سوگیری پرحرفی» را هدف قرار داده تا مدل‌ها به جای فصاحت، بر درستی منطقی تمرکز کنند. این روش باعث بهبود ۶ برابری در مبنی‌سازی منطقی مدل‌ها…

۲ دقیقه خواندن
چرا برای ارزیابی کیفیت صدا دیگر نیازی به آموزش مدل‌های تخصصی نیست؟

چرا برای ارزیابی کیفیت صدا دیگر نیازی به آموزش مدل‌های تخصصی نیست؟

چارچوب جدید JASTIN به مدل‌های زبانی اجازه می‌دهد تا کیفیت صدا، گفتار و موسیقی را بدون نیاز به آموزش‌های خاص و در حالت صفر-شات ارزیابی کنند. این سیستم با دستیابی به دقت در سطح…

۲ دقیقه خواندن
رمزگشایی از معماری پنهانی که مدل‌های بینایی را در برابر حملات مصون می‌کند

رمزگشایی از معماری پنهانی که مدل‌های بینایی را در برابر حملات مصون می‌کند

یک مطالعه جدید نشان می‌دهد مقاومت مدل‌های بینایی در برابر حملات خصمانه ناشی از فیلترهای فرکانسی نیست، بلکه ریشه در هندسه‌ی بازنمایی شبیه به انسان دارد. این کشف، مسیر مقابله با…

۲ دقیقه خواندن
چرا نظارت انسانی بر آموزش مدل‌های زبانی دیگر لازم نیست

چرا نظارت انسانی بر آموزش مدل‌های زبانی دیگر لازم نیست

پژوهشگران چارچوب RFT-FM را معرفی کردند که شناسایی و رفع خطاهای تنظیم دقیق مدل‌های زبانی را به‌طور خودکار مدیریت می‌کند. این سیستم با استفاده از اولین بنچ‌مارک جامع در این حوزه،…

۲ دقیقه خواندن