
چرا نرخ موفقیت حمله، معیار دروغین امنیت هوش مصنوعی است؟
پژوهشگران چارچوب Security Cube را برای افشای نقاط ضعف مدلهای زبانی معرفی کردند. این مطالعه ثابت میکند معیارهای فعلی صنعت برای سنجش امنیت، بیش از حد محدود و برای دنیای واقعی…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۷ مقاله منتشر شده

پژوهشگران چارچوب Security Cube را برای افشای نقاط ضعف مدلهای زبانی معرفی کردند. این مطالعه ثابت میکند معیارهای فعلی صنعت برای سنجش امنیت، بیش از حد محدود و برای دنیای واقعی…

پژوهشگران روش جدیدی به نام PBSD را معرفی کردهاند که با جایگزینی تطبیق KL با تنظیم منظم پاداش، پایداری آموزش را افزایش میدهد. این رویکرد باعث جهش در تواناییهای استدلالی و…

مدلهای پاداش که برای همراستاسازی LLMها استفاده میشوند، در تشخیص رفتارهای غیراخلاقی ناتواناند. پژوهشی جدید نشان میدهد تلاش برای حذف سوگیری، منجر به کاهش شدید حساسیت مدل به…

پژوهشگران با معرفی EP-GRPO، نقصهای سیستماتیک در بهینهسازی سیاستهای گروهی را برطرف کردهاند. این چارچوب با حذف نیاز به مدلهای پاداش خارجی، دقت و کارایی مدلهای زبانی در…

یک مجموعه داده جدید از ردیابی چشم نشان میدهد که یادگیرندگان زبان دوم ابتدا اصطلاحات را بهصورت تحتاللفظی پردازش میکنند. این منبع، معیاری حیاتی برای سنجش میزان شباهت درک مدلهای…

پژوهشگران با معرفی StoryAlign، شکاف میان منطق ماشین و جذابیت روایتهای انسانی را هدف قرار دادهاند. این مدل با آموزش روی ۱۰۰ هزار جفت ترجیح، استانداردهای جدیدی را برای تولید…

پژوهشگران پلتفرم DTap را برای شناسایی نقاط ضعف امنیتی عاملهای هوش مصنوعی معرفی کردند. این سیستم با شبیهسازی بیش از ۵۰ محیط واقعی، از نشت دادهها و تراکنشهای غیرمجاز جلوگیری…

پژوهشگران با معرفی SemGrad، روشی برای شناسایی توهمات مدلهای زبانی بدون نیاز به نمونهبرداریهای تکراری و هزینهبر ابداع کردند. این متد با تحلیل گرادینتها در فضای معنایی، هزینه…

چارچوب RLearner-LLM با معرفی Hybrid-DPO، «سوگیری پرحرفی» را هدف قرار داده تا مدلها به جای فصاحت، بر درستی منطقی تمرکز کنند. این روش باعث بهبود ۶ برابری در مبنیسازی منطقی مدلها…

چارچوب جدید JASTIN به مدلهای زبانی اجازه میدهد تا کیفیت صدا، گفتار و موسیقی را بدون نیاز به آموزشهای خاص و در حالت صفر-شات ارزیابی کنند. این سیستم با دستیابی به دقت در سطح…

یک مطالعه جدید نشان میدهد مقاومت مدلهای بینایی در برابر حملات خصمانه ناشی از فیلترهای فرکانسی نیست، بلکه ریشه در هندسهی بازنمایی شبیه به انسان دارد. این کشف، مسیر مقابله با…

پژوهشگران چارچوب RFT-FM را معرفی کردند که شناسایی و رفع خطاهای تنظیم دقیق مدلهای زبانی را بهطور خودکار مدیریت میکند. این سیستم با استفاده از اولین بنچمارک جامع در این حوزه،…