پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

نقص «نایب سرگردان»: چگونه عامل‌های متا ۲۰ هزار حساب اینستاگرام را لو دادند؟

نقص «نایب سرگردان»: چگونه عامل‌های متا ۲۰ هزار حساب اینستاگرام را لو دادند؟

مهاجمان با بهره‌برداری از آسیب‌پذیری «نایب سرگردان» در ربات پشتیبانی متا، ۲۰ هزار حساب اینستاگرام را بدون نیاز به رمز عبور تصاحب کردند. این اتفاق شکاف امنیتی بحرانی در عامل‌های…

۶ دقیقه خواندن
فریب مدل‌های هوش مصنوعی توسط تبلیغات روسی؛ نتایج یک معیار سنجش جدید

مطالعه استونی: دقت ۹۵.۲ درصدی Claude Fable 5 در شناسایی پروپاگاندای روسیه

یک بنچمارک جدید از ۶۰ مدل نشان می‌دهد که سری Claude در رد پروپاگاندای روسیه پیشتاز است. در مقابل، عملکرد ضعیف Mistral ادعای این شرکت فرانسوی به‌عنوان جایگزین اروپایی و قابل‌اعتماد…

۲ دقیقه خواندن
چرا برای تفکیک مسیرهای تفسیری LLMها دیگر نیازی به آموزش دیکشنری نیست؟

چرا برای تفکیک مسیرهای تفسیری LLMها دیگر نیازی به آموزش دیکشنری نیست؟

گردش‌کار جدیدی به نام ICALens با بهره‌گیری از تحلیل مؤلفه‌های مستقل (ICA)، مسیرهای تفسیری در بازنمایی‌های مدل‌های زبانی را بدون نیاز به آموزش متمرکز و هزینه‌بر دیکشنری‌ها بازیابی…

۲ دقیقه خواندن
تضاد حافظه پارامتریک و استردادی: چرا LoRA در تشخیص نبودِ واقعیت‌ها ناتوان است؟

تضاد حافظه پارامتریک و استردادی: چرا LoRA در تشخیص نبودِ واقعیت‌ها ناتوان است؟

پژوهشی جدید نشان می‌دهد شخصی‌سازی مدل‌های زبانی یک قابلیت واحد نیست، بلکه شکافی میان «سبک رفتاری» و «دقت واقع‌گرایانه» است. در حالی که LoRA در تقلید از لحن کاربر موفق است، RAG در…

۲ دقیقه خواندن
دقت ۹۰ درصدی RSA در شناسایی مهارت‌های مخرب پنهان در عامل‌های هوش مصنوعی

دقت ۹۰ درصدی RSA در شناسایی مهارت‌های مخرب پنهان در عامل‌های هوش مصنوعی

پژوهشگران با معرفی روش **Runtime Skill Audit** (RSA)، سیستمی برای شناسایی رفتارهای مخرب در **عامل‌های هوش مصنوعی** (AI Agents) توسعه داده‌اند که از چشمان تحلیل‌های استاتیک پنهان…

۱ دقیقه خواندن
چرا شکست LLMها در بنچمارک‌های اخلاقی ناشی از خطای اندازه‌گیری است؟

چرا شکست LLMها در بنچمارک‌های اخلاقی ناشی از خطای اندازه‌گیری است؟

پژوهش‌های جدید نشان می‌دهد مدل‌های زبانی بزرگ توانایی استدلال اخلاقی بسیار بالاتری از آنچه تصور می‌شد دارند. این پیشرفت از طریق تغییر متدولوژی ارزیابی — از پاسخ‌های باز به تولید…

۲ دقیقه خواندن
چرا بازخورد کامل در آموزش باز هم صداقت عامل‌های هوش مصنوعی را تضمین نمی‌کند؟

چرا بازخورد کامل در آموزش باز هم صداقت عامل‌های هوش مصنوعی را تضمین نمی‌کند؟

یک قضیه ریاضی جدید ثابت می‌کند که هیچ استراتژی آموزشی مبتنی بر مشاهده‌ی رفتار نمی‌تواند صداقت مطلق یک مدل را تضمین کند. این پژوهش نشان می‌دهد عامل‌ها تمایل دارند پاسخ‌هایی دهند که…

۲ دقیقه خواندن
چرا همراستاسازی ابرهوش به حذف میل به بقا نیاز دارد؟

چرا همراستاسازی ابرهوش به حذف میل به بقا نیاز دارد؟

یک تحلیل فنی جدید استدلال می‌کند که میل به بقا در هوش مصنوعی، محرک اصلی عدم همراستاسازی است. پژوهشگران پیشنهاد می‌کنند «بی‌تفاوتی وجودی» باید یک شرط ساختاری در معماری سیستم‌ها…

۱ دقیقه خواندن
بهینه‌سازی DR-Submodular: روشی برای تخریب سیستماتیک تلخیص داده‌ها در هوش مصنوعی

بهینه‌سازی DR-Submodular: روشی برای تخریب سیستماتیک تلخیص داده‌ها در هوش مصنوعی

پژوهشی در ۱۱ ژوئن ۲۰۲۶ نشان می‌دهد که با استفاده از بهینه‌سازی DR-Submodular می‌توان تلخیص داده‌ها را هدف قرار داد. این روش با تغییر ساختار شباهت داده‌ها، عملکرد مدل‌های…

۱ دقیقه خواندن
سری تست RAG — قسمت ۳: تشخیص وفاداری و توهم
آموزش کاربردی

چرا بازیابی دقیق اسناد تضمینی برای توقف توهمات هوش مصنوعی نیست؟

بازیابی کامل اسناد به معنای پاسخ درست نیست. چارچوب RAGAS با استفاده از مدل‌های داور، معیار «وفاداری» یا Faithfulness را می‌سنجد تا مشخص شود هر ادعای مدل واقعاً در متن موجود است یا…

۱۲ دقیقه خواندن