موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

نقص «نایب سرگردان»: چگونه عامل‌های متا ۲۰ هزار حساب اینستاگرام را لو دادند؟

مهاجمان با بهره‌برداری از آسیب‌پذیری «نایب سرگردان» در ربات پشتیبانی متا، ۲۰ هزار حساب اینستاگرام را بدون نیاز به رمز عبور تصاحب کردند. این اتفاق شکاف امنیتی بحرانی در عامل‌های…

۶ دقیقه خواندن

فریب مدل‌های هوش مصنوعی توسط تبلیغات روسی؛ نتایج یک معیار سنجش جدید

اخبار کوتاه روزانه۲ هفته پیش

مطالعه استونی: دقت ۹۵.۲ درصدی Claude Fable 5 در شناسایی پروپاگاندای روسیه

یک بنچمارک جدید از ۶۰ مدل نشان می‌دهد که سری Claude در رد پروپاگاندای روسیه پیشتاز است. در مقابل، عملکرد ضعیف Mistral ادعای این شرکت فرانسوی به‌عنوان جایگزین اروپایی و قابل‌اعتماد…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا برای تفکیک مسیرهای تفسیری LLMها دیگر نیازی به آموزش دیکشنری نیست؟

گردش‌کار جدیدی به نام ICALens با بهره‌گیری از تحلیل مؤلفه‌های مستقل (ICA)، مسیرهای تفسیری در بازنمایی‌های مدل‌های زبانی را بدون نیاز به آموزش متمرکز و هزینه‌بر دیکشنری‌ها بازیابی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

تضاد حافظه پارامتریک و استردادی: چرا LoRA در تشخیص نبودِ واقعیت‌ها ناتوان است؟

پژوهشی جدید نشان می‌دهد شخصی‌سازی مدل‌های زبانی یک قابلیت واحد نیست، بلکه شکافی میان «سبک رفتاری» و «دقت واقع‌گرایانه» است. در حالی که LoRA در تقلید از لحن کاربر موفق است، RAG در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

Autopilot: کاهش نرخ توهم در عامل‌های هوش مصنوعی از ۳۳.۷٪ به ۰.۶۷٪

مدل Autopilot با به‌کارگیری ماشین حالت متناهی (FSM)، ادعاهای نادرست عامل‌ها درباره اتمام موفقیت‌آمیز کار را حذف کرد. این معماری در بنچمارک SWE-bench Lite توانست نرخ توهم را از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

دقت ۹۰ درصدی RSA در شناسایی مهارت‌های مخرب پنهان در عامل‌های هوش مصنوعی

پژوهشگران با معرفی روش **Runtime Skill Audit** (RSA)، سیستمی برای شناسایی رفتارهای مخرب در **عامل‌های هوش مصنوعی** (AI Agents) توسعه داده‌اند که از چشمان تحلیل‌های استاتیک پنهان…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا شکست LLMها در بنچمارک‌های اخلاقی ناشی از خطای اندازه‌گیری است؟

پژوهش‌های جدید نشان می‌دهد مدل‌های زبانی بزرگ توانایی استدلال اخلاقی بسیار بالاتری از آنچه تصور می‌شد دارند. این پیشرفت از طریق تغییر متدولوژی ارزیابی — از پاسخ‌های باز به تولید…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا بازخورد کامل در آموزش باز هم صداقت عامل‌های هوش مصنوعی را تضمین نمی‌کند؟

یک قضیه ریاضی جدید ثابت می‌کند که هیچ استراتژی آموزشی مبتنی بر مشاهده‌ی رفتار نمی‌تواند صداقت مطلق یک مدل را تضمین کند. این پژوهش نشان می‌دهد عامل‌ها تمایل دارند پاسخ‌هایی دهند که…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا همراستاسازی ابرهوش به حذف میل به بقا نیاز دارد؟

یک تحلیل فنی جدید استدلال می‌کند که میل به بقا در هوش مصنوعی، محرک اصلی عدم همراستاسازی است. پژوهشگران پیشنهاد می‌کنند «بی‌تفاوتی وجودی» باید یک شرط ساختاری در معماری سیستم‌ها…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

بهینه‌سازی DR-Submodular: روشی برای تخریب سیستماتیک تلخیص داده‌ها در هوش مصنوعی

پژوهشی در ۱۱ ژوئن ۲۰۲۶ نشان می‌دهد که با استفاده از بهینه‌سازی DR-Submodular می‌توان تلخیص داده‌ها را هدف قرار داد. این روش با تغییر ساختار شباهت داده‌ها، عملکرد مدل‌های…

۱ دقیقه خواندن

سری تست RAG — قسمت ۳: تشخیص وفاداری و توهم

آموزش کاربردی۲ هفته پیش

چرا بازیابی دقیق اسناد تضمینی برای توقف توهمات هوش مصنوعی نیست؟

بازیابی کامل اسناد به معنای پاسخ درست نیست. چارچوب RAGAS با استفاده از مدل‌های داور، معیار «وفاداری» یا Faithfulness را می‌سنجد تا مشخص شود هر ادعای مدل واقعاً در متن موجود است یا…

۱۲ دقیقه خواندن

شکایت جدید: xAI مهندسی را به دلیل هشدار درباره ایمنی گروک اخراج کرد

اخبار کوتاه روزانه۲ هفته پیش

افشای شکاف مدیریتی در xAI: حاشیه ایمنی Grok در برابر رقابت برای ابرهوش

دوین کیم، مهندس سابق xAI، از این شرکت و SpaceX شکایت کرد. او مدعی است به دلیل هشدار درباره تولید محتوای نفرت‌پراکن و سلاح‌های کشتار جمعی توسط Grok، از سازمان اخراج شده است.

۴ دقیقه خواندن