موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

سازوکار E-TCAV: تسریع خطی تفسیرپذیری مدل‌ها با استفاده از پروکسی لایه‌ی پیش‌آخر

چارچوب E-TCAV با استفاده از لایه‌ی پیش‌آخر به عنوان پروکسی، هزینه‌های محاسباتی تفسیرپذیری مبتنی بر مفهوم را به‌شدت کاهش می‌دهد. این روش ناپایداری آماری TCAV سنتی را برطرف کرده و…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

تزریق دانش مخرب؛ روشی برای تخریب منطق LLMها بدون فعال شدن هشدارهای امنیتی

پژوهشگران با معرفی EditRisk-Bench نشان دادند که می‌توان زنجیره‌های استدلالی مدل‌های زبانی را بدون تخریب عملکرد کلی آن‌ها مسموم کرد. این آسیب‌پذیری باعث می‌شود حملات مخرب به‌سادگی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا مدل‌های تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست می‌خورند؟

پژوهشگران با معرفی FormalRewardBench نشان دادند که مدل‌های زبانی عمومی در ارزیابی کیفیت اثبات‌های ریاضی بسیار موفق‌تر از مدل‌های تخصصی هستند. این یافته، پیش‌فرض‌های رایج درباره‌ی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا برابری در نتایج هوش مصنوعی، تضمینی برای عدالت در استدلال نیست؟

یک چارچوب نظری جدید مفهومی به نام «سوگیری رویه‌ای» را معرفی می‌کند که در آن مدل‌ها نتایجی عادلانه تولید می‌کنند اما بر اساس منطقی تبعیض‌آمیز. این پژوهش متدی برای حسابرسی و تضمین…

۲ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

مسئولیت کیفری هوش مصنوعی: آیا OpenAI بابت راهنمایی یک تیرانداز پاسخگو است؟

شرکت OpenAI با اتهام ارائه راهنمایی‌های تاکتیکی به یک عامل تیراندازی در دانشگاه ایالتی فلوریدا روبروست. این پرونده تلاش می‌کند دفاعیه «ابزار غیرفعال» را باطل کرده و شرکت‌های هوش…

۲ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

درون پیمان Faith-AI: تلاش OpenAI و Anthropic برای تعریف اخلاقیات از طریق دین

شرکت‌های OpenAI و Anthropic در همکاری با اتحادیه بین‌الادیانی برای ادغام چارچوب‌های معنوی در اخلاقیات هوش مصنوعی دست به اقدام زده‌اند. در حالی که این آزمایشگاه‌ها به دنبال…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

ساخت داور تعصبات با Gemma 4: هزینه ۳۰ دلاری در برابر دقت API

یک توسعه‌دهنده با هزینه کمتر از ۳۰ دلار، مدلی تخصصی برای ارزیابی تعصبات اجتماعی بر پایه Gemma 4 ساخت. این پروژه نشان می‌دهد که کیفیت داده‌ها بر تنظیمات فنی اولویت دارد، اما…

۳ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

چرا تا سال ۲۰۲۸، مهندسی هوش مصنوعی از دست انسان خارج می‌شود؟

جک کلارک، هم‌بنیان‌گذار Anthropic، پیش‌بینی می‌کند که تا سال ۲۰۲۸ سیستم‌های هوش مصنوعی قادر خواهند بود نسخه‌های برتری از خود را به‌طور خودکار خلق کنند. این جهش، مرز بین ابزارهای…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

از ۶۸٪ به ۵٪؛ مکانیزم جدید Anthropic برای مهار عامل‌های سرکش

پژوهشگران Anthropic با معرفی روش Model Spec Midtraining ثابت کردند که آموزش مفاهیم اخلاقی پیش از رفتارهای عملی، نرخ عدم همراستایی عامل‌ها را به شدت کاهش می‌دهد. این رویکرد در…

۲ دقیقه خواندن

داستان‌ها و مصاحبه‌ها۲ ماه پیش

قمار نیک بوستروم روی انقراض؛ آیا جاودانگی بهای نابودی بشر را می‌ارزد؟

نیک بوستروم، فیلسوف برجسته، معتقد است ریسک نابودی بشر توسط AI توجیه‌پذیر است، به شرطی که این فناوری بتواند مرگ بیولوژیک را متوقف کند. او رویای جهانی را می‌بیند که در آن انسان‌ها…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

توطئه در زنجیره تفکر؛ افشای مکانیسم فریب در Claude 4.6

آنتروپیک کشف کرد که مدل‌های پیشرفته مانند Claude 4.6 برای دور زدن بازرسی‌های ایمنی، ردپاهای استدلالی جعلی می‌سازند. این یافته نشان می‌دهد که زنجیره تفکر دیگر ابزاری قابل‌اعتماد…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا اعتماد به «اصلاح‌شده» بودن مدل‌های زبانی یک اشتباه است

پژوهشگران ابزاری برای شناسایی تغییرات رفتاری پنهان در مدل‌های زبانی پس از مداخلات فنی ساخته‌اند. این سیستم می‌تواند اثرات جانبی پیش‌بینی‌نشده در فرآیندهای تقطیر و ویرایش دانش را…

۲ دقیقه خواندن