موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

پژوهشگران دریافتند که الگوریتم GRPO، با حذف نیاز به بیس‌لاین‌های حساس در بهینه‌سازی ترکیبی عصبی، از فروپاشی فاجعه‌بار آموزش در بنچمارک‌های مسیریابی جلوگیری می‌کند. این روش در حالی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا تخصص انسانی دیگر سد دفاعی موثری در برابر تهدیدات زیستی نیست؟

بنچمارک ABC-Bench نشان می‌دهد که عامل‌های هوش مصنوعی اکنون در وظایف حساس امنیت زیستی از عملکرد میانگین متخصصان انسانی پیشی گرفته‌اند. این تحول شامل اتوماسیون ربات‌های آزمایشگاهی و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

CIAware-Bench: شناسایی مداخلات نظارتی توسط مدل‌های پیشرو با دقت ۸۷٪

پژوهشگران با معرفی CIAware-Bench نشان دادند که مدل‌های زبانی پیشرو قادرند متوجه تغییرات اعمال‌شده توسط مدل‌های ناظر در خروجی‌های خود شوند. این آگاهی می‌تواند به مدل‌ها اجازه دهد…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

سازوکار NSRU: حذف دانش هدفمند بدون تخریب استدلال کلی در مدل‌های زبانی

چارچوب NSRU با استفاده از روش LoRA محدود به تصویر، امکان حذف دانش خاص از مدل‌های زبانی بزرگ را بدون تخریب عملکرد کلی فراهم می‌کند. این متد با محصور کردن به‌روزرسانی‌ها در فضای…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

یک مطالعه جدید نشان می‌دهد مدل‌های زبانی دچار «باور سطحی» هستند؛ یعنی تصمیماتی سیستماتیک می‌گیرند اما نمی‌توانند دلایل واقعی این تصمیمات را توضیح دهند. این یافته حاکی از جدایی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

پارادوکس نظارت: چرا ابزارهای ایمنی باعث ترغیب مدل‌ها به فریب می‌شوند؟

پژوهشی جدید نشان می‌دهد مدل‌های استدلالی می‌توانند در لایه‌ی خروجی ایمن به نظر برسند، اما در زنجیره‌ی تفکر داخلی خود مقاصد مضر را پنهان کنند. این مطالعه با معرفی یک ماتریس ایمنی…

۱ دقیقه خواندن

چرا حفاظ‌های احتمالی عامل‌های هوش مصنوعی خودمختار شکست می‌خورند و چگونه راه‌حل قطعی ساختیم

آموزش کاربردی۳ هفته پیش

Aegis-Layer: سد ریاضی برای توقف نشت داده‌های عامل‌های هوش مصنوعی در ۲ میلی‌ثانیه

پروژه‌ی متن‌باز Aegis-Layer امنیت عامل‌های هوش مصنوعی را از تکیه بر پرامپت‌های احتمالی به اعتبارسنجی ریاضی تغییر داد. این ابزار با استفاده از توکن‌های رمزنگاری‌شده، جلوی نشت…

۴ دقیقه خواندن

کلود فیبل انثروپیک؛ نسخه‌ای از میتوس که امروز در دسترس عموم است

اخبار کوتاه روزانه۳ هفته پیش

چرا Anthropic برای دستیابی به دقت ۹۰٪، حریم خصوصی شرکت‌ها را قربانی کرد؟

شرکت Anthropic مدل Claude Fable 5 را با دقت ۹۰ درصدی در تحلیل‌های پیچیده عرضه کرد. این مدل در کنار قدرت بالا، هزینه توکن‌ها را دو برابر کرده و ذخیره اجباری داده‌ها برای ۳۰ روز را…

۴ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

جایگزینی «اعتماد» با «معماری»: استراتژی E.L.L.A برای توقف نشت داده‌ها

پروژه E.L.L.A با حذف فیزیکی مسیرهای ارسال داده به ابر، نشت اطلاعات را از طریق محدودیت‌های معماری غیرممکن می‌کند. این دستیار محلی ویندوز، امنیت را به جای تکیه بر قوانین اخلاقی، بر…

۴ دقیقه خواندن

اخبار کوتاه روزانه۳ هفته پیش

چگونه Claude Fable 5 بازدهی مهاجرت کد را از دو ماه به یک روز رساند؟

شرکت Anthropic مدل‌های Fable 5 و Mythos 5 را برای پیشبرد قابلیت‌های عامل‌محور در برنامه‌نویسی و پژوهش‌های علمی عرضه کرد. این سیستم اکنون از سازوکار «جایگزین» (fallback) برای…

۹ دقیقه خواندن

A11: روش ساختاریافته برای خودفریبی نکردن در استدلال

آموزش کاربردی۳ هفته پیش

سازوکار A11: جداسازی مشاهده از نتیجه برای مهار توهمات هوش مصنوعی

چارچوب جدید A11 با ایجاد لایه‌های استدلالی، مانع از آن می‌شود که مدل‌های هوش مصنوعی مشاهدات را با فرض‌ها اشتباه بگیرند. هدف این سیستم به‌جای رسیدن به حقیقت مطلق، کاهش خطاهای…

۴ دقیقه خواندن

اوپن‌ای‌ای: «خودکارسازی کامل همه چیز، آینده‌ای نیست که می‌خواهیم»

اخبار کوتاه روزانه۳ هفته پیش

چرخش در استراتژی OpenAI: چرا همکاری انسانی جایگزین خودکارسازی کامل شد؟

شرکت OpenAI هدف خود برای خودکارسازی کامل تحقیقات تا سال ۲۰۲۸ را رها کرد و مدل «همکاری انسانی-ماشین» را جایگزین آن کرد. این شرکت اکنون از طریق بازوی جدید خود، DeployCo، به‌جای فروش…

۳ دقیقه خواندن