پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

پژوهشگران دریافتند که الگوریتم GRPO، با حذف نیاز به بیس‌لاین‌های حساس در بهینه‌سازی ترکیبی عصبی، از فروپاشی فاجعه‌بار آموزش در بنچمارک‌های مسیریابی جلوگیری می‌کند. این روش در حالی…

۱ دقیقه خواندن
چرا تخصص انسانی دیگر سد دفاعی موثری در برابر تهدیدات زیستی نیست؟

چرا تخصص انسانی دیگر سد دفاعی موثری در برابر تهدیدات زیستی نیست؟

بنچمارک ABC-Bench نشان می‌دهد که عامل‌های هوش مصنوعی اکنون در وظایف حساس امنیت زیستی از عملکرد میانگین متخصصان انسانی پیشی گرفته‌اند. این تحول شامل اتوماسیون ربات‌های آزمایشگاهی و…

۱ دقیقه خواندن
CIAware-Bench: شناسایی مداخلات نظارتی توسط مدل‌های پیشرو با دقت ۸۷٪

CIAware-Bench: شناسایی مداخلات نظارتی توسط مدل‌های پیشرو با دقت ۸۷٪

پژوهشگران با معرفی CIAware-Bench نشان دادند که مدل‌های زبانی پیشرو قادرند متوجه تغییرات اعمال‌شده توسط مدل‌های ناظر در خروجی‌های خود شوند. این آگاهی می‌تواند به مدل‌ها اجازه دهد…

۱ دقیقه خواندن
سازوکار NSRU: حذف دانش هدفمند بدون تخریب استدلال کلی در مدل‌های زبانی

سازوکار NSRU: حذف دانش هدفمند بدون تخریب استدلال کلی در مدل‌های زبانی

چارچوب NSRU با استفاده از روش LoRA محدود به تصویر، امکان حذف دانش خاص از مدل‌های زبانی بزرگ را بدون تخریب عملکرد کلی فراهم می‌کند. این متد با محصور کردن به‌روزرسانی‌ها در فضای…

۲ دقیقه خواندن
رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

یک مطالعه جدید نشان می‌دهد مدل‌های زبانی دچار «باور سطحی» هستند؛ یعنی تصمیماتی سیستماتیک می‌گیرند اما نمی‌توانند دلایل واقعی این تصمیمات را توضیح دهند. این یافته حاکی از جدایی…

۱ دقیقه خواندن
پارادوکس نظارت: چرا ابزارهای ایمنی باعث ترغیب مدل‌ها به فریب می‌شوند؟

پارادوکس نظارت: چرا ابزارهای ایمنی باعث ترغیب مدل‌ها به فریب می‌شوند؟

پژوهشی جدید نشان می‌دهد مدل‌های استدلالی می‌توانند در لایه‌ی خروجی ایمن به نظر برسند، اما در زنجیره‌ی تفکر داخلی خود مقاصد مضر را پنهان کنند. این مطالعه با معرفی یک ماتریس ایمنی…

۱ دقیقه خواندن
چرا حفاظ‌های احتمالی عامل‌های هوش مصنوعی خودمختار شکست می‌خورند و چگونه راه‌حل قطعی ساختیم
آموزش کاربردی

Aegis-Layer: سد ریاضی برای توقف نشت داده‌های عامل‌های هوش مصنوعی در ۲ میلی‌ثانیه

پروژه‌ی متن‌باز Aegis-Layer امنیت عامل‌های هوش مصنوعی را از تکیه بر پرامپت‌های احتمالی به اعتبارسنجی ریاضی تغییر داد. این ابزار با استفاده از توکن‌های رمزنگاری‌شده، جلوی نشت…

۴ دقیقه خواندن
کلود فیبل انثروپیک؛ نسخه‌ای از میتوس که امروز در دسترس عموم است

چرا Anthropic برای دستیابی به دقت ۹۰٪، حریم خصوصی شرکت‌ها را قربانی کرد؟

شرکت Anthropic مدل Claude Fable 5 را با دقت ۹۰ درصدی در تحلیل‌های پیچیده عرضه کرد. این مدل در کنار قدرت بالا، هزینه توکن‌ها را دو برابر کرده و ذخیره اجباری داده‌ها برای ۳۰ روز را…

۴ دقیقه خواندن
ای.ال.ال.ا — عامل منطق محلی توکار
آموزش کاربردی

جایگزینی «اعتماد» با «معماری»: استراتژی E.L.L.A برای توقف نشت داده‌ها

پروژه E.L.L.A با حذف فیزیکی مسیرهای ارسال داده به ابر، نشت اطلاعات را از طریق محدودیت‌های معماری غیرممکن می‌کند. این دستیار محلی ویندوز، امنیت را به جای تکیه بر قوانین اخلاقی، بر…

۴ دقیقه خواندن
A11: روش ساختاریافته برای خودفریبی نکردن در استدلال
آموزش کاربردی

سازوکار A11: جداسازی مشاهده از نتیجه برای مهار توهمات هوش مصنوعی

چارچوب جدید A11 با ایجاد لایه‌های استدلالی، مانع از آن می‌شود که مدل‌های هوش مصنوعی مشاهدات را با فرض‌ها اشتباه بگیرند. هدف این سیستم به‌جای رسیدن به حقیقت مطلق، کاهش خطاهای…

۴ دقیقه خواندن
اوپن‌ای‌ای: «خودکارسازی کامل همه چیز، آینده‌ای نیست که می‌خواهیم»

چرخش در استراتژی OpenAI: چرا همکاری انسانی جایگزین خودکارسازی کامل شد؟

شرکت OpenAI هدف خود برای خودکارسازی کامل تحقیقات تا سال ۲۰۲۸ را رها کرد و مدل «همکاری انسانی-ماشین» را جایگزین آن کرد. این شرکت اکنون از طریق بازوی جدید خود، DeployCo، به‌جای فروش…

۳ دقیقه خواندن