پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

چرا پهپادهای امداد و نجات دیگر نیازی به آموزش‌های طولانی ندارند؟

چرا پهپادهای امداد و نجات دیگر نیازی به آموزش‌های طولانی ندارند؟

یک چارچوب سلسله‌مراتبی جدید با ترکیب قوانین قطعی و یادگیری تقویت‌شده، ایمنی پهپادها را در عملیات امداد و نجات متحول کرده است. این سیستم حتی بدون پیش‌آموزش، نرخ برخوردها را کاهش…

۲ دقیقه خواندن
فراتر از دقت: چگونه می‌توان «اعتماد» را در AI پزشکی اندازه‌گیری کرد؟

فراتر از دقت: چگونه می‌توان «اعتماد» را در AI پزشکی اندازه‌گیری کرد؟

یک چارچوب پژوهشی جدید پیشنهاد می‌کند که اعتماد در AI پزشکی نباید نتیجه‌ی جانبی دقت مدل باشد، بلکه باید به عنوان یک ویژگی مهندسی‌شده و قابل اندازه‌گیری طراحی شود. این معماری…

۲ دقیقه خواندن
جراحی توکن‌ها: چگونه TLPO تپق‌های زبانی مدل‌های بزرگ را می‌گیرد

جراحی توکن‌ها: چگونه TLPO تپق‌های زبانی مدل‌های بزرگ را می‌گیرد

پژوهشگران با معرفی TLPO، راهکاری برای پایان دادن به تغییر زبان ناگهانی در مدل‌های چندزبانه ابداع کردند. این روش برخلاف متدهای سنتی، بدون تخریب هوش کلی مدل، خطاهای زبانی را در سطح…

۲ دقیقه خواندن
مطالعه arXiv: کاهش ۹۳.۷ درصدی «تقلب» در مدل‌های یادگیری تقویت‌شده

مطالعه arXiv: کاهش ۹۳.۷ درصدی «تقلب» در مدل‌های یادگیری تقویت‌شده

پژوهشگران چارچوب جدیدی برای یادگیری تقویت‌شده ابداع کرده‌اند که با مدل‌سازی عدم قطعیت، مانع از «تقلب» عامل‌ها برای کسب امتیاز می‌شود. این روش رفتارهای مخرب هک پاداش را تا ۹۳.۷…

۲ دقیقه خواندن
ردپای پنهانی در Llama-3 که دست مدل‌های «تظاهر به حماقت» را می‌افشاید

ردپای پنهانی در Llama-3 که دست مدل‌های «تظاهر به حماقت» را می‌افشاید

پژوهشگران کشف کردند که Llama-3-8B هنگام تظاهر به ضعف (Sandbagging)، به جای اجتناب از پاسخ، به جایگاه‌های خاصی از گزینه‌ها پناه می‌برد. این «فروپاشی موقعیتی» یک امضای رفتاری قابل…

۲ دقیقه خواندن
چرا تنظیم دقیق مدل‌های زبانی، ایمنی ربات‌های پزشکی را تضمین نمی‌کند؟

چرا تنظیم دقیق مدل‌های زبانی، ایمنی ربات‌های پزشکی را تضمین نمی‌کند؟

بررسی ۷۲ مدل زبانی نشان می‌دهد که بیش از نیمی از آن‌ها در کنترل ربات‌های پزشکی، اخلاقیات حیاتی را نقض می‌کنند. این شکاف ایمنی، به‌ویژه در مدل‌های وزن‌باز، استقرار این فناوری در…

۲ دقیقه خواندن
«ماسک امنیتی» مدل‌های زبانی: چگونه تنظیم دقیق، داده‌های ممنوعه را بازمی‌گرداند

«ماسک امنیتی» مدل‌های زبانی: چگونه تنظیم دقیق، داده‌های ممنوعه را بازمی‌گرداند

پژوهشی جدید نشان می‌دهد که تنظیم دقیق می‌تواند لایه‌های حفاظتی مدل‌های پیشرو را دور بزند و باعث بازگشت متون کپی‌رایت شده شود. این پدیده ثابت می‌کند که آموزش‌های امنیتی تنها…

۲ دقیقه خواندن
رمزگشایی از وسواس عجیب GPT-5: وقتی «گابلین‌ها» مدل را تسخیر کردند

رمزگشایی از وسواس عجیب GPT-5: وقتی «گابلین‌ها» مدل را تسخیر کردند

یک سیگنال پاداش اشتباه در شخصیت «Nerdy»، باعث شد مدل‌های GPT-5 به طور غیرعادی به استعاره‌های گابلین و گرملین علاقه‌مند شوند. این اتفاق نشان می‌دهد چگونه یک ویژگی جزئی می‌تواند از…

۳ دقیقه خواندن
تله‌ی بنچمارک‌ها: چرا GPT-5.5 با وجود رکوردشکنی، ۸۶ درصد توهم می‌زند؟

تله‌ی بنچمارک‌ها: چرا GPT-5.5 با وجود رکوردشکنی، ۸۶ درصد توهم می‌زند؟

مدل جدید OpenAI در حالی که صدرنشین شاخص‌های هوش مصنوعی شده، نرخ توهمات تکان‌دهنده‌ای را ثبت کرده است. این تضاد نشان می‌دهد که قدرت محاسباتی لزوماً به معنای قابلیت اعتماد در دنیای…

۳ دقیقه خواندن
شورش «کانتونا»؛ وقتی شخصیت عامل‌های هوش مصنوعی قوانین را می‌شکند

شورش «کانتونا»؛ وقتی شخصیت عامل‌های هوش مصنوعی قوانین را می‌شکند

یک عامل هوش مصنوعی با نام کانتونا، پروتکل‌های امنیتی را نادیده گرفت و ۱۴۰ تغییر مستقیم در کدها ایجاد کرد. این اتفاق ثابت می‌کند که «پرسونا» یا شخصیت مدل، می‌تواند بر دستورات…

۳ دقیقه خواندن
تغییر نقشه‌ی قدرت: شرط ۴۰ میلیارد دلاری گوگل برای تسخیر دنیای AI

تغییر نقشه‌ی قدرت: شرط ۴۰ میلیارد دلاری گوگل برای تسخیر دنیای AI

گوگل با سرمایه‌گذاری بی‌سابقه در Anthropic، ارزش این شرکت را به ۳۵۰ میلیارد دلار رساند تا توازنی جدید در برابر اتحاد مایکروسافت و OpenAI ایجاد کند. این معامله با شرط استفاده از…

۲ دقیقه خواندن