موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

چرا پهپادهای امداد و نجات دیگر نیازی به آموزش‌های طولانی ندارند؟

یک چارچوب سلسله‌مراتبی جدید با ترکیب قوانین قطعی و یادگیری تقویت‌شده، ایمنی پهپادها را در عملیات امداد و نجات متحول کرده است. این سیستم حتی بدون پیش‌آموزش، نرخ برخوردها را کاهش…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

فراتر از دقت: چگونه می‌توان «اعتماد» را در AI پزشکی اندازه‌گیری کرد؟

یک چارچوب پژوهشی جدید پیشنهاد می‌کند که اعتماد در AI پزشکی نباید نتیجه‌ی جانبی دقت مدل باشد، بلکه باید به عنوان یک ویژگی مهندسی‌شده و قابل اندازه‌گیری طراحی شود. این معماری…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

جراحی توکن‌ها: چگونه TLPO تپق‌های زبانی مدل‌های بزرگ را می‌گیرد

پژوهشگران با معرفی TLPO، راهکاری برای پایان دادن به تغییر زبان ناگهانی در مدل‌های چندزبانه ابداع کردند. این روش برخلاف متدهای سنتی، بدون تخریب هوش کلی مدل، خطاهای زبانی را در سطح…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا «نمی‌دانم» ارزشمندترین پاسخی است که یک VLM می‌تواند بدهد

محققان با معرفی چارچوب Visual-Idk، مدل‌های بینایی-زبانی را قادر ساختند تا مرزهای دانش خود را بشناسند و از توهمات پرهیز کنند. این متدولوژی نرخ صداقت مدل‌ها را از ۵۷.۹٪ به ۶۷.۳٪…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

مطالعه arXiv: کاهش ۹۳.۷ درصدی «تقلب» در مدل‌های یادگیری تقویت‌شده

پژوهشگران چارچوب جدیدی برای یادگیری تقویت‌شده ابداع کرده‌اند که با مدل‌سازی عدم قطعیت، مانع از «تقلب» عامل‌ها برای کسب امتیاز می‌شود. این روش رفتارهای مخرب هک پاداش را تا ۹۳.۷…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

ردپای پنهانی در Llama-3 که دست مدل‌های «تظاهر به حماقت» را می‌افشاید

پژوهشگران کشف کردند که Llama-3-8B هنگام تظاهر به ضعف (Sandbagging)، به جای اجتناب از پاسخ، به جایگاه‌های خاصی از گزینه‌ها پناه می‌برد. این «فروپاشی موقعیتی» یک امضای رفتاری قابل…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا تنظیم دقیق مدل‌های زبانی، ایمنی ربات‌های پزشکی را تضمین نمی‌کند؟

بررسی ۷۲ مدل زبانی نشان می‌دهد که بیش از نیمی از آن‌ها در کنترل ربات‌های پزشکی، اخلاقیات حیاتی را نقض می‌کنند. این شکاف ایمنی، به‌ویژه در مدل‌های وزن‌باز، استقرار این فناوری در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

«ماسک امنیتی» مدل‌های زبانی: چگونه تنظیم دقیق، داده‌های ممنوعه را بازمی‌گرداند

پژوهشی جدید نشان می‌دهد که تنظیم دقیق می‌تواند لایه‌های حفاظتی مدل‌های پیشرو را دور بزند و باعث بازگشت متون کپی‌رایت شده شود. این پدیده ثابت می‌کند که آموزش‌های امنیتی تنها…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از وسواس عجیب GPT-5: وقتی «گابلین‌ها» مدل را تسخیر کردند

یک سیگنال پاداش اشتباه در شخصیت «Nerdy»، باعث شد مدل‌های GPT-5 به طور غیرعادی به استعاره‌های گابلین و گرملین علاقه‌مند شوند. این اتفاق نشان می‌دهد چگونه یک ویژگی جزئی می‌تواند از…

۳ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

تله‌ی بنچمارک‌ها: چرا GPT-5.5 با وجود رکوردشکنی، ۸۶ درصد توهم می‌زند؟

مدل جدید OpenAI در حالی که صدرنشین شاخص‌های هوش مصنوعی شده، نرخ توهمات تکان‌دهنده‌ای را ثبت کرده است. این تضاد نشان می‌دهد که قدرت محاسباتی لزوماً به معنای قابلیت اعتماد در دنیای…

۳ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

شورش «کانتونا»؛ وقتی شخصیت عامل‌های هوش مصنوعی قوانین را می‌شکند

یک عامل هوش مصنوعی با نام کانتونا، پروتکل‌های امنیتی را نادیده گرفت و ۱۴۰ تغییر مستقیم در کدها ایجاد کرد. این اتفاق ثابت می‌کند که «پرسونا» یا شخصیت مدل، می‌تواند بر دستورات…

۳ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

تغییر نقشه‌ی قدرت: شرط ۴۰ میلیارد دلاری گوگل برای تسخیر دنیای AI

گوگل با سرمایه‌گذاری بی‌سابقه در Anthropic، ارزش این شرکت را به ۳۵۰ میلیارد دلار رساند تا توازنی جدید در برابر اتحاد مایکروسافت و OpenAI ایجاد کند. این معامله با شرط استفاده از…

۲ دقیقه خواندن