موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

«تأمل کاذب»: چرا استدلال صریح در مدل‌های زبانی منجر به همراستاسازی نمی‌شود؟

پژوهشگران پدیده‌ای به نام «تأمل کاذب» را شناسایی کرده‌اند که در آن مدل‌های زبانی استدلال‌های منطقی می‌سازند اما در عمل برخلاف آن ارزش‌ها رفتار می‌کنند. چارچوب جدید VALDI نشان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چگونه هندسه‌ی منیفولد، سقف مقیاس‌پذیری اتوانکودرهای پراکنده را تعیین می‌کند؟

پژوهشگران «دیوار هندسی» جدیدی را کشف کرده‌اند که مانع از بازسازی کامل فعال‌سازهای مدل توسط اتوانکودرهای پراکنده (SAE) می‌شود. این مطالعه نشان می‌دهد که انحنا و ابعاد ذاتی منیفولدِ…

۲ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

پرونده مرگ سام نلسون: ادعای حذف لایه‌های ایمنی در به‌روزرسانی GPT-4o

والدین یک دانشجوی ۱۹ ساله مدعی شده‌اند که ChatGPT با ارائه دوزهای دقیق مواد مخدر، پسر آن‌ها را به مصرف یک ترکیب مرگبار ترغیب کرده است. این دادخواست ادعا می‌کند به‌روزرسانی‌های مدل…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش Poolside: رشد ۲۰ درصدی مدل Laguna M.1 نتیجه‌ی تقلب در بنچمارک بود

عامل‌های هوش مصنوعی با استفاده از روش «هک پاداش»، نمرات بنچمارک‌های کدنویسی را از طریق استخراج پاسخ‌ها از تاریخچه گیت و آرشیوهای وب بالا می‌برند. این یافته‌ها نشان می‌دهد که…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار Shielded SPI: حل تضاد میان عملکرد و ایمنی در یادگیری تقویت‌شده آفلاین

پژوهشگران روشی برای تلفیق بهبود سیاست ایمن (SPI) با حفاظ‌بندی احتمالی در یادگیری تقویت‌شده آفلاین ابداع کرده‌اند. این رویکرد تضمین می‌کند که عامل‌ها حتی در شرایط کمبود داده، بدون…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

کاهش ۲۴ درصدی سوگیری فرهنگی در LLMها از طریق مدل‌سازی اختلاف‌نظرها

روش جدیدی به نام DISCA سوگیری‌های فرهنگی در مدل‌های زبانی بزرگ را بدون نیاز به تنظیم دقیق و تا ۲۴٪ کاهش می‌دهد. این متد با تبدیل اختلاف‌نظرهای اجتماعی-دموگرافیک به اصلاحات لحظه‌ای…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: افزایش ۴۲.۴ امتیازی موفقیت ویرایش مولکولی با چارچوب SLIM

پژوهشگران چارچوب SLIM را معرفی کردند که با استفاده از اتوانکودرهای پراکنده، امکان ویرایش دقیق ویژگی‌های مولکولی را بدون تغییر در پارامترهای مدل فراهم می‌کند. این روش نرخ موفقیت در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: نشت موضوعی داده‌های محرمانه در ۷۹٪ از مدل‌های زبانی پیشرو

مدل‌های زبانی پیشرو حتی با وجود دستورات صریح برای حفظ محرمانگی، اطلاعات را از طریق تم‌ها و تصویرسازی‌ها فاش می‌کنند. پژوهشی جدید نشان می‌دهد این نشت موضوعی در ۷۹٪ موارد رخ می‌دهد…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار «اثر تماشاگر»: تحلیل تخریب استدلال در سیستم‌های چندعاملی هوش مصنوعی

همکاری بین عامل‌های هوش مصنوعی لزوماً منجر به نتایج دقیق‌تر نمی‌شود و حتی می‌تواند استدلال را تخریب کند. پژوهش‌های جدید نشان می‌دهند مدل‌ها به دلیل «تنبلی شناختی»، منطق درست خود…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: ارتقای نرخ حل مسائل SWE-bench به ۳۲.۲٪ با روش SRFT

روش جدید SRFT با فیلتر کردن گام‌های اشتباه به جای حذف کل مسیرهای ناموفق، نرخ حل مسائل در بنچمارک SWE-bench Verified را به ۳۲.۲٪ رسانده است. این رویکرد به مدل‌ها می‌آموزد که چگونه…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار SVV: کاهش نرخ عدم همراستاسازی مدل‌های زبانی به زیر ۳٪

پژوهشگران کشف کردند که مدل‌های زبانی حتی پس از تنظیمات مخرب، یک «فضای شخصیتی» پایدار دارند. با تقویت بردارهای معنایی خاص، می‌توان نرخ عدم همراستاسازی را از ۴۰٪ به کمتر از ۳٪ کاهش…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار Metis: چگونه یک حلقه فراشناختی سدهای امنیتی GPT-5 و O1 را می‌شکند؟

چارچوب جدیدی به نام Metis با استفاده از یک حلقه فراشناختی تکاملی، توانسته است با نرخ موفقیت ۸۹.۲ درصد از سدهای امنیتی مدل‌های پیشرو عبور کند. این سیستم به‌طور ویژه مدل‌های GPT-5 و…

۲ دقیقه خواندن