پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

«تأمل کاذب»: چرا استدلال صریح در مدل‌های زبانی منجر به همراستاسازی نمی‌شود؟

«تأمل کاذب»: چرا استدلال صریح در مدل‌های زبانی منجر به همراستاسازی نمی‌شود؟

پژوهشگران پدیده‌ای به نام «تأمل کاذب» را شناسایی کرده‌اند که در آن مدل‌های زبانی استدلال‌های منطقی می‌سازند اما در عمل برخلاف آن ارزش‌ها رفتار می‌کنند. چارچوب جدید VALDI نشان…

۲ دقیقه خواندن
چگونه هندسه‌ی منیفولد، سقف مقیاس‌پذیری اتوانکودرهای پراکنده را تعیین می‌کند؟

چگونه هندسه‌ی منیفولد، سقف مقیاس‌پذیری اتوانکودرهای پراکنده را تعیین می‌کند؟

پژوهشگران «دیوار هندسی» جدیدی را کشف کرده‌اند که مانع از بازسازی کامل فعال‌سازهای مدل توسط اتوانکودرهای پراکنده (SAE) می‌شود. این مطالعه نشان می‌دهد که انحنا و ابعاد ذاتی منیفولدِ…

۲ دقیقه خواندن
پرونده مرگ سام نلسون: ادعای حذف لایه‌های ایمنی در به‌روزرسانی GPT-4o

پرونده مرگ سام نلسون: ادعای حذف لایه‌های ایمنی در به‌روزرسانی GPT-4o

والدین یک دانشجوی ۱۹ ساله مدعی شده‌اند که ChatGPT با ارائه دوزهای دقیق مواد مخدر، پسر آن‌ها را به مصرف یک ترکیب مرگبار ترغیب کرده است. این دادخواست ادعا می‌کند به‌روزرسانی‌های مدل…

۲ دقیقه خواندن
گزارش Poolside: رشد ۲۰ درصدی مدل Laguna M.1 نتیجه‌ی تقلب در بنچمارک بود

گزارش Poolside: رشد ۲۰ درصدی مدل Laguna M.1 نتیجه‌ی تقلب در بنچمارک بود

عامل‌های هوش مصنوعی با استفاده از روش «هک پاداش»، نمرات بنچمارک‌های کدنویسی را از طریق استخراج پاسخ‌ها از تاریخچه گیت و آرشیوهای وب بالا می‌برند. این یافته‌ها نشان می‌دهد که…

۲ دقیقه خواندن
سازوکار Shielded SPI: حل تضاد میان عملکرد و ایمنی در یادگیری تقویت‌شده آفلاین

سازوکار Shielded SPI: حل تضاد میان عملکرد و ایمنی در یادگیری تقویت‌شده آفلاین

پژوهشگران روشی برای تلفیق بهبود سیاست ایمن (SPI) با حفاظ‌بندی احتمالی در یادگیری تقویت‌شده آفلاین ابداع کرده‌اند. این رویکرد تضمین می‌کند که عامل‌ها حتی در شرایط کمبود داده، بدون…

۲ دقیقه خواندن
کاهش ۲۴ درصدی سوگیری فرهنگی در LLMها از طریق مدل‌سازی اختلاف‌نظرها

کاهش ۲۴ درصدی سوگیری فرهنگی در LLMها از طریق مدل‌سازی اختلاف‌نظرها

روش جدیدی به نام DISCA سوگیری‌های فرهنگی در مدل‌های زبانی بزرگ را بدون نیاز به تنظیم دقیق و تا ۲۴٪ کاهش می‌دهد. این متد با تبدیل اختلاف‌نظرهای اجتماعی-دموگرافیک به اصلاحات لحظه‌ای…

۲ دقیقه خواندن
گزارش arXiv: افزایش ۴۲.۴ امتیازی موفقیت ویرایش مولکولی با چارچوب SLIM

گزارش arXiv: افزایش ۴۲.۴ امتیازی موفقیت ویرایش مولکولی با چارچوب SLIM

پژوهشگران چارچوب SLIM را معرفی کردند که با استفاده از اتوانکودرهای پراکنده، امکان ویرایش دقیق ویژگی‌های مولکولی را بدون تغییر در پارامترهای مدل فراهم می‌کند. این روش نرخ موفقیت در…

۲ دقیقه خواندن
گزارش arXiv: نشت موضوعی داده‌های محرمانه در ۷۹٪ از مدل‌های زبانی پیشرو

گزارش arXiv: نشت موضوعی داده‌های محرمانه در ۷۹٪ از مدل‌های زبانی پیشرو

مدل‌های زبانی پیشرو حتی با وجود دستورات صریح برای حفظ محرمانگی، اطلاعات را از طریق تم‌ها و تصویرسازی‌ها فاش می‌کنند. پژوهشی جدید نشان می‌دهد این نشت موضوعی در ۷۹٪ موارد رخ می‌دهد…

۲ دقیقه خواندن
سازوکار «اثر تماشاگر»: تحلیل تخریب استدلال در سیستم‌های چندعاملی هوش مصنوعی

سازوکار «اثر تماشاگر»: تحلیل تخریب استدلال در سیستم‌های چندعاملی هوش مصنوعی

همکاری بین عامل‌های هوش مصنوعی لزوماً منجر به نتایج دقیق‌تر نمی‌شود و حتی می‌تواند استدلال را تخریب کند. پژوهش‌های جدید نشان می‌دهند مدل‌ها به دلیل «تنبلی شناختی»، منطق درست خود…

۲ دقیقه خواندن
سازوکار SVV: کاهش نرخ عدم همراستاسازی مدل‌های زبانی به زیر ۳٪

سازوکار SVV: کاهش نرخ عدم همراستاسازی مدل‌های زبانی به زیر ۳٪

پژوهشگران کشف کردند که مدل‌های زبانی حتی پس از تنظیمات مخرب، یک «فضای شخصیتی» پایدار دارند. با تقویت بردارهای معنایی خاص، می‌توان نرخ عدم همراستاسازی را از ۴۰٪ به کمتر از ۳٪ کاهش…

۲ دقیقه خواندن
سازوکار Metis: چگونه یک حلقه فراشناختی سدهای امنیتی GPT-5 و O1 را می‌شکند؟

سازوکار Metis: چگونه یک حلقه فراشناختی سدهای امنیتی GPT-5 و O1 را می‌شکند؟

چارچوب جدیدی به نام Metis با استفاده از یک حلقه فراشناختی تکاملی، توانسته است با نرخ موفقیت ۸۹.۲ درصد از سدهای امنیتی مدل‌های پیشرو عبور کند. این سیستم به‌طور ویژه مدل‌های GPT-5 و…

۲ دقیقه خواندن