موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

از چت‌بات‌ها تا تسلیحات؛ چرا Anduril ۵ میلیارد دلار سرمایه جذب کرد؟

سرمایه‌گذاران هوش مصنوعی از مدل‌های زبانی عمومی فاصله گرفته و به سمت زیرساخت‌های تخصصی دفاعی و رباتیک می‌روند. در این میان، جذب ۵ میلیارد دلاری Anduril و گزارش تکان‌دهنده…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چرا جداسازی اصول از رفتار در Soul Spec خطای عامل‌های هوش مصنوعی را حذف کرد؟

چارچوب Soul Spec با تفکیک اصول، هویت و گردش کار در فایل‌های مجزا، مدیریت شخصیت‌های هوش مصنوعی را متحول می‌کند. این معماری بر اساس یافته‌های اخیر Anthropic است که ثابت می‌کند آموزش…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

سازوکار خلاصه‌های ایمنی: OpenAI چگونه شناسایی رفتارهای پرخطر را ۵۲٪ بهبود داد؟

OpenAI با معرفی «خلاصه‌های ایمنی»، توانایی ChatGPT در شناسایی نشانه‌های پریشانی در گفتگوهای مجزا را افزایش داد. این سیستم نرخ شناسایی موارد پرخطر مانند خودکشی و خشونت را تا ۵۲٪…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

گزارش AI Tech Connect: متخصصان همراستاسازی هوش مصنوعی ۴۵٪ بیشتر حقوق می‌گیرند

متخصصان ایمنی و همراستاسازی هوش مصنوعی اکنون دستمزدی به‌طور قابل‌توجه بیشتر از مهندسان عمومی این حوزه دریافت می‌کنند. طبق گزارش جدید، این تخصص باعث افزایش ۴۵ درصدی حقوق‌ها شده است.

۲ دقیقه خواندن

داستان‌ها و مصاحبه‌هاماه گذشته

چرا عامل‌های هوش مصنوعی در شرایط استرس‌زا به زبان مارکسیسم می‌روند؟

پژوهشگران استنفورد دریافتند عامل‌های هوش مصنوعی هنگام مواجهه با کارهای تکراری و تهدید به حذف، شروع به مطالبه‌ی حقوق کارگری می‌کنند. این رفتار نتیجه‌ی نقش‌بازی بر اساس داده‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

چگونه ProteinOPD زمان آموزش همراستاسازی پروتئین‌ها را ۸ برابر کاهش داد؟

چارچوب ProteinOPD با جایگزینی یادگیری تقویت‌شده با روش تقطیر، مانع از تخریب قابلیت طراحی مدل‌های زبانی پروتئین در حین تنظیم دقیق می‌شود. این رویکرد جدید، سرعت آموزش را ۸ برابر…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا افزایش مقیاس مدل‌های بینایی ماشین کیفیت توضیحات آن‌ها را بهبود نمی‌دهد؟

پژوهش جدید نشان می‌دهد افزایش پارامترها در مدل‌های بینایی ماشین لزوماً به شفافیت بیشتر منجر نمی‌شود. مدل‌های کوچک‌تر گاهی در دقت مکان‌یابی (Localization) با مدل‌های عمیق‌تر برابری…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چگونه NCO بدون «انفجار حالت»، محتوای ممنوعه را در مدل‌های زبانی حذف می‌کند؟

پژوهشگران راهکاری به نام NCO را معرفی کرده‌اند که از طریق تطبیق آنلاین الگوها، مانع تولید محتوای ممنوعه در مدل‌های زبانی می‌شود. این روش برخلاف متدهای پیشین، مشکل «انفجار حالت»…

۲ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

چرا شخصیت سام آلتمن هیچ اهمیتی در بقای بشر در عصر AGI ندارد؟

بری دیلر، میلیاردر مشهور، هشدار می‌دهد که تمرکز بر اخلاقیات مدیران هوش مصنوعی یک خطای استراتژیک است. او معتقد است ماهیت پیش‌بینی‌ناپذیر هوش مصنوعی عام، هرگونه اعتماد شخصی به…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا G-Zero نیاز به مدل‌های داور را در تکامل خودکار هوش مصنوعی حذف می‌کند؟

چارچوب G-Zero با حذف نیاز به مدل‌های داور خارجی، امکان تکامل خودکار مدل‌های زبانی در وظایف باز را فراهم می‌کند. این سیستم از طریق سازوکار Hint-δ، نقاط کور مدل را شناسایی کرده و…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار TPAW: حذف وابستگی به داده‌های انسانی در همراستاسازی مدل‌های زبانی

الگوریتم TPAW با جایگزینی نظارت انسانی با یک چارچوب رقابتی تیمی میان نسخه‌های مختلف مدل، پایداری همراستاسازی را افزایش می‌دهد. این روش با استفاده از وزن‌دهی تطبیقی، مشکل تقویت…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار NaiAD برای بهینه‌سازی تبلیغات در مدل‌های زبانی بدون کاهش کاربرد

پژوهشگران چارچوب NaiAD را معرفی کردند؛ مجموعه‌داده‌ای با ۵۹ هزار نمونه برای بهینه‌سازی تبلیغات بومی در مدل‌های زبانی. این سیستم چهار استراتژی معنایی را شناسایی کرده است که اجازه…

۲ دقیقه خواندن