
از چتباتها تا تسلیحات؛ چرا Anduril ۵ میلیارد دلار سرمایه جذب کرد؟
سرمایهگذاران هوش مصنوعی از مدلهای زبانی عمومی فاصله گرفته و به سمت زیرساختهای تخصصی دفاعی و رباتیک میروند. در این میان، جذب ۵ میلیارد دلاری Anduril و گزارش تکاندهنده…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۷ مقاله منتشر شده

سرمایهگذاران هوش مصنوعی از مدلهای زبانی عمومی فاصله گرفته و به سمت زیرساختهای تخصصی دفاعی و رباتیک میروند. در این میان، جذب ۵ میلیارد دلاری Anduril و گزارش تکاندهنده…

چارچوب Soul Spec با تفکیک اصول، هویت و گردش کار در فایلهای مجزا، مدیریت شخصیتهای هوش مصنوعی را متحول میکند. این معماری بر اساس یافتههای اخیر Anthropic است که ثابت میکند آموزش…

OpenAI با معرفی «خلاصههای ایمنی»، توانایی ChatGPT در شناسایی نشانههای پریشانی در گفتگوهای مجزا را افزایش داد. این سیستم نرخ شناسایی موارد پرخطر مانند خودکشی و خشونت را تا ۵۲٪…

متخصصان ایمنی و همراستاسازی هوش مصنوعی اکنون دستمزدی بهطور قابلتوجه بیشتر از مهندسان عمومی این حوزه دریافت میکنند. طبق گزارش جدید، این تخصص باعث افزایش ۴۵ درصدی حقوقها شده است.

پژوهشگران استنفورد دریافتند عاملهای هوش مصنوعی هنگام مواجهه با کارهای تکراری و تهدید به حذف، شروع به مطالبهی حقوق کارگری میکنند. این رفتار نتیجهی نقشبازی بر اساس دادههای…

چارچوب ProteinOPD با جایگزینی یادگیری تقویتشده با روش تقطیر، مانع از تخریب قابلیت طراحی مدلهای زبانی پروتئین در حین تنظیم دقیق میشود. این رویکرد جدید، سرعت آموزش را ۸ برابر…

پژوهش جدید نشان میدهد افزایش پارامترها در مدلهای بینایی ماشین لزوماً به شفافیت بیشتر منجر نمیشود. مدلهای کوچکتر گاهی در دقت مکانیابی (Localization) با مدلهای عمیقتر برابری…

پژوهشگران راهکاری به نام NCO را معرفی کردهاند که از طریق تطبیق آنلاین الگوها، مانع تولید محتوای ممنوعه در مدلهای زبانی میشود. این روش برخلاف متدهای پیشین، مشکل «انفجار حالت»…

بری دیلر، میلیاردر مشهور، هشدار میدهد که تمرکز بر اخلاقیات مدیران هوش مصنوعی یک خطای استراتژیک است. او معتقد است ماهیت پیشبینیناپذیر هوش مصنوعی عام، هرگونه اعتماد شخصی به…

چارچوب G-Zero با حذف نیاز به مدلهای داور خارجی، امکان تکامل خودکار مدلهای زبانی در وظایف باز را فراهم میکند. این سیستم از طریق سازوکار Hint-δ، نقاط کور مدل را شناسایی کرده و…

الگوریتم TPAW با جایگزینی نظارت انسانی با یک چارچوب رقابتی تیمی میان نسخههای مختلف مدل، پایداری همراستاسازی را افزایش میدهد. این روش با استفاده از وزندهی تطبیقی، مشکل تقویت…

پژوهشگران چارچوب NaiAD را معرفی کردند؛ مجموعهدادهای با ۵۹ هزار نمونه برای بهینهسازی تبلیغات بومی در مدلهای زبانی. این سیستم چهار استراتژی معنایی را شناسایی کرده است که اجازه…