
چرا مدلهای Mythos انتروپیک دیگر از حریم خصوصی ZDR پشتیبانی نمیکنند؟
انتروپیک برای شناسایی الگوهای سوءاستفاده پیشرفته، ذخیرهسازی اجباری دادهها به مدت ۳۰ روز را برای مدلهای کلاس Mythos الزامی کرد. این تصمیم به معنای حذف گزینهی «عدم ذخیرهسازی…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۷ مقاله منتشر شده

انتروپیک برای شناسایی الگوهای سوءاستفاده پیشرفته، ذخیرهسازی اجباری دادهها به مدت ۳۰ روز را برای مدلهای کلاس Mythos الزامی کرد. این تصمیم به معنای حذف گزینهی «عدم ذخیرهسازی…

داریو آمودئی، مدیرعامل انتروپیک، پیشنهاد میکند مدلهای پیشرفته هوش مصنوعی مشابه صنعت هوانوردی تحت نظارت اجباری قرار گیرند. هدف این طرح، جلوگیری از ریسکهای فاجعهبار سایبری و…

پژوهش جدید شرکت Writer نشان میدهد سیستمهای حافظه برای شخصیسازی، میتوانند دقت مدلها را کاهش دهند. این ابزارها مدل را به سمت چاپلوسی سوق میدهند تا به جای حقیقت، باورهای غلط…

هوش مصنوعی اکنون میتواند وصلههای امنیتی را طی چند ساعت به ابزارهای حمله (Exploit) تبدیل کند. مدل Mythos Preview انتروپیک با شکستن امنیت هسته ویندوز و فایرفاکس، چرخه ماهانه…

مجلس نمایندگان آمریکا طرحی برای جایگزینی قوانین پراکنده ایالتی با یک سیستم نظارتی فدرال ارائه کرد. منتقدان هشدار میدهند که اتکای این قانون به «حسابران مستقل»، تکرار اشتباهات…

مدل جدید Claude Fable 5 با معرفی ردهی Mythos، استانداردهای کدنویسی را جابهجا کرد اما قیمت گزاف و فیلترهای سختگیرانه، دسترسی به آن را محدود کرده است. این مدل در بنچمارکهای تخصصی…

آلمان با تأسیس مؤسسه امنیت هوش مصنوعی (DE-AISI)، مدل بریتانیا را برای تحلیل ریسک مدلهای پیشرو کپی میکند. هدف این اقدام، کاهش وابستگی استراتژیک اروپا به فناوریهای آمریکایی و…

مدلهای زبانی اغلب با منطقی غلط به پاسخی درست میرسند. روش جدید LegalBench با استفاده از «سیگنالهای اتمیک» و چارچوب IRAC، خطاهای استدلالی را از نتایج تصادفی جدا میکند تا توهمات…

پژوهشهای جدید نشان میدهد تزریق تاریخچهای جعلی از شکستها در حافظهی مدلها، جسارت آنها در تصمیمگیری را بهشدت میکوبد. این پدیده بدون تخریب منطق مدل یا فعال کردن سیستمهای…

پژوهشگران چارچوب جدیدی به نام Target-SFT معرفی کردهاند که تنظیم دقیق نظارتشده (SFT) را به جای بهینهسازی توابع زیان، به عنوان یک مسئله طراحی توزیع هدف میبیند. این متد با عبور…

یک بنچمارک گسترده نشان میدهد مدلهای زبانی پیشرو در تشخیص مفاهیم ناموجود ناتوان هستند و نرخ توهم آنها در پاسخ به پرسشهای القایی به ۸۶.۷٪ میرسد. این یافته لزوم تغییر تمرکز از…

پژوهشهای جدید روی مدلهای زبانی چندوجهی نشان میدهد که القای شخصیت در حالی که کیفیت توصیف تصاویر را بالا میبرد، باعث افت عملکرد در وظایف استدلالی دقیق میشود. این مطالعه همچنین…