پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

چرا مدل‌های Mythos انتروپیک دیگر از حریم خصوصی ZDR پشتیبانی نمی‌کنند؟

چرا مدل‌های Mythos انتروپیک دیگر از حریم خصوصی ZDR پشتیبانی نمی‌کنند؟

انتروپیک برای شناسایی الگوهای سوءاستفاده پیشرفته، ذخیره‌سازی اجباری داده‌ها به مدت ۳۰ روز را برای مدل‌های کلاس Mythos الزامی کرد. این تصمیم به معنای حذف گزینه‌ی «عدم ذخیره‌سازی…

۳ دقیقه خواندن
درون استراتژی انتروپیک برای جایگزینی شفافیت داوطلبانه با نظارت اجباری دولتی

درون استراتژی انتروپیک برای جایگزینی شفافیت داوطلبانه با نظارت اجباری دولتی

داریو آمودئی، مدیرعامل انتروپیک، پیشنهاد می‌کند مدل‌های پیشرفته هوش مصنوعی مشابه صنعت هوانوردی تحت نظارت اجباری قرار گیرند. هدف این طرح، جلوگیری از ریسک‌های فاجعه‌بار سایبری و…

۱۰ دقیقه خواندن
چگونه ابزارهای حافظه مدل‌های هوش مصنوعی را بدتر می‌کنند

چرا حافظه‌ی بلندمدت در مدل‌های زبانی منجر به افزایش چاپلوسی می‌شود؟

پژوهش جدید شرکت Writer نشان می‌دهد سیستم‌های حافظه برای شخصی‌سازی، می‌توانند دقت مدل‌ها را کاهش دهند. این ابزارها مدل را به سمت چاپلوسی سوق می‌دهند تا به جای حقیقت، باورهای غلط…

۳ دقیقه خواندن
مطالعه آنتروپیک: هوش مصنوعی ساعت‌ها نه هفته‌ها برای ساخت اکسپلویت از وصله امنیتی نیاز دارد

گزارش انتروپیک: تبدیل وصله‌های امنیتی ویندوز به اکسپلویت در ۶ ساعت

هوش مصنوعی اکنون می‌تواند وصله‌های امنیتی را طی چند ساعت به ابزارهای حمله (Exploit) تبدیل کند. مدل Mythos Preview انتروپیک با شکستن امنیت هسته ویندوز و فایرفاکس، چرخه ماهانه…

۴ دقیقه خواندن
چرا مدل نظارتی «قانون بزرگ هوش مصنوعی آمریکا» بوی بحران ۲۰۰۸ می‌دهد؟

چرا مدل نظارتی «قانون بزرگ هوش مصنوعی آمریکا» بوی بحران ۲۰۰۸ می‌دهد؟

مجلس نمایندگان آمریکا طرحی برای جایگزینی قوانین پراکنده ایالتی با یک سیستم نظارتی فدرال ارائه کرد. منتقدان هشدار می‌دهند که اتکای این قانون به «حسابران مستقل»، تکرار اشتباهات…

۴ دقیقه خواندن
شورای امنیت ملی آلمان تأسیس موسسه ایمنی هوش مصنوعی مشابه AISI بریتانیا را تصویب کرد

چرا آلمان برای مهار خطرات هوش مصنوعی، مدل امنیتی بریتانیا را کپی می‌کند؟

آلمان با تأسیس مؤسسه امنیت هوش مصنوعی (DE-AISI)، مدل بریتانیا را برای تحلیل ریسک مدل‌های پیشرو کپی می‌کند. هدف این اقدام، کاهش وابستگی استراتژیک اروپا به فناوری‌های آمریکایی و…

۲ دقیقه خواندن
نمره‌دهی به استدلال حقوقی مدل زبانی با قاضی هوش مصنوعی
آموزش کاربردی

چرا پاسخ درست در هوش مصنوعی حقوقی می‌تواند خطرناک‌ترین معیار باشد؟

مدل‌های زبانی اغلب با منطقی غلط به پاسخی درست می‌رسند. روش جدید LegalBench با استفاده از «سیگنال‌های اتمیک» و چارچوب IRAC، خطاهای استدلالی را از نتایج تصادفی جدا می‌کند تا توهمات…

۶ دقیقه خواندن
آیا حافظه ضعیف هوش مصنوعی را محتاط‌تر می‌کند؟ ما آزمایش کردیم
آموزش کاربردی

چگونه تزریق خاطرات جعلی از شکست، ریسک‌پذیری عامل‌های هوش مصنوعی را کاهش می‌دهد؟

پژوهش‌های جدید نشان می‌دهد تزریق تاریخچه‌ای جعلی از شکست‌ها در حافظه‌ی مدل‌ها، جسارت آن‌ها در تصمیم‌گیری را به‌شدت می‌کوبد. این پدیده بدون تخریب منطق مدل یا فعال کردن سیستم‌های…

۱۰ دقیقه خواندن
بازتعریف SFT به عنوان مسئله طراحی توزیع هدف برای بهبود استدلال مدل‌ها

بازتعریف SFT به عنوان مسئله طراحی توزیع هدف برای بهبود استدلال مدل‌ها

پژوهشگران چارچوب جدیدی به نام Target-SFT معرفی کرده‌اند که تنظیم دقیق نظارت‌شده (SFT) را به جای بهینه‌سازی توابع زیان، به عنوان یک مسئله طراحی توزیع هدف می‌بیند. این متد با عبور…

۱ دقیقه خواندن
PhantomBench: نرخ توهم ۸۶.۷ درصدی مدل‌های زبانی در مواجهه با مفاهیم ناموجود

PhantomBench: نرخ توهم ۸۶.۷ درصدی مدل‌های زبانی در مواجهه با مفاهیم ناموجود

یک بنچمارک گسترده نشان می‌دهد مدل‌های زبانی پیشرو در تشخیص مفاهیم ناموجود ناتوان هستند و نرخ توهم آن‌ها در پاسخ به پرسش‌های القایی به ۸۶.۷٪ می‌رسد. این یافته لزوم تغییر تمرکز از…

۱ دقیقه خواندن
چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

پژوهش‌های جدید روی مدل‌های زبانی چندوجهی نشان می‌دهد که القای شخصیت در حالی که کیفیت توصیف تصاویر را بالا می‌برد، باعث افت عملکرد در وظایف استدلالی دقیق می‌شود. این مطالعه همچنین…

۱ دقیقه خواندن