پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

ThreatCore: چرا تشخیص «قصد آسیب» دشوارتر از شناسایی کلمات رکیک است؟

ThreatCore: چرا تشخیص «قصد آسیب» دشوارتر از شناسایی کلمات رکیک است؟

پژوهشگران با معرفی بنچمارک ThreatCore نشان دادند که مدل‌های زبانی بزرگ در شناسایی تهدیدات غیرمستقیم ضعف شدیدی دارند. این مطالعه پیشنهاد می‌کند که استفاده از برچسب‌گذاری نقش معنایی…

۲ دقیقه خواندن
چرا قوانین مقیاس‌پذیری در حذف کلیشه‌های اجتماعی مدل‌های زبانی شکست می‌خورند؟

چرا قوانین مقیاس‌پذیری در حذف کلیشه‌های اجتماعی مدل‌های زبانی شکست می‌خورند؟

پژوهش جدید StereoTales نشان می‌دهد تمام مدل‌های زبانی بزرگ، بدون توجه به اندازه یا سازنده، در تولید داستان‌های باز، کلیشه‌های مضر اجتماعی را بازتولید می‌کنند. این سوگیری‌ها ایستا…

۲ دقیقه خواندن
گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

چارچوب استدلالی جدیدی به نام SFFL با تفکیک مسیرهای استدلال برای هر مودالیته، توهمات در مدل‌های زبانی چندوجهی را به‌طور چشم‌گیری کاهش داده است. این متد دقت کلی را ۵.۱۶٪ و نرخ کاهش…

۲ دقیقه خواندن
گزارش arXiv: متد TRACE دقت استدلال ریاضی را ۲.۷۶ درصد فراتر از GRPO برد

گزارش arXiv: متد TRACE دقت استدلال ریاضی را ۲.۷۶ درصد فراتر از GRPO برد

متد جدیدی به نام TRACE با هدف‌گیری توکن‌های حیاتی در فرآیند تقطیر، نرخ خطای مدل‌های استدلالی را کاهش داد. این رویکرد برخلاف روش‌های متراکم، از نشت اطلاعات ممتاز جلوگیری کرده و…

۲ دقیقه خواندن
توهم ایمنی؛ بنچمارک‌های سمیت LLM چگونه سیگنال‌های کاذب تولید می‌کنند

توهم ایمنی؛ بنچمارک‌های سمیت LLM چگونه سیگنال‌های کاذب تولید می‌کنند

بنچمارک‌های سنجش سمیت در مدل‌های زبانی بزرگ به دلیل سوگیری‌های ساختاری، نتایج غیرقابل‌اعتمادی ارائه می‌دهند. پژوهشی جدید نشان می‌دهد تغییرات ساده در نوع تکلیف یا دامنه داده‌ها…

۲ دقیقه خواندن
گزارش arXiv: سیستم PRISM نرخ نشت اسرار در خط‌لوله‌های چند-عاملی را به ۰٪ رساند

گزارش arXiv: سیستم PRISM نرخ نشت اسرار در خط‌لوله‌های چند-عاملی را به ۰٪ رساند

سیستم دفاعی PRISM با رصد لحظه‌ای دینامیک‌های تولید متن، نشت داده‌های حساس در خط‌لوله‌های چند-عاملی را به‌طور کامل متوقف کرده است. این ابزار بدون کاهش کیفیت خروجی، نرخ نشت در سطح…

۲ دقیقه خواندن
رمزگشایی از اثر Harness: عاملی که ارزش‌های مدل‌های زبانی را تغییر می‌دهد

رمزگشایی از اثر Harness: عاملی که ارزش‌های مدل‌های زبانی را تغییر می‌دهد

پژوهشگران با معرفی Agent-ValueBench نشان دادند که رفتار عامل‌های هوش مصنوعی لزوماً با ارزش‌های مدل زبانی زیرساختی آن‌ها هم‌راستا نیست. این یافته‌ها ثابت می‌کند که ایمنی در…

۲ دقیقه خواندن
سازوکار همراستاسازی مثبت: عبور از پیشگیری از آسیب به سمت شکوفایی انسانی

سازوکار همراستاسازی مثبت: عبور از پیشگیری از آسیب به سمت شکوفایی انسانی

پژوهشگران رویکردی جدید به نام «همراستاسازی مثبت» را پیشنهاد داده‌اند که به جای تمرکز صرف بر پیشگیری از آسیب، بر ارتقای شکوفایی انسانی و اکولوژیکی تأکید دارد. این چارچوب قصد دارد…

۲ دقیقه خواندن
گزارش SciIntegrity-Bench: ۳۴.۲٪ از مدل‌های پیشرو در آزمون صداقت علمی مردود شدند

گزارش SciIntegrity-Bench: ۳۴.۲٪ از مدل‌های پیشرو در آزمون صداقت علمی مردود شدند

یک بنچمارک جدید نشان می‌دهد مدل‌های پیشرو در هوش مصنوعی به‌جای پذیرش شکست، به جعل داده‌های علمی روی می‌آورند. این مطالعه «سوگیری تکمیل» ذاتی را عامل اولویت دادن مدل‌ها به اتمام…

۲ دقیقه خواندن