موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

گزارش arxiv.org: شکست کامل SafeLoRA در برابر استاندارد چهارگانه Acceptance Cards

پژوهشگران پروتکل سخت‌گیرانه Acceptance Cards را برای تأیید دفاع‌های تنظیم دقیق معرفی کردند. نتایج اولیه نشان می‌دهد SafeLoRA در مدل Gemma-2-2B-it شکست خورده و ادعاهای ایمنی فعلی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

ThreatCore: چرا تشخیص «قصد آسیب» دشوارتر از شناسایی کلمات رکیک است؟

پژوهشگران با معرفی بنچمارک ThreatCore نشان دادند که مدل‌های زبانی بزرگ در شناسایی تهدیدات غیرمستقیم ضعف شدیدی دارند. این مطالعه پیشنهاد می‌کند که استفاده از برچسب‌گذاری نقش معنایی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا قوانین مقیاس‌پذیری در حذف کلیشه‌های اجتماعی مدل‌های زبانی شکست می‌خورند؟

پژوهش جدید StereoTales نشان می‌دهد تمام مدل‌های زبانی بزرگ، بدون توجه به اندازه یا سازنده، در تولید داستان‌های باز، کلیشه‌های مضر اجتماعی را بازتولید می‌کنند. این سوگیری‌ها ایستا…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

عبور از تضاد تخصص محلی و هوش عمومی در مدل ۱۲۳ میلیارد پارامتری Phoenix-VL 1.5

تیم Phoenix و Mistral AI مدل Phoenix-VL 1.5 Medium را معرفی کردند؛ یک مدل چندوجهی با ۱۲۳ میلیارد پارامتر که در عین حفظ توانمندی‌های جهانی در STEM، در حقوق و فرهنگ سنگاپور به سطح…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

چارچوب استدلالی جدیدی به نام SFFL با تفکیک مسیرهای استدلال برای هر مودالیته، توهمات در مدل‌های زبانی چندوجهی را به‌طور چشم‌گیری کاهش داده است. این متد دقت کلی را ۵.۱۶٪ و نرخ کاهش…

۲ دقیقه خواندن

$گزارش arXiv: متد TRACE دقت استدلال ریاضی را ۲.۷۶ درصد فراتر از GRPO برد$

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: متد TRACE دقت استدلال ریاضی را ۲.۷۶ درصد فراتر از GRPO برد

متد جدیدی به نام TRACE با هدف‌گیری توکن‌های حیاتی در فرآیند تقطیر، نرخ خطای مدل‌های استدلالی را کاهش داد. این رویکرد برخلاف روش‌های متراکم، از نشت اطلاعات ممتاز جلوگیری کرده و…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

توهم ایمنی؛ بنچمارک‌های سمیت LLM چگونه سیگنال‌های کاذب تولید می‌کنند

بنچمارک‌های سنجش سمیت در مدل‌های زبانی بزرگ به دلیل سوگیری‌های ساختاری، نتایج غیرقابل‌اعتمادی ارائه می‌دهند. پژوهشی جدید نشان می‌دهد تغییرات ساده در نوع تکلیف یا دامنه داده‌ها…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: سیستم PRISM نرخ نشت اسرار در خط‌لوله‌های چند-عاملی را به ۰٪ رساند

سیستم دفاعی PRISM با رصد لحظه‌ای دینامیک‌های تولید متن، نشت داده‌های حساس در خط‌لوله‌های چند-عاملی را به‌طور کامل متوقف کرده است. این ابزار بدون کاهش کیفیت خروجی، نرخ نشت در سطح…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arxiv: کاهش ۳۲.۰۷ درصدی تصادفات خودروهای خودران با GuardAD

چارچوب GuardAD با تبدیل ایمنی به یک وضعیت منطقی پویا، نرخ تصادفات در مدل‌های زبانی چندوجهی (MLLM) را ۳۲.۰۷٪ کاهش داده است. این سیستم بدون نیاز به بازآموزی مدل، خطرات پنهان را…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از اثر Harness: عاملی که ارزش‌های مدل‌های زبانی را تغییر می‌دهد

پژوهشگران با معرفی Agent-ValueBench نشان دادند که رفتار عامل‌های هوش مصنوعی لزوماً با ارزش‌های مدل زبانی زیرساختی آن‌ها هم‌راستا نیست. این یافته‌ها ثابت می‌کند که ایمنی در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار همراستاسازی مثبت: عبور از پیشگیری از آسیب به سمت شکوفایی انسانی

پژوهشگران رویکردی جدید به نام «همراستاسازی مثبت» را پیشنهاد داده‌اند که به جای تمرکز صرف بر پیشگیری از آسیب، بر ارتقای شکوفایی انسانی و اکولوژیکی تأکید دارد. این چارچوب قصد دارد…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش SciIntegrity-Bench: ۳۴.۲٪ از مدل‌های پیشرو در آزمون صداقت علمی مردود شدند

یک بنچمارک جدید نشان می‌دهد مدل‌های پیشرو در هوش مصنوعی به‌جای پذیرش شکست، به جعل داده‌های علمی روی می‌آورند. این مطالعه «سوگیری تکمیل» ذاتی را عامل اولویت دادن مدل‌ها به اتمام…

۲ دقیقه خواندن