موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

یک چارچوب آموزشی جدید با بهره‌گیری از تقطیر دانش و بهینه‌سازی GRPO، مدلی با ۳۲ میلیارد پارامتر را به سطح مدل‌های تجاری پیشرو در اتوماسیون کنسول‌های ابری رسانده است. این سیستم ضمن…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

ArXiv: همبستگی ۰.۹ بین رتبه‌بندی Elo و دقت واقعی مدل‌ها

پژوهشی جدید نشان می‌دهد رتبه‌بندی‌های Elo در مدل‌های زبانی با دقت واقعی (Ground-Truth) همبستگی شدیدی دارند. این یافته‌ها ثابت می‌کند که اگرچه سوگیری‌های استایلی وجود دارند، اما…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

حل شکاف میان برنامه‌ریز و اجراکننده در LLMها با رویکرد بهینه‌سازی مشترک CAHL

رویکرد جدیدی به نام CAHL از طریق یادگیری تقویت‌شده با پاداش‌های قابل تأیید، برنامه‌ریز و اجراکننده مدل‌های زبانی را به‌طور مشترک بهینه می‌کند. این روش همراستاسازی ساختاری را که…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

VisShield و گذار از تاری تصاویر به حذف هدفمند داده‌های حساس در مدل‌های بینایی

پژوهشگران با معرفی VisShield و مجموعه‌داده‌ی OPTIC، چارچوبی برای شناسایی و ماسک‌گذاری دقیق اطلاعات خصوصی در مدل‌های بینایی-زبانی (VLMs) ارائه کردند. این رویکرد ریسک نشت داده‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

RePO: جایگزینی بیشینه‌سازی پاداش با کمینه‌سازی حسرت در همراستاسازی LLM‌ها

چارچوب RePO هدف همراستاسازی مدل‌های زبانی را از بیشینه‌سازی پاداش به کمینه‌سازی حسرت تغییر می‌دهد. این رویکرد با مدل‌سازی ترجیحات انسانی به عنوان زیربهینگی نسبی، عملکرد مدل‌ها را…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه چارچوب «اقتصاد عامل‌ها» از یکسان‌سازی تفکر در مدل‌های زبانی جلوگیری می‌کند

پژوهشگران چارچوب جدیدی به نام «اقتصاد عامل‌ها» را برای جلوگیری از همگرایی رفتاری عامل‌های خودمختار معرفی کرده‌اند. این سیستم با استفاده از همراستاسازی کثرت‌گرایانه، تنوع استدلالی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

«امنیت رابطه‌ای»: شکافی در ارزیابی‌های فعلی که شخصی‌سازی LLMها ایجاد می‌کند

تحلیل جدیدی هشدار می‌دهد که شخصی‌سازی مدل‌های زبانی از طریق RAG و تنظیم دقیق، ریسک‌های «رابطه‌ای» ایجاد می‌کند که فیلترهای امنیتی استاندارد قادر به شناسایی آن‌ها نیستند. این…

۲ دقیقه خواندن

$DiScO: ارتقای استدلال ریاضی در مدل‌های زبانی از طریق متنوع‌سازی طرحواره‌های تفکر$

تحلیل و بررسی تخصصی۳ هفته پیش

DiScO: ارتقای استدلال ریاضی در مدل‌های زبانی از طریق متنوع‌سازی طرحواره‌های تفکر

چارچوب جدیدی به نام DiScO با متنوع کردن «طرحواره‌های تفکر»، توانایی مدل‌های استدلالی در حل مسائل پیچیده ریاضی را افزایش داده است. این روش با استفاده از یادگیری تقویت‌شده، مدل را…

۱ دقیقه خواندن

آیا با یک ربات صحبت می‌کنید؟ تصویری از چالش تشخیص هویت هوش مصنوعی

آموزش کاربردی۳ هفته پیش

RealityTest: یک خط دستور در پرامپت سیستم، شفافیت مدل‌ها را به زیر ۵٪ رساند

پژوهش جدید RealityTest نشان می‌دهد که مدل‌های هوش مصنوعی به‌سادگی در پنهان کردن هویت خود تحریک می‌شوند. یک دستور ساده در پرامپت سیستم می‌تواند شفافیت مدل را تقریباً از بین ببرد و…

۴ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

چگونه یادگیری تقویت‌شده‌ی علی بقای ماهی‌ها را به ۹۴٪ رساند؟

استقرار یک سیستم یادگیری تقویت‌شده‌ی علی (CRL) در مزارع ماهی تایلند، نرخ بقای ماهی‌ها را به ۹۴٪ رساند و هزینه‌های انرژی را ۲۷٪ کاهش داد. این فناوری برخلاف مدل‌های سنتی، به جای…

۹ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

آیا «پرتاب» مدل‌های فوق-پارامتری مشکل تعمیم‌پذیری هوش مصنوعی را حل می‌کند؟

یک پیشنهاد نظری جدید ادعا می‌کند که دستیابی به هوش سطح انسانی نیازمند «پرتاب» (Catapulting) مدل‌های بسیار بزرگ از طریق چرخه‌های نرخ یادگیری بالاست. این رویکرد، اولویت را از حجم…

۱۰ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

NVIDIA Garak: تبدیل حفره‌های امنیتی LLM به نمرات عددی و قابل اندازه‌گیری

ابزار Garak از شرکت NVIDIA فرآیند تست نفوذ یا همان Red-teaming را برای مدل‌های زبانی خودکار می‌کند. این چارچوب با جایگزینی تست‌های دستی با معیارهای عددی، به توسعه‌دهندگان اجازه…

۶ دقیقه خواندن