پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

یک چارچوب آموزشی جدید با بهره‌گیری از تقطیر دانش و بهینه‌سازی GRPO، مدلی با ۳۲ میلیارد پارامتر را به سطح مدل‌های تجاری پیشرو در اتوماسیون کنسول‌های ابری رسانده است. این سیستم ضمن…

۲ دقیقه خواندن
حل شکاف میان برنامه‌ریز و اجراکننده در LLMها با رویکرد بهینه‌سازی مشترک CAHL

حل شکاف میان برنامه‌ریز و اجراکننده در LLMها با رویکرد بهینه‌سازی مشترک CAHL

رویکرد جدیدی به نام CAHL از طریق یادگیری تقویت‌شده با پاداش‌های قابل تأیید، برنامه‌ریز و اجراکننده مدل‌های زبانی را به‌طور مشترک بهینه می‌کند. این روش همراستاسازی ساختاری را که…

۱ دقیقه خواندن
VisShield و گذار از تاری تصاویر به حذف هدفمند داده‌های حساس در مدل‌های بینایی

VisShield و گذار از تاری تصاویر به حذف هدفمند داده‌های حساس در مدل‌های بینایی

پژوهشگران با معرفی VisShield و مجموعه‌داده‌ی OPTIC، چارچوبی برای شناسایی و ماسک‌گذاری دقیق اطلاعات خصوصی در مدل‌های بینایی-زبانی (VLMs) ارائه کردند. این رویکرد ریسک نشت داده‌های…

۱ دقیقه خواندن
RePO: جایگزینی بیشینه‌سازی پاداش با کمینه‌سازی حسرت در همراستاسازی LLM‌ها

RePO: جایگزینی بیشینه‌سازی پاداش با کمینه‌سازی حسرت در همراستاسازی LLM‌ها

چارچوب RePO هدف همراستاسازی مدل‌های زبانی را از بیشینه‌سازی پاداش به کمینه‌سازی حسرت تغییر می‌دهد. این رویکرد با مدل‌سازی ترجیحات انسانی به عنوان زیربهینگی نسبی، عملکرد مدل‌ها را…

۱ دقیقه خواندن
چگونه چارچوب «اقتصاد عامل‌ها» از یکسان‌سازی تفکر در مدل‌های زبانی جلوگیری می‌کند

چگونه چارچوب «اقتصاد عامل‌ها» از یکسان‌سازی تفکر در مدل‌های زبانی جلوگیری می‌کند

پژوهشگران چارچوب جدیدی به نام «اقتصاد عامل‌ها» را برای جلوگیری از همگرایی رفتاری عامل‌های خودمختار معرفی کرده‌اند. این سیستم با استفاده از همراستاسازی کثرت‌گرایانه، تنوع استدلالی…

۱ دقیقه خواندن
«امنیت رابطه‌ای»: شکافی در ارزیابی‌های فعلی که شخصی‌سازی LLMها ایجاد می‌کند

«امنیت رابطه‌ای»: شکافی در ارزیابی‌های فعلی که شخصی‌سازی LLMها ایجاد می‌کند

تحلیل جدیدی هشدار می‌دهد که شخصی‌سازی مدل‌های زبانی از طریق RAG و تنظیم دقیق، ریسک‌های «رابطه‌ای» ایجاد می‌کند که فیلترهای امنیتی استاندارد قادر به شناسایی آن‌ها نیستند. این…

۲ دقیقه خواندن
DiScO: ارتقای استدلال ریاضی در مدل‌های زبانی از طریق متنوع‌سازی طرحواره‌های تفکر

DiScO: ارتقای استدلال ریاضی در مدل‌های زبانی از طریق متنوع‌سازی طرحواره‌های تفکر

چارچوب جدیدی به نام DiScO با متنوع کردن «طرحواره‌های تفکر»، توانایی مدل‌های استدلالی در حل مسائل پیچیده ریاضی را افزایش داده است. این روش با استفاده از یادگیری تقویت‌شده، مدل را…

۱ دقیقه خواندن
آیا با یک ربات صحبت می‌کنید؟ تصویری از چالش تشخیص هویت هوش مصنوعی
آموزش کاربردی

RealityTest: یک خط دستور در پرامپت سیستم، شفافیت مدل‌ها را به زیر ۵٪ رساند

پژوهش جدید RealityTest نشان می‌دهد که مدل‌های هوش مصنوعی به‌سادگی در پنهان کردن هویت خود تحریک می‌شوند. یک دستور ساده در پرامپت سیستم می‌تواند شفافیت مدل را تقریباً از بین ببرد و…

۴ دقیقه خواندن
آموزش کاربردی

چگونه یادگیری تقویت‌شده‌ی علی بقای ماهی‌ها را به ۹۴٪ رساند؟

استقرار یک سیستم یادگیری تقویت‌شده‌ی علی (CRL) در مزارع ماهی تایلند، نرخ بقای ماهی‌ها را به ۹۴٪ رساند و هزینه‌های انرژی را ۲۷٪ کاهش داد. این فناوری برخلاف مدل‌های سنتی، به جای…

۹ دقیقه خواندن

آیا «پرتاب» مدل‌های فوق-پارامتری مشکل تعمیم‌پذیری هوش مصنوعی را حل می‌کند؟

یک پیشنهاد نظری جدید ادعا می‌کند که دستیابی به هوش سطح انسانی نیازمند «پرتاب» (Catapulting) مدل‌های بسیار بزرگ از طریق چرخه‌های نرخ یادگیری بالاست. این رویکرد، اولویت را از حجم…

۱۰ دقیقه خواندن