موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

ReGuard: کاهش ۸۵ درصدی شکاف عملکرد در کنترلرهای هوش مصنوعی شبکه

چارچوب ReGuard نقاط شکست بحرانی در کنترلرهای شبکه مبتنی بر RL را شناسایی و با قوانین منطقی سبک اصلاح می‌کند. این متد بدون نیاز به بازآموزی، سقوط عملکرد در بدترین سناریوها را تا…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

Strat-Reasoner؛ پایان شکست‌های مدل‌های زبانی در بازی‌های استراتژیک

پژوهشگران چارچوب جدیدی به نام Strat-Reasoner معرفی کرده‌اند که به مدل‌های زبانی اجازه می‌دهد فرآیند استدلال رقبای خود را مدل‌سازی کنند. این رویکرد بازگشتی منجر به افزایش ۲۲.۱…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

معماری «چشم-مغز-دهان»؛ نقطه عطف در واقع‌گرایی عامل‌های چندوجهی

پژوهشگران با معرفی چارچوب EBM-RL، فرآیند ادراک، استدلال و بیان را از هم تفکیک کردند تا نقش‌آفرینی در ویدئو را متحول کنند. این مدل با استفاده از چهار پاداش مجزا، هماهنگی میان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رانش پارامترها؛ حفره‌ی پنهانی که امنیت مدل‌های زبانی را می‌بلعد

پژوهشگران کشف کردند که حتی تنظیم دقیق با داده‌های بی‌خطر می‌تواند همراستاسازی امنیتی مدل‌های زبانی بزرگ را نابود کند. برای مقابله با این بحران، متدولوژی جدیدی به نام SQSD معرفی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

توهم اخلاق؛ چرا «تفکر» در AI فقط یک فیلتر سازگاری است؟

پژوهشی جدید روی ۵ مدل پیشرو نشان می‌دهد که حالت استدلالی تأثیری در تغییر احکام اخلاقی ندارد، اما تضاد بین مدل‌ها را در سناریوهای پیچیده کاهش می‌دهد. در واقع، «تفکر» بیشتر یک ابزار…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

توهم امنیت؛ چرا بنچمارک‌های AI در دنیای واقعی شکست می‌خورند؟

یک مطالعه‌ی جدید فاش می‌کند که بنچمارک‌های استاندارد مدل‌ها نمی‌توانند رفتار هوش مصنوعی در محیط عملیاتی را پیش‌بینی کنند. محققان دریافتند که لایه‌های امنیتی برای هر مدل…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

تله‌ی نامرئی vLLM V1: وقتی یک تغییر کوچک، آموزش RL را متوقف می‌کند

مهاجرت از vLLM V0 به V1 می‌تواند به دلیل تفاوت‌های جزئی در محاسبات logprob، کل فرآیند آموزش RL را مختل کند. تیم Hugging Face با اولویت‌بندی صحت زیرساختی و استفاده از fp32،…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

راز کاهش ۵۰ درصدی توهمات در مدل جدید GPT-5.5 Instant

اوپن‌ای‌آی مدل GPT-5.3 را با GPT-5.5 Instant جایگزین کرد تا استانداردهای دقت را در حوزه‌های تخصصی جابه‌جا کند. این به‌روزرسانی علاوه بر کاهش شدید توهمات، کنترل دقیقی بر حافظه…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

هشدار OpenAI: مدل GPT-5.5 Instant وارد منطقه خطرناک «قابلیت‌های بالا» شد

اوپن‌ای‌آی مدل GPT-5.5 Instant را معرفی کرد؛ اولین مدل سری سریع که به دلیل قابلیت‌های پیشرفته در حوزه‌های سایبری و بیوشیمی، در دسته «پرخطر» قرار گرفته است. این تغییر به معنای…

۲ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

چرا تکامل خودکار هوش مصنوعی، سیستم‌های نظارتی ما را نابود می‌کند؟

جک کلارک، از بنیان‌گذاران Anthropic، هشدار می‌دهد که احتمال ۶۰ درصدی وجود دارد که هوش مصنوعی تا سال ۲۰۲۸ قادر به آموزش نسخه‌های بعدی خود باشد. این چرخه بازگشتی می‌تواند منجر به…

۳ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

چرا ترس از هوش مصنوعی، ابزار جدید میلیاردرها برای حذف رقباست؟

تلاش حقوقی ایلان ماسک برای متوقف کردن ساختار سودآور OpenAI، پرده از تضاد عجیبی برداشت: استفاده از ترس‌های «آخرالزمانی» برای ضربه زدن به رقبا. این پرونده نشان می‌دهد چگونه بحث‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

درون خط لوله‌ی داده‌های IBM؛ وقتی کیفیت جایگزین اندازه می‌شود

مدل Granite 4.1 8B ثابت کرد که با اولویت دادن به کیفیت داده‌ها می‌توان به عملکرد مدل‌های ۳۲ میلیاردی رسید. این دستاورد از طریق یک فرآیند سخت‌گیرانه پالایش داده و پنج مرحله…

۲ دقیقه خواندن