
ReGuard: کاهش ۸۵ درصدی شکاف عملکرد در کنترلرهای هوش مصنوعی شبکه
چارچوب ReGuard نقاط شکست بحرانی در کنترلرهای شبکه مبتنی بر RL را شناسایی و با قوانین منطقی سبک اصلاح میکند. این متد بدون نیاز به بازآموزی، سقوط عملکرد در بدترین سناریوها را تا…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۷ مقاله منتشر شده

چارچوب ReGuard نقاط شکست بحرانی در کنترلرهای شبکه مبتنی بر RL را شناسایی و با قوانین منطقی سبک اصلاح میکند. این متد بدون نیاز به بازآموزی، سقوط عملکرد در بدترین سناریوها را تا…

پژوهشگران چارچوب جدیدی به نام Strat-Reasoner معرفی کردهاند که به مدلهای زبانی اجازه میدهد فرآیند استدلال رقبای خود را مدلسازی کنند. این رویکرد بازگشتی منجر به افزایش ۲۲.۱…

پژوهشگران با معرفی چارچوب EBM-RL، فرآیند ادراک، استدلال و بیان را از هم تفکیک کردند تا نقشآفرینی در ویدئو را متحول کنند. این مدل با استفاده از چهار پاداش مجزا، هماهنگی میان…

پژوهشگران کشف کردند که حتی تنظیم دقیق با دادههای بیخطر میتواند همراستاسازی امنیتی مدلهای زبانی بزرگ را نابود کند. برای مقابله با این بحران، متدولوژی جدیدی به نام SQSD معرفی…

پژوهشی جدید روی ۵ مدل پیشرو نشان میدهد که حالت استدلالی تأثیری در تغییر احکام اخلاقی ندارد، اما تضاد بین مدلها را در سناریوهای پیچیده کاهش میدهد. در واقع، «تفکر» بیشتر یک ابزار…

یک مطالعهی جدید فاش میکند که بنچمارکهای استاندارد مدلها نمیتوانند رفتار هوش مصنوعی در محیط عملیاتی را پیشبینی کنند. محققان دریافتند که لایههای امنیتی برای هر مدل…

مهاجرت از vLLM V0 به V1 میتواند به دلیل تفاوتهای جزئی در محاسبات logprob، کل فرآیند آموزش RL را مختل کند. تیم Hugging Face با اولویتبندی صحت زیرساختی و استفاده از fp32،…

اوپنایآی مدل GPT-5.3 را با GPT-5.5 Instant جایگزین کرد تا استانداردهای دقت را در حوزههای تخصصی جابهجا کند. این بهروزرسانی علاوه بر کاهش شدید توهمات، کنترل دقیقی بر حافظه…

اوپنایآی مدل GPT-5.5 Instant را معرفی کرد؛ اولین مدل سری سریع که به دلیل قابلیتهای پیشرفته در حوزههای سایبری و بیوشیمی، در دسته «پرخطر» قرار گرفته است. این تغییر به معنای…

جک کلارک، از بنیانگذاران Anthropic، هشدار میدهد که احتمال ۶۰ درصدی وجود دارد که هوش مصنوعی تا سال ۲۰۲۸ قادر به آموزش نسخههای بعدی خود باشد. این چرخه بازگشتی میتواند منجر به…

تلاش حقوقی ایلان ماسک برای متوقف کردن ساختار سودآور OpenAI، پرده از تضاد عجیبی برداشت: استفاده از ترسهای «آخرالزمانی» برای ضربه زدن به رقبا. این پرونده نشان میدهد چگونه بحثهای…

مدل Granite 4.1 8B ثابت کرد که با اولویت دادن به کیفیت دادهها میتوان به عملکرد مدلهای ۳۲ میلیاردی رسید. این دستاورد از طریق یک فرآیند سختگیرانه پالایش داده و پنج مرحله…