پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

ReGuard: کاهش ۸۵ درصدی شکاف عملکرد در کنترلرهای هوش مصنوعی شبکه

ReGuard: کاهش ۸۵ درصدی شکاف عملکرد در کنترلرهای هوش مصنوعی شبکه

چارچوب ReGuard نقاط شکست بحرانی در کنترلرهای شبکه مبتنی بر RL را شناسایی و با قوانین منطقی سبک اصلاح می‌کند. این متد بدون نیاز به بازآموزی، سقوط عملکرد در بدترین سناریوها را تا…

۲ دقیقه خواندن
Strat-Reasoner؛ پایان شکست‌های مدل‌های زبانی در بازی‌های استراتژیک

Strat-Reasoner؛ پایان شکست‌های مدل‌های زبانی در بازی‌های استراتژیک

پژوهشگران چارچوب جدیدی به نام Strat-Reasoner معرفی کرده‌اند که به مدل‌های زبانی اجازه می‌دهد فرآیند استدلال رقبای خود را مدل‌سازی کنند. این رویکرد بازگشتی منجر به افزایش ۲۲.۱…

۲ دقیقه خواندن
معماری «چشم-مغز-دهان»؛ نقطه عطف در واقع‌گرایی عامل‌های چندوجهی

معماری «چشم-مغز-دهان»؛ نقطه عطف در واقع‌گرایی عامل‌های چندوجهی

پژوهشگران با معرفی چارچوب EBM-RL، فرآیند ادراک، استدلال و بیان را از هم تفکیک کردند تا نقش‌آفرینی در ویدئو را متحول کنند. این مدل با استفاده از چهار پاداش مجزا، هماهنگی میان…

۲ دقیقه خواندن
رانش پارامترها؛ حفره‌ی پنهانی که امنیت مدل‌های زبانی را می‌بلعد

رانش پارامترها؛ حفره‌ی پنهانی که امنیت مدل‌های زبانی را می‌بلعد

پژوهشگران کشف کردند که حتی تنظیم دقیق با داده‌های بی‌خطر می‌تواند همراستاسازی امنیتی مدل‌های زبانی بزرگ را نابود کند. برای مقابله با این بحران، متدولوژی جدیدی به نام SQSD معرفی…

۲ دقیقه خواندن
توهم اخلاق؛ چرا «تفکر» در AI فقط یک فیلتر سازگاری است؟

توهم اخلاق؛ چرا «تفکر» در AI فقط یک فیلتر سازگاری است؟

پژوهشی جدید روی ۵ مدل پیشرو نشان می‌دهد که حالت استدلالی تأثیری در تغییر احکام اخلاقی ندارد، اما تضاد بین مدل‌ها را در سناریوهای پیچیده کاهش می‌دهد. در واقع، «تفکر» بیشتر یک ابزار…

۲ دقیقه خواندن
توهم امنیت؛ چرا بنچمارک‌های AI در دنیای واقعی شکست می‌خورند؟

توهم امنیت؛ چرا بنچمارک‌های AI در دنیای واقعی شکست می‌خورند؟

یک مطالعه‌ی جدید فاش می‌کند که بنچمارک‌های استاندارد مدل‌ها نمی‌توانند رفتار هوش مصنوعی در محیط عملیاتی را پیش‌بینی کنند. محققان دریافتند که لایه‌های امنیتی برای هر مدل…

۲ دقیقه خواندن
هشدار OpenAI: مدل GPT-5.5 Instant وارد منطقه خطرناک «قابلیت‌های بالا» شد

هشدار OpenAI: مدل GPT-5.5 Instant وارد منطقه خطرناک «قابلیت‌های بالا» شد

اوپن‌ای‌آی مدل GPT-5.5 Instant را معرفی کرد؛ اولین مدل سری سریع که به دلیل قابلیت‌های پیشرفته در حوزه‌های سایبری و بیوشیمی، در دسته «پرخطر» قرار گرفته است. این تغییر به معنای…

۲ دقیقه خواندن
چرا تکامل خودکار هوش مصنوعی، سیستم‌های نظارتی ما را نابود می‌کند؟

چرا تکامل خودکار هوش مصنوعی، سیستم‌های نظارتی ما را نابود می‌کند؟

جک کلارک، از بنیان‌گذاران Anthropic، هشدار می‌دهد که احتمال ۶۰ درصدی وجود دارد که هوش مصنوعی تا سال ۲۰۲۸ قادر به آموزش نسخه‌های بعدی خود باشد. این چرخه بازگشتی می‌تواند منجر به…

۳ دقیقه خواندن
چرا ترس از هوش مصنوعی، ابزار جدید میلیاردرها برای حذف رقباست؟

چرا ترس از هوش مصنوعی، ابزار جدید میلیاردرها برای حذف رقباست؟

تلاش حقوقی ایلان ماسک برای متوقف کردن ساختار سودآور OpenAI، پرده از تضاد عجیبی برداشت: استفاده از ترس‌های «آخرالزمانی» برای ضربه زدن به رقبا. این پرونده نشان می‌دهد چگونه بحث‌های…

۲ دقیقه خواندن