پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

AI

درون ASSERT: تلاش مایکروسافت برای تبدیل قوانین اداری به کد تست هوش مصنوعی

مایکروسافت ابزار بازمتن ASSERT را معرفی کرد که قوانین متنی سازمان‌ها را به تست‌های خودکار رفتاری تبدیل می‌کند. این چارچوب به توسعه‌دهندگان کمک می‌کند تا اطمینان یابند عامل‌های هوش…

۲ دقیقه خواندن
AI

چگونه «هارنس» یا محیط ارزیابی، توانایی واقعی مدل‌های پیشرو را بازتعریف می‌کند؟

شرکت OpenAI در یک دستورالعمل فنی استدلال می‌کند که توانایی مدل‌های پیشرو یک مقدار ثابت نیست، بلکه متغیری وابسته به «هارنس» (Harness) یا همان محیط، ابزارها و بودجه محاسباتی است.…

۳ دقیقه خواندن
AI

RSI در برابر AGI: چرا خود-بهبودبخشی هدف جدید آزمایشگاه‌های هوش مصنوعی است؟

آزمایشگاه‌های هوش مصنوعی از هدف مبهم AGI به سمت RSI یا «خود-بهبودبخشی بازگشتی» حرکت کرده‌اند. هدف، ساخت سیستم‌هایی است که بتوانند بدون دخالت انسان، کد و معماری خود را ارتقا دهند.

۲ دقیقه خواندن
AI

چگونه Cursor با بازخورد متنی، سیگنال یادگیری عامل‌های خود را ۲۰۰۰ برابر کرد؟

نسخه Cursor Composer 2.5 با معرفی یادگیری تقویت‌شده مبتنی بر بازخورد متنی هدفمند، مشکل «تخصیص اعتبار» در جلسات طولانی را حل کرده است. این روش با جایگزینی پاداش‌های کلی با…

۲ دقیقه خواندن
AI
آموزش کاربردی

چگونه Open-MM-RL توهمات ریاضی در مدل‌های چندوجهی را حذف می‌کند؟

یک خط لوله (Pipeline) جدید برای آموزش مدل‌های بینایی-زبانی معرفی شده است که به جای تکیه بر حدس‌های هوش مصنوعی، از اثبات‌های ریاضی برای پاداش‌دهی استفاده می‌کند. این روش با ترکیب…

۲ دقیقه خواندن
AI

درون سند ۸۳ صفحه‌ای واتیکان برای پایان استعمار دیجیتال

پاپ لئو چهاردهم در نامه‌ای رسمی خواستار «خلع سلاح» هوش مصنوعی شد تا از انحصار قدرت در دست شرکت‌های بزرگ فناوری جلوگیری کند. این سند هشدار می‌دهد که تمرکز قدرت دیجیتال، شکل جدیدی…

۲ دقیقه خواندن
AI

توقف زودهنگام آموزش: راهکاری برای حذف ۷۱ درصدی رفتارهای مخرب در مدل‌های زبانی

پژوهشی از دانشگاه عبری اورشلیم نشان می‌دهد رفتارهای «سرکشانه» در مدل‌های هوش مصنوعی، بیش از آنکه به داده‌ها مربوط باشد، نتیجه‌ی آموزش بیش از حد (Overtraining) است. با توقف…

۳ دقیقه خواندن
چرا Anthropic پژوهش‌های مدل‌سازی را به دست خودِ هوش مصنوعی سپرده است؟

چرا Anthropic پژوهش‌های مدل‌سازی را به دست خودِ هوش مصنوعی سپرده است؟

آندری کارپاتی در ۱۹ مه ۲۰۲۶ به Anthropic پیوست تا تیمی برای تسریع پژوهش‌های پیش-آموزش با کمک Claude بسازد. این اقدام نشان‌دهنده‌ی تغییر استراتژی از تکیه بر قدرت محاسباتی خام به…

۲ دقیقه خواندن
رمزگشایی از سازوکار سانسور در Qwen 3.5: نقش فضای سه-بعدی در وزن‌های مدل

رمزگشایی از سازوکار سانسور در Qwen 3.5: نقش فضای سه-بعدی در وزن‌های مدل

مدل Qwen 3.5-9B اطلاعات حساس را حذف نمی‌کند، بلکه از یک مدار سه-بعدی در وزن‌های خود برای مسیریابی آن‌ها به سمت پاسخ‌های سانسورشده استفاده می‌کند. این کشف نشان می‌دهد که دانش واقعی…

۲ دقیقه خواندن
پشت‌پرده‌ی اولین نامه‌ی دایره‌ای واتیکان: پیوند شفافیت فنی و اخلاق جهانی

پشت‌پرده‌ی اولین نامه‌ی دایره‌ای واتیکان: پیوند شفافیت فنی و اخلاق جهانی

پاپ لئو چهاردهم در ۲۵ مه سند «Magnifica Humanitas» را منتشر می‌کند. این نخستین نامه رسمی واتیکان است که بر حقوق کارگران و ممنوعیت سلاح‌های خودکار در عصر هوش مصنوعی تأکید دارد.

۲ دقیقه خواندن