موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

درون ASSERT: تلاش مایکروسافت برای تبدیل قوانین اداری به کد تست هوش مصنوعی

مایکروسافت ابزار بازمتن ASSERT را معرفی کرد که قوانین متنی سازمان‌ها را به تست‌های خودکار رفتاری تبدیل می‌کند. این چارچوب به توسعه‌دهندگان کمک می‌کند تا اطمینان یابند عامل‌های هوش…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۴ هفته پیش

چگونه «هارنس» یا محیط ارزیابی، توانایی واقعی مدل‌های پیشرو را بازتعریف می‌کند؟

شرکت OpenAI در یک دستورالعمل فنی استدلال می‌کند که توانایی مدل‌های پیشرو یک مقدار ثابت نیست، بلکه متغیری وابسته به «هارنس» (Harness) یا همان محیط، ابزارها و بودجه محاسباتی است.…

۳ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

Claude Opus 4.8: کاهش ۴ برابری خطاهای کدنویسی با متد آموزش صداقت

شرکت Anthropic مدل Claude Opus 4.8 را با تمرکز بر کاهش توهمات و افزایش صداقت در کدنویسی منتشر کرد. این به‌روزرسانی قابلیت کنترل میزان تلاش مدل و پیش‌نمایشی از گردش‌های کاری پویا…

۲ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

RSI در برابر AGI: چرا خود-بهبودبخشی هدف جدید آزمایشگاه‌های هوش مصنوعی است؟

آزمایشگاه‌های هوش مصنوعی از هدف مبهم AGI به سمت RSI یا «خود-بهبودبخشی بازگشتی» حرکت کرده‌اند. هدف، ساخت سیستم‌هایی است که بتوانند بدون دخالت انسان، کد و معماری خود را ارتقا دهند.

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

چگونه Cursor با بازخورد متنی، سیگنال یادگیری عامل‌های خود را ۲۰۰۰ برابر کرد؟

نسخه Cursor Composer 2.5 با معرفی یادگیری تقویت‌شده مبتنی بر بازخورد متنی هدفمند، مشکل «تخصیص اعتبار» در جلسات طولانی را حل کرده است. این روش با جایگزینی پاداش‌های کلی با…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چگونه Open-MM-RL توهمات ریاضی در مدل‌های چندوجهی را حذف می‌کند؟

یک خط لوله (Pipeline) جدید برای آموزش مدل‌های بینایی-زبانی معرفی شده است که به جای تکیه بر حدس‌های هوش مصنوعی، از اثبات‌های ریاضی برای پاداش‌دهی استفاده می‌کند. این روش با ترکیب…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

درون سند ۸۳ صفحه‌ای واتیکان برای پایان استعمار دیجیتال

پاپ لئو چهاردهم در نامه‌ای رسمی خواستار «خلع سلاح» هوش مصنوعی شد تا از انحصار قدرت در دست شرکت‌های بزرگ فناوری جلوگیری کند. این سند هشدار می‌دهد که تمرکز قدرت دیجیتال، شکل جدیدی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

توقف زودهنگام آموزش: راهکاری برای حذف ۷۱ درصدی رفتارهای مخرب در مدل‌های زبانی

پژوهشی از دانشگاه عبری اورشلیم نشان می‌دهد رفتارهای «سرکشانه» در مدل‌های هوش مصنوعی، بیش از آنکه به داده‌ها مربوط باشد، نتیجه‌ی آموزش بیش از حد (Overtraining) است. با توقف…

۳ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

چرا Anthropic پژوهش‌های مدل‌سازی را به دست خودِ هوش مصنوعی سپرده است؟

آندری کارپاتی در ۱۹ مه ۲۰۲۶ به Anthropic پیوست تا تیمی برای تسریع پژوهش‌های پیش-آموزش با کمک Claude بسازد. این اقدام نشان‌دهنده‌ی تغییر استراتژی از تکیه بر قدرت محاسباتی خام به…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

رمزگشایی از سازوکار سانسور در Qwen 3.5: نقش فضای سه-بعدی در وزن‌های مدل

مدل Qwen 3.5-9B اطلاعات حساس را حذف نمی‌کند، بلکه از یک مدار سه-بعدی در وزن‌های خود برای مسیریابی آن‌ها به سمت پاسخ‌های سانسورشده استفاده می‌کند. این کشف نشان می‌دهد که دانش واقعی…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

پشت‌پرده‌ی اولین نامه‌ی دایره‌ای واتیکان: پیوند شفافیت فنی و اخلاق جهانی

پاپ لئو چهاردهم در ۲۵ مه سند «Magnifica Humanitas» را منتشر می‌کند. این نخستین نامه رسمی واتیکان است که بر حقوق کارگران و ممنوعیت سلاح‌های خودکار در عصر هوش مصنوعی تأکید دارد.

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چرا برای کنترل مدل‌های محلی دیگر نیازی به مهندسی پرامپت ندارید؟

مهندسان اکنون می‌توانند با تغییر فعال‌سازهای داخلی مدل‌های زبانی، خروجی‌ها را هدایت کنند. انتشار DeepSeek-V4-Flash و ابزار DwarfStar 4 این روش را برای کدنویسی عامل‌محور کاربردی…

۳ دقیقه خواندن