موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۶ مقاله منتشر شده

انسان و هوش مصنوعی در کنار هم، نیرویی متحد برای آینده.

دقت ریاضی در برابر شبیه‌سازی خطا؛ تناقض جدید در تکامل مدل‌های زبانی

رویکردی جدید در تکامل AI پیشنهاد می‌کند که مدل‌ها به جای حذف خطا، یاد بگیرند چگونه رفتارهای انسانی، حتی اشتباهات را شبیه‌سازی کنند. این تغییر مسیر، نقش AI را از یک ابزار ساده به…

۲ دقیقه خواندن

۶ هزار حمله تزریق پرامپت شکست خورد، اما خطرات همچنان باقی‌ست

اخبار کوتاه روزانه۳ ساعت پیش

۶ هزار تلاش برای تزریق پرامپت در Claude Opus 4.6 شکست خورد

یک چالش امنیتی گسترده با بیش از ۶ هزار تلاش برای نفوذ، نتوانست لایه‌های حفاظتی مدل Claude Opus 4.6 را بشکند. این نتایج پیشرفت چشمگیر در دفاع مدل‌های پیشرو را نشان می‌دهد، هرچند…

۱ دقیقه خواندن

آنتروپیک کلود فیبل ۵ و میتوس ۵ را با پیشرفت در کدنویسی و علوم منتشر کرد

اخبار کوتاه روزانه۱۰ ساعت پیش

«در انتظار تأیید پنتاگون»؛ شرط عرضه عمومی مدل Fable 5

شرکت آنتروپیک آماده است تا مدل Fable 5 را پس از رفع توقف‌های امنیتی دولت آمریکا دوباره عرضه کند. در حالی که نسخه‌های محدودتر برای شرکای منتخب فعال شده‌اند، عرضه عمومی این مدل در…

۱ دقیقه خواندن

هجوم عرضه اولیه سهام هوش مصنوعی: پیامدهای ورود Anthropic و OpenAI به بورس

اخبار کوتاه روزانه۱۷ ساعت پیش

گزارش بازار: تغییر اولویت دو آزمایشگاه AI از پژوهش به سودآوری

شرکت‌های پیشرو در حوزه هوش مصنوعی در ژوئن ۲۰۲۶ برای ورود به بازارهای عمومی اقدام کردند. این چرخش راهبردی، اولویت این آزمایشگاه‌ها را از مأموریت‌های پژوهشی ایمنی به ساختارهای…

۴ دقیقه خواندن

هوش مصنوعی عامل‌محور: تعریف و ضرورت تغییر نظارت بر آن

آموزش کاربردی۱۷ ساعت پیش

چرا نظارت انسانی نمی‌تواند جلوی خطاهای عامل‌های هوش مصنوعی را بگیرد؟

پژوهش‌های جدید نشان می‌دهد نظارت انسانی بر عامل‌های هوش مصنوعی به‌دلیل اعتماد بیش از حد و سرعت بالای اجرا، عملاً ناکارآمد است. برای ایمنی واقعی، باید از بررسی نتایج به سمت حاکمیت…

۹ دقیقه خواندن

پیش‌نمایش محدود GPT-5.6 برای گروهی از شرکای مورد اعتماد OpenAI

اخبار کوتاه روزانه۲۱ ساعت پیش

«رقابت تنظیم‌شده»؛ استراتژی جدید اوپن‌ای‌آی در عرضه مدل‌های امنیتی

اوپن‌ای‌آی پیش‌نمایش سری مدل‌های GPT-5.6 را با تمرکز بر امنیت سایبری و جلوگیری از جیل‌بریک برای دولت آمریکا و شرکای منتخب عرضه کرد. این خانواده شامل سه مدل با سطوح مختلف قدرت و…

۳ دقیقه خواندن

پیش‌نمایش مدل نسل بعدی GPT-5.6 Sol: هوش مصنوعی پیشرفته با قابلیت‌های نوآورانه

اخبار کوتاه روزانهپریروز

مدل Sol در برابر Mythos؛ برتری در استدلال‌های عامل‌محور و امنیت

اوپن‌ای‌آی پیش‌نمایش محدودی از سری GPT-5.6 را منتشر کرد که مدل پرچمدار آن، Sol، با تمرکز بر استدلال‌های عامل‌محور و لایه‌های امنیتی شدید عرضه شده است. این عرضه به‌صورت مرحله‌ای و…

۸ دقیقه خواندن

زندگی با AIپریروز

سهم از OpenAI میلیاردرها را در برابر «طبقهٔ فرودسوزی ابدی» نجات نمی‌دهد

یک تحلیل جسورانه استدلال می‌کند که هوش مصنوعی ابر‌هوشمند، حتی ثروتمندان و رهبران سیاسی را از نظر مادی زائد می‌کند. در دنیایی که ماشین‌ها تولید و دفاع را مدیریت می‌کنند، حقوق…

۱۳ دقیقه خواندن

کاخ سفید از اوپن‌ای‌ای خواسته عرضه مدل جدید را به دلیل نگرانی‌های ایمنی به تأخیر اندازد.

اخبار کوتاه روزانهپریروز

فشار کاخ سفید برای محدود کردن دسترسی به GPT 5.6

دولت ترامپ از OpenAI می‌خواهد انتشار مدل جدید GPT 5.6 را تنها به شرکای منتخب محدود کند. این تصمیم برای جلوگیری از حملات سایبری خودکار و افزایش نظارت فدرال بر مدل‌های پیشرو اتخاذ…

۳ دقیقه خواندن۱

شرکت Patronus AI ۵۰ میلیون دلار برای ساخت «جهان‌های دیجیتال» تست استرس عامل‌های هوش مصنوعی جذب کرد.

اخبار کوتاه روزانهپریروز

بنچمارک‌های ایستا در برابر شبیه‌سازی‌های پویا در ارزیابی AI

استارتاپ Patronus AI با جذب ۵۰ میلیون دلار سرمایه، محیط‌های دیجیتال شبیه‌سازی‌شده‌ای می‌سازد تا قابلیت‌های عامل‌های هوش مصنوعی را در دنیای واقعی بسنجد. درآمد این شرکت در یک سال ۱۵…

۳ دقیقه خواندن

تزریق پرامپت، سردرگمی نقش است و دروازه MCP شما نمی‌تواند آن را ببیند

تحلیل و بررسی تخصصیپریروز

جعل زنجیره‌های تفکر، نرخ موفقیت جیل‌بریک را به ۶۰٪ رساند

پژوهشگران دریافتند که تقلید از سبک تفکر داخلی مدل‌ها، مؤثرترین راه برای دور زدن حفاظ‌های امنیتی است. این آسیب‌پذیری به‌ویژه در درگاه‌های MCP که محتوای پاسخ ابزارها را بررسی…

۴ دقیقه خواندن

هوش مصنوعی‌های چت‌بات همچنان در مسائل سیاسی تمایل چپ دارند، حتی مدل‌های «ضد بیداری» هم مستثنی نیستند.

اخبار کوتاه روزانه۳ روز پیش

سویه‌های سیاسی هوش مصنوعی: ۸۰٪ پاسخ‌های GPT-5.5 متمایل به چپ است

بررسی واشینگتن پست نشان می‌دهد اکثر چت‌بات‌های پیشرو، حتی مدل‌های ادعایی محافظه‌کار، سوگیری سیاسی چپ‌گرا دارند. تنها جمینای ۳.۱ پرو گوگل توانسته است با ارائه دیدگاه‌های متقابل،…

۳ دقیقه خواندن