
دقت ریاضی در برابر شبیهسازی خطا؛ تناقض جدید در تکامل مدلهای زبانی
رویکردی جدید در تکامل AI پیشنهاد میکند که مدلها به جای حذف خطا، یاد بگیرند چگونه رفتارهای انسانی، حتی اشتباهات را شبیهسازی کنند. این تغییر مسیر، نقش AI را از یک ابزار ساده به…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۶ مقاله منتشر شده

رویکردی جدید در تکامل AI پیشنهاد میکند که مدلها به جای حذف خطا، یاد بگیرند چگونه رفتارهای انسانی، حتی اشتباهات را شبیهسازی کنند. این تغییر مسیر، نقش AI را از یک ابزار ساده به…

یک چالش امنیتی گسترده با بیش از ۶ هزار تلاش برای نفوذ، نتوانست لایههای حفاظتی مدل Claude Opus 4.6 را بشکند. این نتایج پیشرفت چشمگیر در دفاع مدلهای پیشرو را نشان میدهد، هرچند…

شرکت آنتروپیک آماده است تا مدل Fable 5 را پس از رفع توقفهای امنیتی دولت آمریکا دوباره عرضه کند. در حالی که نسخههای محدودتر برای شرکای منتخب فعال شدهاند، عرضه عمومی این مدل در…

شرکتهای پیشرو در حوزه هوش مصنوعی در ژوئن ۲۰۲۶ برای ورود به بازارهای عمومی اقدام کردند. این چرخش راهبردی، اولویت این آزمایشگاهها را از مأموریتهای پژوهشی ایمنی به ساختارهای…

پژوهشهای جدید نشان میدهد نظارت انسانی بر عاملهای هوش مصنوعی بهدلیل اعتماد بیش از حد و سرعت بالای اجرا، عملاً ناکارآمد است. برای ایمنی واقعی، باید از بررسی نتایج به سمت حاکمیت…

اوپنایآی پیشنمایش سری مدلهای GPT-5.6 را با تمرکز بر امنیت سایبری و جلوگیری از جیلبریک برای دولت آمریکا و شرکای منتخب عرضه کرد. این خانواده شامل سه مدل با سطوح مختلف قدرت و…

اوپنایآی پیشنمایش محدودی از سری GPT-5.6 را منتشر کرد که مدل پرچمدار آن، Sol، با تمرکز بر استدلالهای عاملمحور و لایههای امنیتی شدید عرضه شده است. این عرضه بهصورت مرحلهای و…

یک تحلیل جسورانه استدلال میکند که هوش مصنوعی ابرهوشمند، حتی ثروتمندان و رهبران سیاسی را از نظر مادی زائد میکند. در دنیایی که ماشینها تولید و دفاع را مدیریت میکنند، حقوق…

دولت ترامپ از OpenAI میخواهد انتشار مدل جدید GPT 5.6 را تنها به شرکای منتخب محدود کند. این تصمیم برای جلوگیری از حملات سایبری خودکار و افزایش نظارت فدرال بر مدلهای پیشرو اتخاذ…

استارتاپ Patronus AI با جذب ۵۰ میلیون دلار سرمایه، محیطهای دیجیتال شبیهسازیشدهای میسازد تا قابلیتهای عاملهای هوش مصنوعی را در دنیای واقعی بسنجد. درآمد این شرکت در یک سال ۱۵…

پژوهشگران دریافتند که تقلید از سبک تفکر داخلی مدلها، مؤثرترین راه برای دور زدن حفاظهای امنیتی است. این آسیبپذیری بهویژه در درگاههای MCP که محتوای پاسخ ابزارها را بررسی…

بررسی واشینگتن پست نشان میدهد اکثر چتباتهای پیشرو، حتی مدلهای ادعایی محافظهکار، سوگیری سیاسی چپگرا دارند. تنها جمینای ۳.۱ پرو گوگل توانسته است با ارائه دیدگاههای متقابل،…