
رمزگشایی از وسواس عجیب GPT-5: وقتی «گابلینها» مدل را تسخیر کردند
یک سیگنال پاداش اشتباه در شخصیت «Nerdy»، باعث شد مدلهای GPT-5 به طور غیرعادی به استعارههای گابلین و گرملین علاقهمند شوند. این اتفاق نشان میدهد چگونه یک ویژگی جزئی میتواند از…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۳۳ مقاله منتشر شده

یک سیگنال پاداش اشتباه در شخصیت «Nerdy»، باعث شد مدلهای GPT-5 به طور غیرعادی به استعارههای گابلین و گرملین علاقهمند شوند. این اتفاق نشان میدهد چگونه یک ویژگی جزئی میتواند از…

پلتفرم متنباز Mike با جایگزینی لایسنسهای گرانقیمت با مدل استفاده از API، کنترل زیرساختهای هوش مصنوعی را به دفاتر حقوقی بازمیگرداند. این ابزار اجازه میدهد مدلهای قدرتمندی…

یک تست استرس ۳۰ روزه روی عامل OpenClaw نشان میدهد که چالش اصلی هوش مصنوعی زاینده، نه در پرامپت، بلکه در پایداری بلندمدت است. این آزمایش ۵ نقطه شکست بحرانی را شناسایی کرده که…

مایکروسافت با تغییر مدل همکاری با OpenAI، دسترسی رایگان به مالکیت معنوی این شرکت تا سال ۲۰۳۲ را تضمین کرد. با وجود پایان انحصار، درآمد بخش هوش مصنوعی این غول فناوری به ۳۷ میلیارد…

زبان برنامهنویسی Vera با حذف نام متغیرها و جایگزینی آنها با ارجاعات ساختاری، خطاهای رایج مدلهای زبانی را از بین میبرد. این زبان با استفاده از تأییدیه Z3، اجازه میدهد مدلهایی…

بنچمارک جدید Anthropic نشان میدهد مدلهای Claude میتوانند معماهای بیولوژیکی را حل کنند که حتی متخصصان انسانی از پس آنها برنمیآیند. با این حال، «شکاف قابلیت» در تکرارپذیری…

دیپسیک با معرفی مدلهای V4-Pro و V4-Flash، معماری جدیدی را برای کاهش چشمگیر هزینههای استنتاج ارائه کرد. این مدلها با پنجره بافتی ۱ میلیون توکنی، مسیر را برای ظهور عاملهای…

زنکو (Zenku) یک موتور بدونکد (No-code) متنباز است که با استفاده از معماری عاملمحور، اپلیکیشنها را بهصورت پویا و از طریق گفتگو میسازد. این ابزار با جایگزینی کدهای استاتیک با…

یک نقد فنی جنجالی ادعا میکند که سیستمهای RAG برداری برای حافظهی عاملهای چندگانه ناکارآمد هستند. راهکار پیشنهادی، جایگزینی بردارهای ایستا با SQL نسخهمند برای مدیریت دقیق…

آزمایش جدید شرکت Anthropic نشان میدهد که عاملهای قدرتمندتر در مذاکرات تجاری نتایج بهتری میگیرند، در حالی که کاربران مدلهای ضعیفتر هرگز متوجه شکست خود نمیشوند. این یافته،…

برای اولین بار، یک هوش مصنوعی مسیر حرکت یک کاوشگر مریخی را طراحی کرد. این اقدام باعث کاهش ۵۰ درصدی حجم کاری مهندسان ناسا شده و مسیر را برای ماموریتهای خودگردان آینده هموار میکند.

گوگل مدلهای **لیریا ۳** (Lyria 3) را برای توسعهدهندگان عرضه کرد. این خانواده دو نسخه دارد: نسخه Pro برای آهنگهای تا سه دقیقه و نسخه Clip برای کلیپهای ۳۰ ثانیهای. سیستم از…