
توهم اخلاق؛ چرا «تفکر» در AI فقط یک فیلتر سازگاری است؟
پژوهشی جدید روی ۵ مدل پیشرو نشان میدهد که حالت استدلالی تأثیری در تغییر احکام اخلاقی ندارد، اما تضاد بین مدلها را در سناریوهای پیچیده کاهش میدهد. در واقع، «تفکر» بیشتر یک ابزار…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۴۵ مقاله منتشر شده

پژوهشی جدید روی ۵ مدل پیشرو نشان میدهد که حالت استدلالی تأثیری در تغییر احکام اخلاقی ندارد، اما تضاد بین مدلها را در سناریوهای پیچیده کاهش میدهد. در واقع، «تفکر» بیشتر یک ابزار…

یک مطالعهی جدید فاش میکند که بنچمارکهای استاندارد مدلها نمیتوانند رفتار هوش مصنوعی در محیط عملیاتی را پیشبینی کنند. محققان دریافتند که لایههای امنیتی برای هر مدل…

پروژهی open-claude-design ثابت کرد که استفاده از «هارنسهای نازک» برای مدیریت ابزارهای موجود، بسیار کارآمدتر از ساخت عاملهای حجیم است. این سیستم با بازسازی خط لولهی ابزار طراحی…

دیپسیک با معرفی مدلهای V4-Flash و V4-Pro و تخفیف ۷۵ درصدی مدل Pro، جنگ قیمتها در بازار استنتاج را به سطح جدیدی برد. کاهش ۹۰ درصدی هزینههای کش ورودی، این پلتفرم را به گزینهای…

گوگل با معرفی Antigravity، نقش برنامهنویس را از نویسنده کد به مدیر تیمهای هوش مصنوعی تغییر میدهد. در حالی که VSCode همچنان پادشاه دقت است، این ابزار جدید سرعت توسعه را با…

اوبر با پیادهسازی یک معماری عاملمحور بر پایه OpenAI، منوهای پیچیده اپلیکیشن را با راهنماییهای صوتی و استدلالی جایگزین کرده است. این سیستم با هدف بهینهسازی درآمد رانندگان و…

آنتروپیک با همکاری اسپیساکس، مرکز داده Colossus-1 را برای افزودن ۲۲۰ هزار پردازنده NVIDIA به زیرساختهای خود به خدمت گرفت. این جهش سختافزاری منجر به افزایش چشمگیر سقف استفاده…

نقشههای جریان با جایگزینی پیشبینی سرعتهای محلی با انتگرالگیری از مسیر، مدلهای انتشار را متحول میکنند. این رویکرد اجازه میدهد تصاویر و ویدیوهای باکیفیت تنها در ۱ تا ۸ گام…

مهاجرت از vLLM V0 به V1 میتواند به دلیل تفاوتهای جزئی در محاسبات logprob، کل فرآیند آموزش RL را مختل کند. تیم Hugging Face با اولویتبندی صحت زیرساختی و استفاده از fp32،…

قابلیت جدید Outcomes در سیستم عاملهای مدیریتشدهی Anthropic، تعریف دقیق و قابل تست موفقیت را اجباری میکند. این تغییر، گلوگاه مهندسی را از «نوشتن کد» به «تعریف قصد» (IntentSpec)…

استارتاپ Genesis AI با معرفی مدل بنیادی GENE-26.5 و سختافزارهای پیشرفته، قصد دارد شکاف میان دادههای آموزشی و واقعیت فیزیکی را از بین ببرد. این سیستم با استفاده از دستکشهای…

گوگل با ادغام مستقیم دیدگاههای کاربران ردیت و سایر فرومها در AI Overviews، به دنبال کاهش توهمات مدلهای زبانی است. این اقدام تلاشی برای تبدیل یک «موتور پاسخدهنده» به یک «سیستم…