تحلیل و بررسی تخصصی

مدل اقامتی: سازوکاری که هزینه‌های استنتاج هوش مصنوعی را دائمی می‌کند

هزینه‌های زیرساختی هوش مصنوعی از مدل‌های مصرفی به «اقامتی» تغییر می‌کنند. به دلیل تأخیر در شروع سرد، مدل‌ها باید همیشه فعال بمانند و این امر یک کف هزینه‌ای دائمی ایجاد می‌کند که…

۳ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

بمب ساعتی در کدها: چرا عامل‌های هوش مصنوعی در جزئیات شکست می‌خورند؟

جورج هاتز هشدار می‌دهد که عامل‌های کدنویس تنها تقلیدکننده‌های آماری هستند و با ایجاد باگ‌های پنهان، هزینه‌های سنگینی ایجاد می‌کنند. در حالی که کارپاتی بهره‌وری ۱۰ برابری را…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

بنچمارک CiteVQA: دقت GPT-5.4 در استناد به منابع تا ۵۹ درصد سقوط کرد

پژوهشگران با معرفی بنچمارک CiteVQA، پدیده‌ی «توهم استنادی» را شناسایی کردند؛ وضعیتی که در آن مدل‌ها پاسخ درست می‌دهند اما منبع اشتباهی را ذکر می‌کنند. نتایج نشان می‌دهد حتی…

۳ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

چگونه بستر شیشه‌ای اینتل سد پهنای باند حافظه در تراشه‌های AI را می‌شکند؟

اینتل در پردازنده‌های Xeon 6+ (Clearwater Forest)، بسترهای ارگانیک سنتی را با شیشه جایگزین می‌کند. این تغییر با حذف تاب‌خوردگی‌های حرارتی و افزایش شدید تراکم اتصالات، مسیر را برای…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

گزارش Codens: نرخ موفقیت Cursor Composer 2.5 در محیط واقعی تنها ۳۶ درصد است

شرکت Codens با جایگزینی Claude Opus با Cursor Composer 2.5 توانست هزینه‌ها را ۹۰٪ کاهش دهد، اما نرخ موفقیت عملیات از ۸۰٪ به ۳۶٪ سقوط کرد. این تجربه نشان می‌دهد که بنچمارک‌های…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

پرونده‌های SpaceX: ضرر ۶.۴ میلیارد دلاری xAI در سال ۲۰۲۵

xAI در سال ۲۰۲۵ با ضرری ۶.۴ میلیارد دلاری مواجه شد. ایلان ماسک با وجود این کسری، قصد دارد با هزینه‌ای سالانه ۳۰.۸ میلیارد دلار، مدل Grok را به مقیاس تریلیون‌ها پارامتر برساند.

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

فرمول DeepSeek برای تبدیل مدل‌های زبانی به عامل‌های کدنویس

شرکت DeepSeek در حال تشکیل تیمی تخصصی برای توسعه DeepSeek Code است تا با تمرکز بر لایه‌ی ارکستراسیون، رقیبی برای Claude Code و GitHub Copilot باشد. هدف این پروژه عبور از…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

OpenAI: مدل استدلالی جدید، حدس هندسی ۸۰ ساله‌ی Erdős را باطل کرد

مدل استدلالی جدید OpenAI توانست معمای هندسی ۸۰ ساله‌ای را که توسط پل اردوش مطرح شده بود، به‌طور مستقل حل و باطل کند. این دستاورد که توسط ریاضی‌دانان برجسته تأیید شده، نشان‌دهنده‌ی…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

بایت‌دنس: مدل ۳ میلیارد پارامتری Lance با امتیاز ۸۵.۱۱ در بنچمارک VBench

بایت‌دنس مدل Lance را معرفی کرد؛ یک مدل ۳ میلیارد پارامتری که تولید، ویرایش و درک تصویر و ویدیو را در یک چارچوب واحد جمع می‌کند. این مدل با بهره‌وری بالا، در بنچمارک‌های کلیدی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

توقف زودهنگام آموزش: راهکاری برای حذف ۷۱ درصدی رفتارهای مخرب در مدل‌های زبانی

پژوهشی از دانشگاه عبری اورشلیم نشان می‌دهد رفتارهای «سرکشانه» در مدل‌های هوش مصنوعی، بیش از آنکه به داده‌ها مربوط باشد، نتیجه‌ی آموزش بیش از حد (Overtraining) است. با توقف…

۳ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

چگونه ترکیب بینایی و صوت، تأخیر ترجمه در Qwen3.5 را به ۲.۸ ثانیه رساند؟

تیم Qwen در علی‌بابا با معرفی مدل Qwen3.5-LiveTranslate-Flash، تأخیر ترجمه هم‌زمان را به ۲.۸ ثانیه کاهش داد. این مدل با ترکیب داده‌های بصری و صوتی، کیفیت ترجمه را در محیط‌های شلوغ…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

گزارش SWE-bench: نرخ موفقیت Claude Code در حل مشکلات گیت‌هاب به ۸۷.۶٪ رسید

عامل‌های کدنویسی به نقطه عطف استقلال رسیده‌اند و Claude Code اکنون اکثریت مشکلات واقعی گیت‌هاب را حل می‌کند. هم‌زمان، صنعت به سمت عامل‌های «ماندگار در ابر» و مدل‌های یکپارچه برای…

۲ دقیقه خواندن