موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

چرا Cursor برای Composer 2 مدل‌های همه‌کاره را کنار گذاشت؟

شرکت Cursor معماری Composer 2 را معرفی کرد؛ مدلی تخصصی برای مهندسی نرم‌افزار که بر پایه Kimi 2.5 ساخته شده است. این سیستم با استفاده از تکنیک‌های Delta Sync و Router Replay،…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

چگونه GPT-5.5 مصرف توکن‌های برنامه‌نویسی را در پلتفرم Oz تا ۳۰٪ کاهش داد؟

شرکت Warp با معرفی پلتفرم Oz و بهره‌گیری از GPT-5.5، ۹۰٪ از Pull Requestهای خود را خودکار کرده است. این رویکرد «توسعه‌ی عامل‌محور»، باعث رشد ۳۵ برابری درآمد سالانه‌ی این شرکت شده…

۳ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

بنچمارک ITBench-AA: نرخ موفقیت مدل‌های پیشرو در وظایف SRE کمتر از ۵۰٪ است

یک بنچمارک جدید از IBM و Artificial Analysis نشان می‌دهد که پیشرفته‌ترین مدل‌های هوش مصنوعی در عیب‌یابی زیرساخت‌های سازمانی شکست می‌خورند. یافته‌ها حاکی از یک رابطه معکوس…

۳ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

چگونه TokenSpeed سرعت استنتاج Qwen3.5 را به ۵۸۰ توکن در ثانیه رساند؟

موتور استنتاج TokenSpeed با بهینه‌سازی حافظه و ادغام کرنل‌ها، رکورد ۵۸۰ توکن در ثانیه را برای مدل Qwen3.5-397B روی پردازنده‌های NVIDIA Blackwell ثبت کرد. این پیشرفت به‌ویژه برای…

۳ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

DeepSWE: نرخ خطای ۳۲ درصدی در سامانه تأیید SWE-bench Pro

بنچمارک جدید DeepSWE با هدف حذف آلودگی داده‌ها، شکاف عملکردی عامل‌های کدنویسی در وظایف پیچیده و بلندمدت را آشکار کرد. این مطالعه نشان می‌دهد مدل‌های پیشرو در بسیاری از موارد، به…

۳ دقیقه خواندن

آموزش کاربردیماه گذشته

چرا طراحی معیار جایگزین اجرای دستی آزمایش‌ها در پروژه autoresearch شد؟

آندری کارپاتی سیستم autoresearch را معرفی کرد که حلقه‌های پژوهشی خودکار را بر اساس معیارهای انسانی اجرا می‌کند. این ابزار نقش متخصص را از «اجراکننده آزمایش» به «طراح فضای جست‌وجو…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

چرا مدل‌های زبانی برای استدلال عمیق‌تر، به «خواب» نیاز دارند؟

پژوهشی جدید مکانیسمی شبیه به «خواب» را برای مدل‌های زبانی پیشنهاد می‌دهد که با تبدیل بافت متنی به وزن‌های دائمی، مشکل مقیاس‌پذیری حافظه را حل می‌کند. این روش باعث کاهش تأخیر در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

چگونه Cursor با بازخورد متنی، سیگنال یادگیری عامل‌های خود را ۲۰۰۰ برابر کرد؟

نسخه Cursor Composer 2.5 با معرفی یادگیری تقویت‌شده مبتنی بر بازخورد متنی هدفمند، مشکل «تخصیص اعتبار» در جلسات طولانی را حل کرده است. این روش با جایگزینی پاداش‌های کلی با…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چگونه Open-MM-RL توهمات ریاضی در مدل‌های چندوجهی را حذف می‌کند؟

یک خط لوله (Pipeline) جدید برای آموزش مدل‌های بینایی-زبانی معرفی شده است که به جای تکیه بر حدس‌های هوش مصنوعی، از اثبات‌های ریاضی برای پاداش‌دهی استفاده می‌کند. این روش با ترکیب…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

مایکروسافت SkillOpt: کسب رتبه اول در ۵۲ بنچمارک عامل‌های هوش مصنوعی

چارچوب جدید SkillOpt مایکروسافت مهارت‌های عامل‌های هوش مصنوعی را به‌جای تغییر وزن‌های مدل، از طریق توصیفات متنی بهینه می‌کند. این روش در ۵۲ محیط مختلف، نتایجی برابر یا بهتر از…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

چرا اپل برای نجات سیری به مدل ۱.۲ تریلیون پارامتری گوگل روی آورد؟

اپل برای ارتقای سیری از یک مدل سفارشی ۱.۲ تریلیون پارامتری گوگل استفاده می‌کند. این سیستم وظایف را بین پردازش محلی برای کارهای ساده و استنتاج ابری برای درخواست‌های پیچیده تقسیم…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

چرا گلوگاه عملکرد عامل‌های هوش مصنوعی مدل نیست، بلکه مهندسی هارنس است؟

شرکت Hugging Face یک چارچوب فنی برای استانداردسازی مفاهیم عامل‌های هوش مصنوعی معرفی کرد. این مدل با تفکیک مدل از لایه‌های اجرایی، دیدگاهی دقیق برای طراحی و آموزش سیستم‌های…

۲ دقیقه خواندن