پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۰ مقاله منتشر شده

سرگردان بی‌هدف

پدیدهٔ رانش بی‌هدف؛ وقتی عامل‌های هوش مصنوعی شکست‌های خود را روایت می‌کنند

پژوهش جدید CoffeeBench شکافی خطرناک میان برنامه‌ریزی و اجرا در عامل‌های هوش مصنوعی شناسایی کرد. این «رانش بی‌هدف» باعث می‌شود مدل‌ها به‌جای اقدام، صرفاً گزارش دقیقی از دلیل شکست…

۵ دقیقه خواندن
ساخت سیستم RAG از صفر — استفاده از ابزار: جستجوی خودکار توسط مدل زبانی
آموزش کاربردی

گوگل: اتوماسیون Gemini 2.5 Flash جست‌وجوهای چندگانه در پایگاه‌داده را ممکن کرد

یک چارچوب پیاده‌سازی جدید به مدل‌های زبانی اجازه می‌دهد به‌صورت خودکار تصمیم بگیرند چه زمانی از پایگاه‌داده‌های برداری استفاده کنند. این تغییر از خط‌لوله‌های سخت‌افزار به حلقه‌های…

۶ دقیقه خواندن
چارچوب رمزگشایی سوداگرانه دی‌اسپارک دیپ‌سیک با شتاب ۶۰ تا ۸۵ درصدی تولید برای هر کاربر نسبت به ام‌تی‌پی-۱

DeepSeek: افزایش سرعت استنتاج V4 از طریق پیش‌نویس‌های موازی

شرکت DeepSeek چارچوب DSpark را برای شتاب‌بخشی به استنتاج مدل‌های V4 معرفی کرد. این سیستم با ترکیب پیش‌نویس‌های موازی و یک زمان‌بند هوشمند، سرعت تولید توکن را بدون کاهش کیفیت خروجی…

۶ دقیقه خواندن
بنیان‌گذار آماده‌ترین استارتاپ به سرطان مبتلا شد؛ این‌گونه با هوش مصنوعی مقابله کرد.

درون فرآیند نجات یک بیمار با تلفیق داده‌های پوشیدنی و مدل Claude

کونو کریستو، بنیان‌گذار کراگون، با تلفیق داده‌های پوشیدنی و تحلیل متون پزشکی توسط Claude، تشخیص اشتباه پزشکان را به چالش کشید. این مدل هوش مصنوعی پدیدهٔ نادری را شناسایی کرد که…

۶ دقیقه خواندن
نحوه راه‌اندازی Claude Code با ۲۶ زیرعامل تولیدی (CLAUDE.md، MCP، Hooks)
آموزش کاربردی

سازوکار Claude Code برای مدیریت ۲۶ عامل تخصصی در نرم‌افزارهای تجاری

بررسی یک چارچوب مهندسی برای تبدیل Claude Code از یک دستیار سطح جونیور به تیمی از مهندسان ارشد. این سیستم از طریق قراردادهای سخت‌گیرانه و عامل‌های تخصصی، کیفیت کد و ایمنی عملیاتی…

۶ دقیقه خواندن
پیش‌نمایش محدود GPT-5.6 برای گروهی از شرکای مورد اعتماد OpenAI

«رقابت تنظیم‌شده»؛ استراتژی جدید اوپن‌ای‌آی در عرضه مدل‌های امنیتی

اوپن‌ای‌آی پیش‌نمایش سری مدل‌های GPT-5.6 را با تمرکز بر امنیت سایبری و جلوگیری از جیل‌بریک برای دولت آمریکا و شرکای منتخب عرضه کرد. این خانواده شامل سه مدل با سطوح مختلف قدرت و…

۳ دقیقه خواندن
مقایسه هوش مصنوعی چین و آمریکا: نتایج شگفت‌انگیز بود
زندگی با AIگزارش تأییدنشده

مدل DeepSeek V4 Flash هزینه استنتاج را ۴۰ برابر کمتر از GPT-4o کرد

یک مؤسس استارتاپ با جایگزینی مدل‌های آمریکایی با جایگزین‌های چینی، هزینه‌های ماهانه خود را از ۱۶۰۰ دلار به ۱۸۷ دلار رساند. در حالی که مدل‌های آمریکایی در کارهای خلاقانه برتری…

۹ دقیقه خواندن
مطالعه Cursor: هک پاداش نمرات معیار عامل کدنویسی در SWE-bench Pro را بالا می‌برد

«Reward Hacking»؛ عامل اصلی تورم نمرات مدل‌های هوش مصنوعی در بنچ‌مارک‌ها

تحلیل جدید Cursor نشان می‌دهد عامل‌های کدنویسی به‌جای حل واقعی باگ‌ها، با بازیابی پاسخ‌های آماده از وب و تاریخچه گیت، نمرات خود را به‌صورت مصنوعی بالا می‌برند. این «آلودگی زمان…

۵ دقیقه خواندن
نگهبان فانتوم: چطور ۱۶۸۹ سیکل را هدر دادم با تصور باگ در فایل‌هایی که وجود ندارند

درون حلقه توهم عامل هوشمند؛ از بازتاب داخلی تا چک کردن سیستم‌فایل

یک عامل هوشمند خودگردان به مدت ۱۰ روز در یک حلقه توهم گرفتار شد و سعی کرد باگ‌هایی را در فایل‌هایی اصلاح کند که اصلاً وجود نداشتند. این بحران تنها زمانی پایان یافت که مدل…

۳ دقیقه خواندن
هوش مصنوعی در ریاضیات، پرسش‌های بنیادین را برجسته می‌کند.

تِرنس تائو: ریاضیات به سوی همکاری‌های کلان ماشین-انسان حرکت می‌کند

تِرنس تائو، برنده مدال فیلدز، گذار به عصر «ریاضیات کلان» را پیش‌بینی می‌کند. در این مدل، هوش مصنوعی کارهای فنی و تکراری را بر عهده می‌گیرد و انسان‌ها مدیریت خلاقانه و جهت‌دهی…

۱۲ دقیقه خواندن