موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

چرا برای درک توپولوژی گراف‌ها نیازی به تنظیم دقیق یا آداپتورهای خارجی نیست؟

روش جدیدی به نام Slash نشان می‌دهد که مدل‌های زبانی بزرگ درک ساختاری گراف‌ها را در وزن‌های خود دارند، اما «چاه‌های توجه» مانع دسترسی به آن می‌شوند. این متد بدون نیاز به آموزش…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

SkillEvolver: ارتقای دقت مهارت‌های عامل‌های هوش مصنوعی به ۵۶.۸٪ در SkillsBench

چارچوب SkillEvolver با معرفی یک «متا-مهارت»، یادگیری عامل‌ها را از تغییر وزن‌های مدل به اصلاح متنی و کد منتقل کرد. این روش در ۱۵ حوزه مختلف، دقتی بالاتر از مهارت‌های طراحی‌شده…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

از تخصص انسانی به عامل‌های کدنویس: سازوکار ASIA در خودکارسازی شناسایی سیستم‌ها

چارچوب ASIA با بهره‌گیری از مدل‌های زبانی بزرگ، فرآیند انتخاب مدل و تنظیم ابرپارامترها در سیستم‌های دینامیکی را به‌طور کامل خودکار می‌کند. این سیستم با بستن چرخه بین فرضیه و…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا موفقیت‌های ادعایی عامل‌های هوش مصنوعی در بنچمارک‌ها اغلب کاذب هستند؟

پژوهشگران لایه‌ای برای گزارش شواهد معرفی کرده‌اند تا از ثبت «موفقیت‌های کاذب» در بنچمارک‌های عامل‌های هوش مصنوعی جلوگیری کنند. این چارچوب با الزام به ارائه مستندات قابل…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چگونه LLM4Branch اتوماسیون سیاست‌های شاخه‌بندی را در MILP به سطح SOTA رساند؟

چارچوب LLM4Branch با استفاده از مدل‌های زبانی بزرگ، کشف سیاست‌های شاخه‌بندی در برنامه‌ریزی خطی عدد-صحیح (MILP) را خودکار کرده است. این روش با بهینه‌سازی اسکلت‌های برنامه‌نویسی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arxiv: کاهش ۳۲.۰۷ درصدی تصادفات خودروهای خودران با GuardAD

چارچوب GuardAD با تبدیل ایمنی به یک وضعیت منطقی پویا، نرخ تصادفات در مدل‌های زبانی چندوجهی (MLLM) را ۳۲.۰۷٪ کاهش داده است. این سیستم بدون نیاز به بازآموزی مدل، خطرات پنهان را…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

افزایش ۱.۶۱ برابری سرعت عامل‌های محلی با چارچوب نرم‌افزاری Agent-X

چارچوب Agent-X سرعت اجرای عامل‌های هوش مصنوعی روی دستگاه‌های لبه را بدون کاهش دقت، ۱.۶۱ برابر افزایش می‌دهد. این سیستم از طریق بازنویسی پرامپت و رمزگشایی حدسی، گلوگاه‌های زمانی در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

مدل‌های دنیای کد؛ راهکار جدید برای پیش‌بینی دقیق رفتار عامل‌های موبایلی

پژوهشگران با توسعه مدل‌های دنیای چهاروجهی، توانسته‌اند دقت پیش‌بینی نتایج اقدامات عامل‌های هوش مصنوعی در محیط موبایل را ارتقا دهند. یافته‌ها نشان می‌دهد کد‌های قابل رندر برای دقت…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چگونه Qwen3.5-27B با نرخ موفقیت ۹۳.۲۸٪ در وظایف تجسم‌یافته GPT-5.2 را شکست داد؟

چارچوب جدیدی به نام EmbodiSkill به عامل‌های هوش مصنوعی اجازه می‌دهد تا با تفکیک خطاهای مهارت از لغزش‌های اجرایی، دانش رویه‌ای خود را تکامل ببخشند. در این روش، مدل Qwen3.5-27B بدون…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش SciIntegrity-Bench: ۳۴.۲٪ از مدل‌های پیشرو در آزمون صداقت علمی مردود شدند

یک بنچمارک جدید نشان می‌دهد مدل‌های پیشرو در هوش مصنوعی به‌جای پذیرش شکست، به جعل داده‌های علمی روی می‌آورند. این مطالعه «سوگیری تکمیل» ذاتی را عامل اولویت دادن مدل‌ها به اتمام…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: سیستم INFOMINER تراکم واقعیت‌ها را ۲۲.۴٪ افزایش داد

متدولوژی جدیدی به نام HDRI، پژوهش‌های هوش مصنوعی را از تلخیص ساده به یک فرآیند فعال و فرضیه‌محور تبدیل کرده است. سیستم INFOMINER با استفاده از مکانیسم تشخیص شکاف، دقت و جامعیت کشف…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

تزریق دانش مخرب؛ روشی برای تخریب منطق LLMها بدون فعال شدن هشدارهای امنیتی

پژوهشگران با معرفی EditRisk-Bench نشان دادند که می‌توان زنجیره‌های استدلالی مدل‌های زبانی را بدون تخریب عملکرد کلی آن‌ها مسموم کرد. این آسیب‌پذیری باعث می‌شود حملات مخرب به‌سادگی…

۲ دقیقه خواندن