پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

چرا برای درک توپولوژی گراف‌ها نیازی به تنظیم دقیق یا آداپتورهای خارجی نیست؟

چرا برای درک توپولوژی گراف‌ها نیازی به تنظیم دقیق یا آداپتورهای خارجی نیست؟

روش جدیدی به نام Slash نشان می‌دهد که مدل‌های زبانی بزرگ درک ساختاری گراف‌ها را در وزن‌های خود دارند، اما «چاه‌های توجه» مانع دسترسی به آن می‌شوند. این متد بدون نیاز به آموزش…

۲ دقیقه خواندن
SkillEvolver: ارتقای دقت مهارت‌های عامل‌های هوش مصنوعی به ۵۶.۸٪ در SkillsBench

SkillEvolver: ارتقای دقت مهارت‌های عامل‌های هوش مصنوعی به ۵۶.۸٪ در SkillsBench

چارچوب SkillEvolver با معرفی یک «متا-مهارت»، یادگیری عامل‌ها را از تغییر وزن‌های مدل به اصلاح متنی و کد منتقل کرد. این روش در ۱۵ حوزه مختلف، دقتی بالاتر از مهارت‌های طراحی‌شده…

۲ دقیقه خواندن
از تخصص انسانی به عامل‌های کدنویس: سازوکار ASIA در خودکارسازی شناسایی سیستم‌ها

از تخصص انسانی به عامل‌های کدنویس: سازوکار ASIA در خودکارسازی شناسایی سیستم‌ها

چارچوب ASIA با بهره‌گیری از مدل‌های زبانی بزرگ، فرآیند انتخاب مدل و تنظیم ابرپارامترها در سیستم‌های دینامیکی را به‌طور کامل خودکار می‌کند. این سیستم با بستن چرخه بین فرضیه و…

۲ دقیقه خواندن
چرا موفقیت‌های ادعایی عامل‌های هوش مصنوعی در بنچمارک‌ها اغلب کاذب هستند؟

چرا موفقیت‌های ادعایی عامل‌های هوش مصنوعی در بنچمارک‌ها اغلب کاذب هستند؟

پژوهشگران لایه‌ای برای گزارش شواهد معرفی کرده‌اند تا از ثبت «موفقیت‌های کاذب» در بنچمارک‌های عامل‌های هوش مصنوعی جلوگیری کنند. این چارچوب با الزام به ارائه مستندات قابل…

۲ دقیقه خواندن
چگونه LLM4Branch اتوماسیون سیاست‌های شاخه‌بندی را در MILP به سطح SOTA رساند؟

چگونه LLM4Branch اتوماسیون سیاست‌های شاخه‌بندی را در MILP به سطح SOTA رساند؟

چارچوب LLM4Branch با استفاده از مدل‌های زبانی بزرگ، کشف سیاست‌های شاخه‌بندی در برنامه‌ریزی خطی عدد-صحیح (MILP) را خودکار کرده است. این روش با بهینه‌سازی اسکلت‌های برنامه‌نویسی…

۲ دقیقه خواندن
افزایش ۱.۶۱ برابری سرعت عامل‌های محلی با چارچوب نرم‌افزاری Agent-X

افزایش ۱.۶۱ برابری سرعت عامل‌های محلی با چارچوب نرم‌افزاری Agent-X

چارچوب Agent-X سرعت اجرای عامل‌های هوش مصنوعی روی دستگاه‌های لبه را بدون کاهش دقت، ۱.۶۱ برابر افزایش می‌دهد. این سیستم از طریق بازنویسی پرامپت و رمزگشایی حدسی، گلوگاه‌های زمانی در…

۲ دقیقه خواندن
مدل‌های دنیای کد؛ راهکار جدید برای پیش‌بینی دقیق رفتار عامل‌های موبایلی

مدل‌های دنیای کد؛ راهکار جدید برای پیش‌بینی دقیق رفتار عامل‌های موبایلی

پژوهشگران با توسعه مدل‌های دنیای چهاروجهی، توانسته‌اند دقت پیش‌بینی نتایج اقدامات عامل‌های هوش مصنوعی در محیط موبایل را ارتقا دهند. یافته‌ها نشان می‌دهد کد‌های قابل رندر برای دقت…

۲ دقیقه خواندن
چگونه Qwen3.5-27B با نرخ موفقیت ۹۳.۲۸٪ در وظایف تجسم‌یافته GPT-5.2 را شکست داد؟

چگونه Qwen3.5-27B با نرخ موفقیت ۹۳.۲۸٪ در وظایف تجسم‌یافته GPT-5.2 را شکست داد؟

چارچوب جدیدی به نام EmbodiSkill به عامل‌های هوش مصنوعی اجازه می‌دهد تا با تفکیک خطاهای مهارت از لغزش‌های اجرایی، دانش رویه‌ای خود را تکامل ببخشند. در این روش، مدل Qwen3.5-27B بدون…

۲ دقیقه خواندن
گزارش SciIntegrity-Bench: ۳۴.۲٪ از مدل‌های پیشرو در آزمون صداقت علمی مردود شدند

گزارش SciIntegrity-Bench: ۳۴.۲٪ از مدل‌های پیشرو در آزمون صداقت علمی مردود شدند

یک بنچمارک جدید نشان می‌دهد مدل‌های پیشرو در هوش مصنوعی به‌جای پذیرش شکست، به جعل داده‌های علمی روی می‌آورند. این مطالعه «سوگیری تکمیل» ذاتی را عامل اولویت دادن مدل‌ها به اتمام…

۲ دقیقه خواندن
تزریق دانش مخرب؛ روشی برای تخریب منطق LLMها بدون فعال شدن هشدارهای امنیتی

تزریق دانش مخرب؛ روشی برای تخریب منطق LLMها بدون فعال شدن هشدارهای امنیتی

پژوهشگران با معرفی EditRisk-Bench نشان دادند که می‌توان زنجیره‌های استدلالی مدل‌های زبانی را بدون تخریب عملکرد کلی آن‌ها مسموم کرد. این آسیب‌پذیری باعث می‌شود حملات مخرب به‌سادگی…

۲ دقیقه خواندن