پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

گزارش arXiv: کاهش ۳۶ درصدی موفقیت جیل‌بریک در مدل‌های استدلالی با متد Safe

گزارش arXiv: کاهش ۳۶ درصدی موفقیت جیل‌بریک در مدل‌های استدلالی با متد Safe

پژوهشگران روشی به نام Safe Trigger ابداع کرده‌اند که به مدل‌های استدلالی اجازه می‌دهد با تحلیل مسیر تفکر خود، درخواست‌های مضر را شناسایی و مسدود کنند. این رویکرد نیاز به داده‌های…

۱ دقیقه خواندن
OpenClaw-Skill: حل چالش برنامه‌ریزی بلندمدت عامل‌ها با جست‌وجوی جمعی در درخت

OpenClaw-Skill: حل چالش برنامه‌ریزی بلندمدت عامل‌ها با جست‌وجوی جمعی در درخت

پژوهشگران چارچوب OpenClaw-Skill را معرفی کردند که با استفاده از جست‌وجوی جمعی در درخت مهارت‌ها (CSTS)، کتابخانه‌ای از مهارت‌های بازیافت‌پذیر برای عامل‌های هوش مصنوعی می‌سازد. این…

۲ دقیقه خواندن
چگونه تبدیل دستورالعمل‌های متنی به وزن‌های رفتاری، هزینه‌ی استنتاج را می‌کاهد؟

چگونه تبدیل دستورالعمل‌های متنی به وزن‌های رفتاری، هزینه‌ی استنتاج را می‌کاهد؟

پژوهشگران چارچوب **Skill-to-LoRA** (S2L) را معرفی کرده‌اند که دستورالعمل‌های متنی حجیم در پرامپت‌ها را با آداپتورهای سبک **LoRA** جایگزین می‌کند. این رویکرد باعث کاهش ۶.۶ درصدی…

۲ دقیقه خواندن
چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

پژوهشی جدید با معرفی یک سیستم مختصاتی ریاضی، بهینه‌سازی سیاست‌های مدل‌های زبانی را به جای ترفندهای تجربی به یک علم تشخیصی تبدیل کرده است. این چارچوب نشان می‌دهد که بسیاری از…

۲ دقیقه خواندن
چرا دقت AUROC دیگر معیار موفقیت در هوش مصنوعی پزشکی نیست؟

چرا دقت AUROC دیگر معیار موفقیت در هوش مصنوعی پزشکی نیست؟

پژوهشگران پیشنهاد کرده‌اند که هوش مصنوعی پزشکی از مدل‌های تشخیص ایستا به «مدل‌های جهانی» تغییر مسیر دهد. هدف این رویکرد، تبدیل سیستم‌ها از امتیازدهی ریسک به شبیه‌سازی پویا از مسیر…

۱ دقیقه خواندن
جایگزینی حافظه متنی با کد پایتون؛ رسیدن به دقت ۹۹ درصدی در حافظه عامل‌های AI

جایگزینی حافظه متنی با کد پایتون؛ رسیدن به دقت ۹۹ درصدی در حافظه عامل‌های AI

پژوهشگران چارچوب User as Code (UaC) را معرفی کردند که حافظه متنی هوش مصنوعی را با اشیاء و توابع قابل‌اجرای پایتون جایگزین می‌کند. این تغییر پارادایم، دقت پاسخ‌دهی عامل‌ها به…

۲ دقیقه خواندن
چرا تحلیل معنایی متن در پیش‌بینی تغییرات خلقی آینده شکست می‌خورد؟

چرا تحلیل معنایی متن در پیش‌بینی تغییرات خلقی آینده شکست می‌خورد؟

پژوهش‌های جدید نشان می‌دهد که در حالی که تحلیل متن برای تشخیص وضعیت عاطفی فعلی کاربر دقیق است، اما در پیش‌بینی تغییرات آتی ناکارآمد است. در مقابل، تحلیل دینامیک‌های عددیِ…

۱ دقیقه خواندن
پدیده Idle-drift در Claude Haiku 4.5؛ وقتی برنامه‌ریزی دقیق به بی‌عملی منجر

پدیده Idle-drift در Claude Haiku 4.5؛ وقتی برنامه‌ریزی دقیق به بی‌عملی منجر

بنچمارک جدید CoffeeBench نشان می‌دهد که برخی مدل‌های زبانی با وجود توانایی برنامه‌ریزی دقیق، در محیط‌های اقتصادی بلندمدت دچار «بی‌عملی» می‌شوند. Claude Haiku 4.5 در این آزمون…

۱ دقیقه خواندن
گذار از احتمالات به قطعیت: روش جدید برای جلوگیری از تداخل عامل‌های AI

گذار از احتمالات به قطعیت: روش جدید برای جلوگیری از تداخل عامل‌های AI

پژوهشگران با معرفی چارچوب Tensor-Coord، برنامه‌ریزی در سیستم‌های چندعاملی را از مذاکرات شکننده بر پایه پرامپت به همراستاسازی ریاضی منتقل کردند. این روش با استفاده از تجزیه جبری…

۱ دقیقه خواندن
MGIL: جایگزینی الگوهای سراسری با همسایگی‌های محلی در تکمیل گراف‌های دانش

MGIL: جایگزینی الگوهای سراسری با همسایگی‌های محلی در تکمیل گراف‌های دانش

چارچوب MGIL با استفاده از خوشه‌بندی موجودیت‌ها، یک «گراف مدل» ایجاد می‌کند تا الگوهای ساختاری سراسری را شناسایی کند. این رویکرد در پیش‌بینی استقرایی پیوندها (Inductive Link…

۱ دقیقه خواندن
چگونه EC-Script با عامل‌های سلسله‌مراتبی، مسیر احساسی روایت‌های AI را کنترل

چگونه EC-Script با عامل‌های سلسله‌مراتبی، مسیر احساسی روایت‌های AI را کنترل

پژوهشگران چارچوبی به نام EC-Script توسعه داده‌اند که به مدل‌های زبانی اجازه می‌دهد روایت‌های داستانی را با مسیرهای احساسی دقیق، مخصوص هنردرمانی، تولید کنند. این سیستم از یک ساختار…

۱ دقیقه خواندن
چرا شکست عامل‌های هوش مصنوعی ناشی از «گم‌شدن در متن» نیست؟

چرا شکست عامل‌های هوش مصنوعی ناشی از «گم‌شدن در متن» نیست؟

تحقیقات جدید نشان می‌دهد عامل‌های هوش مصنوعی اغلب ابزار درست را شناسایی می‌کنند اما در مرحله نهایی تصمیم‌گیری دچار خطا می‌شوند. این یافته، اثربخشی روش‌های رایج مهندسی پرامپت برای…

۲ دقیقه خواندن