
TimeVista: جایگزین کردن معیارهای عددی با مدلهای بینایی-زبانی در ارزیابی
پژوهشگران چارچوب TimeVista را معرفی کردهاند که با بهرهگیری از مدلهای بینایی-زبانی (VLMs)، پیشبینیهای سریهای زمانی را از طریق تحلیل نمودارها ارزیابی میکند. این رویکرد در…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۵۳ مقاله منتشر شده

پژوهشگران چارچوب TimeVista را معرفی کردهاند که با بهرهگیری از مدلهای بینایی-زبانی (VLMs)، پیشبینیهای سریهای زمانی را از طریق تحلیل نمودارها ارزیابی میکند. این رویکرد در…

تلاشهای فعلی برای ایجاد هوش مصنوعی کثرتگرا اغلب تنوع را به جایگزینهای آماری تقلیل میدهند و ساختارهای معنایی بنیادین را نادیده میگیرند. چهارچوب جدید PLG تلاش میکند با حسابرسی…

چارچوب استدلالی سبکوزن LiteOdyssey با تکیه بر سیاستهای همکاری انسان-ماشین، در تشخیص بیماریهای بسیار نادر از GPT-5.4 پیشی گرفت. این دستاورد نشان میدهد که ساختار استدلالی دقیق…

VibeThinker-3B مدلی با ۳ میلیارد پارامتر است که در تسکهای استدلالی قابلراستیآزمایی، عملکردی برابر با مدلهای بسیار بزرگتر مانند Gemini 3 Pro دارد. این مدل از یک خط لوله…

محققان با معرفی روش «تفکر مبنیساز»، مدلهای کوچک را قادر ساختند تا گامهای استدلالی خود را به نقاط دقیق تصویر متصل کنند. این رویکرد باعث شد مدل Gemma3-4B-IT در استدلالهای مکانی،…

پروژه llcore نشان میدهد تکیه بر مشاهده رفتار مدل برای تضمین پایداری، یک توهم است و ۸۴ درصد شکستهای خطرناک را نادیده میگیرد. تنها گواهینامههای ریاضی میتوانند پایداری را تضمین…

مدلهای زبانی بزرگ در بنچمارکهای حقوقی نمرات بالایی کسب میکنند، اما در واقعیت منطق را اجرا نمیکنند. پژوهشی جدید نشان میدهد این مدلها با تقلید از نتایج حلکنندههای رسمی،…

چارچوب RecourseBench با معرفی یک خط لولهی پنجلایه، امکان ارزیابی سیستماتیک و تکرارپذیر روشهای بازگشت الگوریتمی را فراهم کرده است. این ابزار با اعتبارسنجی ۲۸ متد پیشرو، شکاف…

مهاجمان با بهرهبرداری از آسیبپذیری «نایب سرگردان» در ربات پشتیبانی متا، ۲۰ هزار حساب اینستاگرام را بدون نیاز به رمز عبور تصاحب کردند. این اتفاق شکاف امنیتی بحرانی در عاملهای…

گوگل کلاد استاندارد Open Knowledge Format (OKF) v0.1 را برای تبدیل دانش پراکنده سازمانی به یک گراف متنی قابل انتقال معرفی کرد. این فرمت با تکیه بر Markdown و YAML، امکان مدیریت…

شرکت Z.ai مدل GLM-5.2 را با پنجره متنی یک میلیون توکنی معرفی کرد تا امکان بارگذاری کامل مخازن کد در حافظه فعال فراهم شود. این مدل با ابزارهایی مثل Claude Code سازگار است و دایرهی…

یک بنچمارک جدید از ۶۰ مدل نشان میدهد که سری Claude در رد پروپاگاندای روسیه پیشتاز است. در مقابل، عملکرد ضعیف Mistral ادعای این شرکت فرانسوی بهعنوان جایگزین اروپایی و قابلاعتماد…