تحلیل و بررسی تخصصی

TimeVista: جایگزین کردن معیارهای عددی با مدل‌های بینایی-زبانی در ارزیابی

پژوهشگران چارچوب TimeVista را معرفی کرده‌اند که با بهره‌گیری از مدل‌های بینایی-زبانی (VLMs)، پیش‌بینی‌های سری‌های زمانی را از طریق تحلیل نمودارها ارزیابی می‌کند. این رویکرد در…

تحلیل و بررسی تخصصی۲ هفته پیش

تسطیح وجودشناسانه: چرا مدل‌های کثرت‌گرا در بازنمایی معانی شکست می‌خورند؟

تلاش‌های فعلی برای ایجاد هوش مصنوعی کثرت‌گرا اغلب تنوع را به جایگزین‌های آماری تقلیل می‌دهند و ساختارهای معنایی بنیادین را نادیده می‌گیرند. چهارچوب جدید PLG تلاش می‌کند با حسابرسی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

گزارش arXiv: بازدهی ۵۹.۳ درصدی LiteOdyssey در تشخیص بیماری‌های فوق‌کمیاب

چارچوب استدلالی سبک‌وزن LiteOdyssey با تکیه بر سیاست‌های همکاری انسان-ماشین، در تشخیص بیماری‌های بسیار نادر از GPT-5.4 پیشی گرفت. این دستاورد نشان می‌دهد که ساختار استدلالی دقیق…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

VibeThinker-3B: رقابت با Gemini 3 Pro در استدلال با ۳ میلیارد پارامتر

VibeThinker-3B مدلی با ۳ میلیارد پارامتر است که در تسک‌های استدلالی قابل‌راستی‌آزمایی، عملکردی برابر با مدل‌های بسیار بزرگ‌تر مانند Gemini 3 Pro دارد. این مدل از یک خط لوله…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چگونه تفکر مبنی‌ساز، توانایی استدلالی Gemma3-4B را به سطح مدل ۲۷ میلیارد

محققان با معرفی روش «تفکر مبنی‌ساز»، مدل‌های کوچک را قادر ساختند تا گام‌های استدلالی خود را به نقاط دقیق تصویر متصل کنند. این رویکرد باعث شد مدل Gemma3-4B-IT در استدلال‌های مکانی،…

۲ دقیقه خواندن۱

داستان‌ها و مصاحبه‌ها۲ هفته پیش

چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

پروژه llcore نشان می‌دهد تکیه بر مشاهده رفتار مدل برای تضمین پایداری، یک توهم است و ۸۴ درصد شکست‌های خطرناک را نادیده می‌گیرد. تنها گواهینامه‌های ریاضی می‌توانند پایداری را تضمین…

۴ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

پولشویی دامنه: سازوکار فریب بنچمارک‌های استدلال حقوقی در مدل‌های زبانی

مدل‌های زبانی بزرگ در بنچمارک‌های حقوقی نمرات بالایی کسب می‌کنند، اما در واقعیت منطق را اجرا نمی‌کنند. پژوهشی جدید نشان می‌دهد این مدل‌ها با تقلید از نتایج حل‌کننده‌های رسمی،…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

استانداردسازی تکرارپذیری در ۲۸ روش بازگشت الگوریتمی با RecourseBench

چارچوب RecourseBench با معرفی یک خط لوله‌ی پنج‌لایه، امکان ارزیابی سیستماتیک و تکرارپذیر روش‌های بازگشت الگوریتمی را فراهم کرده است. این ابزار با اعتبارسنجی ۲۸ متد پیشرو، شکاف…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

نقص «نایب سرگردان»: چگونه عامل‌های متا ۲۰ هزار حساب اینستاگرام را لو دادند؟

مهاجمان با بهره‌برداری از آسیب‌پذیری «نایب سرگردان» در ربات پشتیبانی متا، ۲۰ هزار حساب اینستاگرام را بدون نیاز به رمز عبور تصاحب کردند. این اتفاق شکاف امنیتی بحرانی در عامل‌های…

۶ دقیقه خواندن

معرفی فرمت دانش باز گوگل: استاندارد Markdown بی‌طرف برای زمینه‌دهی به عامل‌های هوش مصنوعی

تحلیل و بررسی تخصصی۲ هفته پیش

چگونه استاندارد OKF گوگل، مدیریت متنی عامل‌های هوش مصنوعی را یکسان می‌کند؟

گوگل کلاد استاندارد Open Knowledge Format (OKF) v0.1 را برای تبدیل دانش پراکنده سازمانی به یک گراف متنی قابل انتقال معرفی کرد. این فرمت با تکیه بر Markdown و YAML، امکان مدیریت…

۶ دقیقه خواندن

Z.ai مدل GLM-5.2 را با کانتکست یک میلیون توکن کاربردی، دو سطح تلاش فکری و بدون بنچمارک عرضه کرد

آموزش کاربردی۲ هفته پیش

از ویرایش تکه‌ای به مدیریت کل پروژه؛ سازوکار یک میلیون توکنی GLM-5.2

شرکت Z.ai مدل GLM-5.2 را با پنجره متنی یک میلیون توکنی معرفی کرد تا امکان بارگذاری کامل مخازن کد در حافظه فعال فراهم شود. این مدل با ابزارهایی مثل Claude Code سازگار است و دایره‌ی…

۴ دقیقه خواندن

فریب مدل‌های هوش مصنوعی توسط تبلیغات روسی؛ نتایج یک معیار سنجش جدید

اخبار کوتاه روزانه۲ هفته پیش

مطالعه استونی: دقت ۹۵.۲ درصدی Claude Fable 5 در شناسایی پروپاگاندای روسیه

یک بنچمارک جدید از ۶۰ مدل نشان می‌دهد که سری Claude در رد پروپاگاندای روسیه پیشتاز است. در مقابل، عملکرد ضعیف Mistral ادعای این شرکت فرانسوی به‌عنوان جایگزین اروپایی و قابل‌اعتماد…

۲ دقیقه خواندن