
PhysTool-Bench: شکست ۷۹ درصدی Gemini-3.1-Pro در استفاده از ابزارهای فیزیکی
بنچمارک جدید PhysTool-Bench نشان میدهد پیشرفتهترین مدلهای چندوجهی در عبور از فراخوانی APIهای دیجیتال به مدیریت ابزارهای فیزیکی شکست میخورند. حتی مدل Gemini-3.1-Pro به دلیل…









