چگونه Qwen3.5-27B با نرخ موفقیت ۹۳.۲۸٪ در وظایف تجسم‌یافته GPT-5.2 را شکست داد؟

باید بدانید که مقیاس مدل دیگر تنها معیار موفقیت در محیط‌های فیزیکی نیست؛ گاهی یک مدل کوچک‌تر با مکانیزم بازتاب درست، غول‌های هوش مصنوعی را شکست می‌دهد.

به نقل از مقاله‌ای که در ۱۲ می ۲۰۲۶ منتشر شد، یک مدل منجمد (Frozen) از سری Qwen3.5-27B توانست در اجرای وظایف تجسم‌یافته، ۳۱.۵۸٪ بهتر از GPT-5.2 عمل کند. این نتیجه ثابت می‌کند که انباشت دانش رویه‌ای (Procedural Knowledge) برای تعامل با دنیای واقعی، بسیار حیاتی‌تر از اندازه خام مدل است.

عامل‌های هوش مصنوعی تجسم‌یافته (Embodied AI) — سیستم‌هایی که برای تعامل با محیط طراحی شده‌اند — معمولاً با یک مشکل بنیادین دست‌وپنجه نرم می‌کنند: هر شکست در انجام یک وظیفه، لزوماً به معنای اشتباه بودن «مهارت» نیست؛ گاهی مدل دستور درست را می‌دهد اما در اجرا لغزش می‌کند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی عامل‌های هوش مصنوعی (AI Agents) اشاره کردیم، روش‌های فعلی تکامل خودکار، تمام شکست‌ها را به عنوان خطای مهارت تلقی می‌کنند و همین باعث می‌شود دستورات درست به اشتباه حذف شوند.

طبق مستندات چارچوب EmbodiSkill، این سیستم با پیاده‌سازی «بازتاب آگاه از مهارت»، شکست‌ها را به دو دسته تقسیم می‌کند:

شواهد تغییر مهارت: زمانی استفاده می‌شود که خودِ راهنما یا دستورالعمل ناقص باشد و نیاز به به‌روزرسانی داشته باشد.
شواهد لغزش اجرایی: زمانی به کار می‌رود که دستور درست است اما عامل در اجرای آن شکست خورده؛ در اینجا سیستم به جای تغییر دستور، بر تأکید بر همان راهنمای معتبر پافشاری می‌کند.

در بنچمارک‌های ALFWorld و EmbodiedBench، مدل Qwen3.5-27B با این رویکرد به نرخ موفقیت ۹۳.۲۸٪ رسید. این یعنی مدل‌های کوچک‌تر می‌توانند بدون نیاز به بازآموزی‌های گران‌قیمت، دانش کاربردی را از مسیرهای طی‌شده‌ی خود استخراج کنند.

این دستاورد، معیار سنجش در هوش مصنوعی تجسم‌یافته را از «اندازه مدل» به «کیفیت بازتاب» تغییر می‌دهد. با جداسازی اجرا از دانش، EmbodiSkill ثابت کرد که «یادگیریِ نحوه‌ی یادگیری» از تجربیات، مسیری عملی برای پیشی گرفتن از مدل‌های پیشرو در دامنه‌های تخصصی است.

گام بعدی شما

بررسی اثر تفکیک «لغزش اجرایی» در سخت‌افزارهای رباتیک واقعی، جایی که نویز فیزیکی بسیار بیشتر از شبیه‌سازهاست.
آزمایش مدل‌های منجمد با حلقه‌های بازتاب (Reflection Loops) برای کاهش هزینه‌های استنتاج.
مطالعه‌ی متدهای انباشت دانش رویه‌ای برای کاهش وابستگی به مدل‌های پارامتریک عظیم.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

شواهد تغییر مهارت: زمانی استفاده می‌شود که خودِ راهنما یا دستورالعمل ناقص باشد و نیاز به به‌روزرسانی داشته باشد.
شواهد لغزش اجرایی: زمانی به کار می‌رود که دستور درست است اما عامل در اجرای آن شکست خورده؛ در اینجا سیستم به جای تغییر دستور، بر تأکید بر همان راهنمای معتبر پافشاری می‌کند.

گام بعدی شما

بررسی اثر تفکیک «لغزش اجرایی» در سخت‌افزارهای رباتیک واقعی، جایی که نویز فیزیکی بسیار بیشتر از شبیه‌سازهاست.
آزمایش مدل‌های منجمد با حلقه‌های بازتاب (Reflection Loops) برای کاهش هزینه‌های استنتاج.
مطالعه‌ی متدهای انباشت دانش رویه‌ای برای کاهش وابستگی به مدل‌های پارامتریک عظیم.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه Qwen3.5-27B با نرخ موفقیت ۹۳.۲۸٪ در وظایف تجسم‌یافته GPT-5.2 را شکست داد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه Qwen3.5-27B با نرخ موفقیت ۹۳.۲۸٪ در وظایف تجسم‌یافته GPT-5.2 را شکست داد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه Qwen3.5-27B با نرخ موفقیت ۹۳.۲۸٪ در وظایف تجسم‌یافته GPT-5.2 را شکست داد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه Qwen3.5-27B با نرخ موفقیت ۹۳.۲۸٪ در وظایف تجسم‌یافته GPT-5.2 را شکست داد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران