GPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXINGGPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXING
پرش به محتوای مقاله

شرکت H: مدل Holo3.1 زمان اجرای گام‌های عامل‌های محلی را ۵۰٪ کاهش داد

·۱۳ خرداد ۱۴۰۵۴ دقیقه مطالعه
معماری عامل Holo3.1 برای کار سریع و محلی با رایانه
معماری عامل Holo3.1 برای کار سریع و محلی با رایانه
اشتراک‌گذاری
واقعاً چه چیز جدید است؟

معرفی کوانتایزیشن NVFP4 برای مدل‌های استفاده از کامپیوتر (Computer-use) که برای نخستین بار تأخیر گام‌های اجرایی را در مقیاس محلی به نصف رسانده و شکاف عملکردی بین ابر و لبه را پر کرده است.

تصور کنید عامل هوش مصنوعی سیستم‌عامل شما به‌جای وقفهٔ ۷ ثانیه‌ای، در لحظه و با دقت بالا پاسخ دهد. این دیگر یک چشم‌انداز دور نیست؛ زیرا طبق اعلام شرکت H در ۲ ژوئن ۲۰۲۶، اکنون می‌توان زمان پاسخگویی پایان‌به-پایان (End-to-End) عامل‌های محلی را تا ۵۰٪ کاهش داد.

این تغییر مسیر، کنترل عامل‌محور (Agentic) را از ابر به لبه منتقل می‌کند و پروفایل حریم خصوصی و هزینهٔ اتوماسیون دسکتاپ را به‌طور بنیادین تغییر می‌دهد. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی رایانش لبه (Edge Computing) اشاره کردیم، حذف وابستگی به سرورهای مرکزی، کلید دستیابی به امنیت داده در محیط‌های سازمانی است.

خانواده Holo3.1 که بر پایه معماری Qwen توسعه یافته، در چهار اندازه برای ایجاد تعادل بین هزینه و عملکرد عرضه شده است: ۰.۸ میلیارد، ۴ میلیارد، ۹ میلیارد و ۳۵ میلیارد (A3B) پارامتر. برای ممکن ساختن اجرا بر روی سخت‌افزارهای مصرف‌کننده، این تیم نسخه‌های کوانتایزیشن (Quantization) شده در قالب‌های FP8، Q4 GGUF و NVFP4 را منتشر کرده است.

overall_pareto_light_notitle

به گزارش شرکت H، بیشترین بهبود در اتوماسیون موبایل دیده می‌شود. در بنچمارک AndroidWorld، مدل ۳۵ میلیارد پارامتری از نرخ موفقیت ۶۷٪ به ۷۹.۳٪ رسید. همچنین نسخه‌های کوچک‌تر ۴ و ۹ میلیاردی، بهبود چشم‌گیری از ۵۸٪ به ۷۲٪ داشتند.

Capture d’écran 2026-06-01 à 16.21.18

در زمینه سرعت استنتاج (Inference)، بر اساس مستندات فنی، استفاده از NVFP4 (در پیکربندی W4A16 با بهینه‌ساز مدل انویدیا) روی سخت‌افزار DGX Spark، توان پردازشی توکن‌ها را ۱.۷۴ برابر BF16 افزایش می‌دهد.

quality_throughput_pareto_light (1)

agent_request_rate_light

با انتشار وزن‌های GGUF و NVFP4، شرکت H روی این فرضیه شرط‌بندی کرده است که مرز بعدی عامل‌های هوش مصنوعی، نه فقط استدلال بهتر، بلکه «پایداری استقرار» (Deployment Robustness) است. انتقال مدل به شبکه کاربر، «مالیات ابری» را حذف کرده و امکان فراخوانی توابع بومی را با عملکردی نزدیک به JSON ساختاریافته فراهم می‌کند.

Capture d’écran 2026-06-01 à 16.30.52

گام بعدی شما

  • توسعه‌دهندگان باید منتظر انتشار رسمی Harness عامل دسکتاپ باشند که ادغام وزن‌های محلی با سیستم‌عامل را بهینه می‌کند.
  • برای کاهش هزینه‌ها، مدل‌های ۴ میلیاردی را در محیط‌های محدود به جای مدل‌های حجیم تست کنید.
  • بررسی سازگاری سخت‌افزار خود با فرمت NVFP4 برای دستیابی به حداکثر سرعت استنتاج.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell و تاثیر آن بر مدل‌های محلی مراجعه کنید.

چرا این موضوع مهم است؟

این پیشرفت با انتقال پردازش از ابر به لبه، ریسک امنیتی ارسال داده‌های حساس رابط کاربری (GUI) به سرورها را حذف می‌کند. این موضوع به دلیل کاهش هزینه‌های عملیاتی و افزایش حریم خصوصی، پذیرش عامل‌های هوش مصنوعی را در سازمان‌های حساس تسریع خواهد کرد.

تأثیر برای ایران

از آنجا که این مدل‌ها دارای وزن‌های باز (Open Weights) هستند، توسعه‌دهندگان ایرانی می‌توانند بدون نیاز به API Key و در محیط‌های آفلاین، عامل‌های اتوماسیون دسکتاپ بسازند و محدودیت‌های تحریمی سرویس‌های ابری را دور بزنند.

·نگاه ما
تحریریه دات‌هوش

تحلیل ما نشان می‌دهد که صنعت از دوران «مدل‌های بزرگتر، بهتر» عبور کرده و وارد عصر «بهینه‌سازی برای استقرار» شده است. تمرکز شرکت H بر کاهش تأخیر (Latency) به‌جای افزایش صرفِ پارامترها، ثابت می‌کند که برای پذیرش گسترده عامل‌های AI در دسکتاپ، سرعت پاسخگویی در لحظه، اهمیت بیشتری نسبت به دقت‌های حاشیه‌ای در بنچمارک‌های ابری دارد.

منابع

گفتگو

شماره ۰۵۳پنج‌شنبه‌های هوش‌محور

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت — به‌علاوه ۳ بخش جدید. بدون هیاهو، هر پنج‌شنبه صبح.

خبر کلیدی
ابزار کاربردی
پرامپت حرفه‌ای
تحلیل پژوهش
به‌زودی
زاویه‌ی ایرانی
به‌زودی
تمرین این هفته
به‌زودی
۰۰:۰۰تا شماره بعدیهفته‌ی ۵۳ بدون وقفه