AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

اگر در حال مقیاس‌بندی عامل‌های خودکارسازی ابری هستید، می‌دانید که هزینه‌های استنتاج مدل‌های تریلیون-پارامتری برای اکثر کسب‌وکارها غیرقابل‌تحمل است. تصور کنید بتوانید دقتی نزدیک به مدل‌های پیشرو را با کسری از هزینهٔ عملیاتی به دست آورید؛ این دقیقاً همان چیزی است که AliyunConsoleAgent به نمایش گذاشته است.

این دستاورد ثابت می‌کند که یادگیری تقویت‌شده‌ی هدفمند می‌تواند شکاف عملکردی میان یک مدل ۳۲ میلیارد پارامتری و غول‌های تجاری را به تنها ۱.۸۲ درصد برساند. برای درک این موضوع باید به وضعیت فعلی کنسول‌های ابری نگاه کرد؛ محیط‌هایی که به‌قدری سریع تغییر می‌کنند که مستندات رسمی آن‌ها همواره قدیمی است و پوشش دستی آن‌ها کمتر از ۱ درصد است. به‌گونه‌ای که در بررسی‌های پیشین ما درباره‌ی بهینه‌سازی مدل‌های زبانی کوچک اشاره کردیم، تمرکز بر داده‌های باکیفیتِ دامنه، جایگزینی برای مقیاس خام است.

به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ منتشر شد، این چارچوب از یک الگوی آموزشی دو مرحله‌ای استفاده می‌کند:

تنظیم دقیق نظارت‌شده (Supervised Fine-Tuning - SFT): مدل ابتدا روی مسیرهای استخراج‌شده از مدل‌های پیشرو تجاری آموزش می‌بیند.
یادگیری تقویت‌شده (Reinforcement Learning): عامل‌ها سپس با استفاده از بهینه‌سازی سیاست نسبی گروهی (GRPO) و یک مدل پاداش دوکاناله اصلاح می‌شوند.

طبق مستندات این پروژه، تیم توسعه برای حذف نویز محیطی، سیستمی مبتنی بر Terraform برای پیش‌تخصیص منابع و استقرار بر-حسب-تقاضا با کمک مدل زبانی بزرگ (LLM) ایجاد کردند. ارزیابی‌ها بر اساس لاگ‌های حسابرسی بک‌اند انجام شده تا پروتکل پاداش در برابر «هک پاداش» مقاوم باشد. در یک بنچمارک دشوار با ۲۷۸ تسک، مدل AliyunConsoleAgent-32B به نرخ موفقیت ۶۳.۵۲ درصدی رسید که ۲۰.۲۴ درصد پیشرفت نسبت به مدل پایه است و تقریباً با رکورد ۶۵.۳۴ درصدی بهترین مدل تجاری برابری می‌کند.

این نتیجه، این پیش‌فرض را که عامل‌های وب با پیچیدگی بالا لزوماً به مدل‌های تریلیون-پارامتری نیاز دارند، می‌شکند. در اتوماسیون‌های تخصصی، وجود یک محیط آموزشی با قطعیت بالا و سیگنال پاداش دقیق بر اساس لاگ‌ها، بسیار حیاتی‌تر از تعداد پارامترهاست.

گام بعدی شما

تحلیل اثر ترکیب سیگنال‌های وضعیت UI و لاگ‌های بک‌اند در سیستم‌های پاداش
بررسی معماری GRPO برای کاهش هزینه‌های محاسباتی در آموزش عامل‌های تخصصی
آزمایش مدل‌های ۳۲ میلیارد پارامتری در دامنه‌های نرم‌افزاری سازمانی خارج از محیط ابر

اما چالش واقعی، انتقال این موفقیت به محیط‌های غیر-ابر است؛ در تحلیل بعدی به بررسی مدل‌های لبه می‌پردازیم.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ منتشر شد، این چارچوب از یک الگوی آموزشی دو مرحله‌ای استفاده می‌کند:

تنظیم دقیق نظارت‌شده (Supervised Fine-Tuning - SFT): مدل ابتدا روی مسیرهای استخراج‌شده از مدل‌های پیشرو تجاری آموزش می‌بیند.
یادگیری تقویت‌شده (Reinforcement Learning): عامل‌ها سپس با استفاده از بهینه‌سازی سیاست نسبی گروهی (GRPO) و یک مدل پاداش دوکاناله اصلاح می‌شوند.

گام بعدی شما

تحلیل اثر ترکیب سیگنال‌های وضعیت UI و لاگ‌های بک‌اند در سیستم‌های پاداش
بررسی معماری GRPO برای کاهش هزینه‌های محاسباتی در آموزش عامل‌های تخصصی
آزمایش مدل‌های ۳۲ میلیارد پارامتری در دامنه‌های نرم‌افزاری سازمانی خارج از محیط ابر

اما چالش واقعی، انتقال این موفقیت به محیط‌های غیر-ابر است؛ در تحلیل بعدی به بررسی مدل‌های لبه می‌پردازیم.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران