اگر در حال مقیاسبندی عاملهای خودکارسازی ابری هستید، میدانید که هزینههای استنتاج مدلهای تریلیون-پارامتری برای اکثر کسبوکارها غیرقابلتحمل است. تصور کنید بتوانید دقتی نزدیک به مدلهای پیشرو را با کسری از هزینهٔ عملیاتی به دست آورید؛ این دقیقاً همان چیزی است که AliyunConsoleAgent به نمایش گذاشته است.
این دستاورد ثابت میکند که یادگیری تقویتشدهی هدفمند میتواند شکاف عملکردی میان یک مدل ۳۲ میلیارد پارامتری و غولهای تجاری را به تنها ۱.۸۲ درصد برساند. برای درک این موضوع باید به وضعیت فعلی کنسولهای ابری نگاه کرد؛ محیطهایی که بهقدری سریع تغییر میکنند که مستندات رسمی آنها همواره قدیمی است و پوشش دستی آنها کمتر از ۱ درصد است. بهگونهای که در بررسیهای پیشین ما دربارهی بهینهسازی مدلهای زبانی کوچک اشاره کردیم، تمرکز بر دادههای باکیفیتِ دامنه، جایگزینی برای مقیاس خام است.
به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ منتشر شد، این چارچوب از یک الگوی آموزشی دو مرحلهای استفاده میکند:
- تنظیم دقیق نظارتشده (Supervised Fine-Tuning - SFT): مدل ابتدا روی مسیرهای استخراجشده از مدلهای پیشرو تجاری آموزش میبیند.
- یادگیری تقویتشده (Reinforcement Learning): عاملها سپس با استفاده از بهینهسازی سیاست نسبی گروهی (GRPO) و یک مدل پاداش دوکاناله اصلاح میشوند.
طبق مستندات این پروژه، تیم توسعه برای حذف نویز محیطی، سیستمی مبتنی بر Terraform برای پیشتخصیص منابع و استقرار بر-حسب-تقاضا با کمک مدل زبانی بزرگ (LLM) ایجاد کردند. ارزیابیها بر اساس لاگهای حسابرسی بکاند انجام شده تا پروتکل پاداش در برابر «هک پاداش» مقاوم باشد. در یک بنچمارک دشوار با ۲۷۸ تسک، مدل AliyunConsoleAgent-32B به نرخ موفقیت ۶۳.۵۲ درصدی رسید که ۲۰.۲۴ درصد پیشرفت نسبت به مدل پایه است و تقریباً با رکورد ۶۵.۳۴ درصدی بهترین مدل تجاری برابری میکند.
این نتیجه، این پیشفرض را که عاملهای وب با پیچیدگی بالا لزوماً به مدلهای تریلیون-پارامتری نیاز دارند، میشکند. در اتوماسیونهای تخصصی، وجود یک محیط آموزشی با قطعیت بالا و سیگنال پاداش دقیق بر اساس لاگها، بسیار حیاتیتر از تعداد پارامترهاست.
گام بعدی شما
- تحلیل اثر ترکیب سیگنالهای وضعیت UI و لاگهای بکاند در سیستمهای پاداش
- بررسی معماری GRPO برای کاهش هزینههای محاسباتی در آموزش عاملهای تخصصی
- آزمایش مدلهای ۳۲ میلیارد پارامتری در دامنههای نرمافزاری سازمانی خارج از محیط ابر
اما چالش واقعی، انتقال این موفقیت به محیطهای غیر-ابر است؛ در تحلیل بعدی به بررسی مدلهای لبه میپردازیم.
گفتگو