باید بپذیریم که تا امروز، اجرای عاملهای هوش مصنوعی با کارایی بالا روی دستگاههای لبه، رویایی دور از دسترس بود. تصور کنید عاملی که بتواند پیچیدهترین استدلالها را در لحظه و بدون نیاز به ابرسرویسها انجام دهد، اکنون با سرعتی بسیار بیشتر در دسترس است.
رایانش لبه (Edge Computing) همواره درگیر تضاد میان کیفیت و سرعت بوده است. توسعهدهندگان معمولاً مجبور بودند مدلهایی با ۸ میلیارد پارامتر یا کمتر را انتخاب کنند تا با محدودیتهای حافظه و توان سازگار شوند؛ انتخابی که یا تجربه کاربری را فدای قدرت استدلال میکرد یا برعکس. همانطور که در تحلیلهای پیشین ما دربارهی مدلهای زبانی کوچک (SLM) اشاره کردیم، بهینهسازی مدلها گام اول بود، اما گلوگاه اصلی در لایهی اجرا باقی مانده بود.
طبق گزارش منتشر شده در arxiv.org در ۱۲ مه ۲۰۲۶، چارچوب Agent-X با هدف حذف این تأخیرها طراحی شده است. این سیستم ثابت میکند که جهشهای چشمگیر در سرعت، لزوماً نیازمند سختافزار جدید یا قربانی کردن دقت مدل نیستند. بر اساس مستندات این پژوهش، Agent-X از دو سازوکار فنی کلیدی بهره میبرد:
- بازنویسی پرامپت (Prompt Rewriting): این سیستم پرامپتها را بهگونهای تغییر میدهد که از کاشینگ پیشوند (Prefix Caching) بهینهتر استفاده شود؛ تکنیکی که بهویژه برای الگوهای تکراری در توکنهای ورودیِ عاملهای هوشمند حیاتی است.
- رمزگشایی حدسی بدون LLM (LLM-free Speculative Decoding): این سازوکار امکان تولید سریع توکنها را با کمترین بار محاسباتی در مرحلهی استنتاج (Inference) فراهم میکند.
در آزمایشهای محیطی، این بهینهسازیها منجر به افزایش ۱.۶۱ برابری سرعت کل فرآیند (End-to-End) شد. نکتهی حیاتی این است که پژوهشگران هیچ کاهش دقتی را گزارش نکردهاند و این چارچوب را مکمل معماریهای فعلی عاملهای محلی میدانند.
این تحول، پیشفرضهای صنعت را تغییر میدهد؛ چراکه نشان میدهد «گلوگاه لبه» صرفاً یک محدودیت سختافزاری نیست، بلکه یک مسئلهی بهرهوری نرمافزاری است. با بهینهسازی خط لوله (Pipeline) به جای تمرکز صرف بر مدل، اکنون میتوان عاملهای توانمندتری را روی تراشههای فعلی موبایل و اینترنت اشیا (IoT) مستقر کرد.
گام بعدی شما
- بررسی احتمال ادغام تکنیکهای کاشینگ پیشوند در هستهی سیستمعاملهای موبایل.
- دنبال کردن پیادهسازیهای متنباز این چارچوب برای کلاس مدلهای ۸ میلیارد پارامتری.
- ارزیابی تأثیر این سرعت بر کاهش تأخیر در کاربردهای بلادرنگ (Real-time).
اما تأثیر این بهینهسازیها بر مصرف انرژی در تراشههای نسل جدید، ابعادی پیچیدهتر دارد — به بررسی معماریهای جدید NPU در گزارشهای ما مراجعه کنید.
گفتگو