تصور کنید بتوانید قدرت یک مدل غولپیکر را در ابعادی بسیار کوچکتر جای دهید، بدون اینکه دقت پاسخها را فدا کنید. این دیگر یک رویای مهندسی نیست، بلکه دستاورد جدیدی است که مرز بین «پرامپتنویسی» و «وزنهای مدل» را از بین میبرد.
بر اساس مستندات منتشر شده در ۳ جولای ۲۰۲۶، رویکرد Program-as-Weights (PAW) به جای تکیه بر پرامپتهای طولانی، توصیفات زبان طبیعی را به یک آرتیفکت عصبی (Neural Artifact) تبدیل میکند که بهصورت محلی قابل اجراست. این یعنی مدل دیگر هر بار نباید کل مسئله را از طریق متن بفهمد، بلکه سازوکار حل مسئله در وزنهای مدل حک شده است.
بسیاری از کارهای برنامهنویسی، مثل اصلاح JSONهای ناقص یا رتبهبندی نتایج جستوجو، برای کدنویسی سختگیرانه (Rule-based) بیش از حد «مبهم» هستند. هماکنون توسعهدهندگان این وظایف را به APIهای عظیم مدلهای زبانی بزرگ میسپارند و هزینه سنگینی میپردازند. همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی مدلهای لبه (Edge AI) اشاره کردیم، انتقال محاسبات از مرحله اجرا به مرحله کامپایل، کلید دستیابی به سرعتهای بالاتر است. این رویکرد بهینهسازی ساختاری، یادآور تلاشهای اخیر برای عبور از گلوگاههای غیردیفرانسیل در معماریهای عصبی است که هدف آن افزایش کارایی در لایههای عملیاتی مدلها بود.
به نقل از تحلیل فنی سایت arxiv.org، این سامانه از یک کامپایلر ۴ میلیارد پارامتری استفاده میکند که روی مجموعه داده FuzzyBench (شامل ۱۰ میلیون نمونه) آموزش دیده است. این کامپایلر آداپتورهای (Adapters) بهینهای تولید میکند که به یک مفسر سبک و منجمد متصل میشوند.
جزئیات فنی این معماری عبارتند از:
- اندازه مفسر: مدل Qwen3 با ۰.۶ میلیارد پارامتر
- بهرهوری: مصرف حافظه استنتاج تقریباً ۱/۵۰ هشتم مقدار مورد نیاز در پرامپتنویسی مستقیم Qwen3-32B
- سرعت: دستیابی به سرعت ۳۰ توکن در ثانیه بر روی MacBook M3
- مجموعه داده: بهرهگیری از ۱۰ میلیون مثال FuzzyBench برای آموزش کامپایلر
این تحول، نقش مدل بنیادی را از یک «حلکننده مسئله برای هر ورودی» به یک «ابزارساز» تغییر میدهد. به جای اینکه برای هر خط لگ یا اصلاح JSON به یک مدل ۳۲ میلیارد پارامتری رجوع کنید، کامپایلر یک بار اجرا شده و یک ابزار آفلاین و قابل استفاده مجدد میسازد. برای متخصصان فنی، این موضوع مهر تأییدی بر حرکت به سمت آداپتورهای تخصصی و کوچک در مقابل پرامپتهای حجیم و تکسنگی (Monolithic) است.
گام بعدی شما
- بررسی مجموعه داده FuzzyBench برای شناسایی کارهای «مبهم» که بیشترین پتانسیل را برای تبدیل به آداپتور دارند.
- تحلیل موازنهی زمان کامپایل (Compilation Time) در برابر تأخیر استنتاج (Inference Latency) در محیطهای محلی.
- آزمایش جایگزینی فراخوانیهای API گرانقیمت با مدلهای ۰.۶ میلیارد پارامتری در گردشهای کاری تکراری.
اما چالش اصلی اکنون این است که آیا این فشردهسازی روی کارهای استدلالی پیچیده نیز اثر میگذارد یا خیر؛ ما در گزارش بعدی اثر این رویکرد بر مدلهای استدلالی را بررسی خواهیم کرد.




گفتگو