روش PAW حافظهٔ استنتاج را ۵۰ برابر کاهش داد

تصور کنید بتوانید قدرت یک مدل غول‌پیکر را در ابعادی بسیار کوچک‌تر جای دهید، بدون اینکه دقت پاسخ‌ها را فدا کنید. این دیگر یک رویای مهندسی نیست، بلکه دستاورد جدیدی است که مرز بین «پرامپت‌نویسی» و «وزن‌های مدل» را از بین می‌برد.

بر اساس مستندات منتشر شده در ۳ جولای ۲۰۲۶، رویکرد Program-as-Weights (PAW) به جای تکیه بر پرامپت‌های طولانی، توصیفات زبان طبیعی را به یک آرتیفکت عصبی (Neural Artifact) تبدیل می‌کند که به‌صورت محلی قابل اجراست. این یعنی مدل دیگر هر بار نباید کل مسئله را از طریق متن بفهمد، بلکه سازوکار حل مسئله در وزن‌های مدل حک شده است.

بسیاری از کارهای برنامه‌نویسی، مثل اصلاح JSONهای ناقص یا رتبه‌بندی نتایج جست‌وجو، برای کدنویسی سخت‌گیرانه (Rule-based) بیش از حد «مبهم» هستند. هم‌اکنون توسعه‌دهندگان این وظایف را به APIهای عظیم مدل‌های زبانی بزرگ می‌سپارند و هزینه سنگینی می‌پردازند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی مدل‌های لبه (Edge AI) اشاره کردیم، انتقال محاسبات از مرحله اجرا به مرحله کامپایل، کلید دستیابی به سرعت‌های بالاتر است. این رویکرد بهینه‌سازی ساختاری، یادآور تلاش‌های اخیر برای عبور از گلوگاه‌های غیردیفرانسیل در معماری‌های عصبی است که هدف آن افزایش کارایی در لایه‌های عملیاتی مدل‌ها بود.

به نقل از تحلیل فنی سایت arxiv.org، این سامانه از یک کامپایلر ۴ میلیارد پارامتری استفاده می‌کند که روی مجموعه داده FuzzyBench (شامل ۱۰ میلیون نمونه) آموزش دیده است. این کامپایلر آداپتورهای (Adapters) بهینه‌ای تولید می‌کند که به یک مفسر سبک و منجمد متصل می‌شوند.

جزئیات فنی این معماری عبارتند از:

اندازه مفسر: مدل Qwen3 با ۰.۶ میلیارد پارامتر
بهره‌وری: مصرف حافظه استنتاج تقریباً ۱/۵۰ هشتم مقدار مورد نیاز در پرامپت‌نویسی مستقیم Qwen3-32B
سرعت: دستیابی به سرعت ۳۰ توکن در ثانیه بر روی MacBook M3
مجموعه داده: بهره‌گیری از ۱۰ میلیون مثال FuzzyBench برای آموزش کامپایلر

این تحول، نقش مدل بنیادی را از یک «حل‌کننده مسئله برای هر ورودی» به یک «ابزارساز» تغییر می‌دهد. به جای اینکه برای هر خط لگ یا اصلاح JSON به یک مدل ۳۲ میلیارد پارامتری رجوع کنید، کامپایلر یک بار اجرا شده و یک ابزار آفلاین و قابل استفاده مجدد می‌سازد. برای متخصصان فنی، این موضوع مهر تأییدی بر حرکت به سمت آداپتورهای تخصصی و کوچک در مقابل پرامپت‌های حجیم و تک‌سنگی (Monolithic) است.

گام بعدی شما

بررسی مجموعه داده FuzzyBench برای شناسایی کارهای «مبهم» که بیشترین پتانسیل را برای تبدیل به آداپتور دارند.
تحلیل موازنه‌ی زمان کامپایل (Compilation Time) در برابر تأخیر استنتاج (Inference Latency) در محیط‌های محلی.
آزمایش جایگزینی فراخوانی‌های API گران‌قیمت با مدل‌های ۰.۶ میلیارد پارامتری در گردش‌های کاری تکراری.

اما چالش اصلی اکنون این است که آیا این فشرده‌سازی روی کارهای استدلالی پیچیده نیز اثر می‌گذارد یا خیر؛ ما در گزارش بعدی اثر این رویکرد بر مدل‌های استدلالی را بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

جزئیات فنی این معماری عبارتند از:

اندازه مفسر: مدل Qwen3 با ۰.۶ میلیارد پارامتر
بهره‌وری: مصرف حافظه استنتاج تقریباً ۱/۵۰ هشتم مقدار مورد نیاز در پرامپت‌نویسی مستقیم Qwen3-32B
سرعت: دستیابی به سرعت ۳۰ توکن در ثانیه بر روی MacBook M3
مجموعه داده: بهره‌گیری از ۱۰ میلیون مثال FuzzyBench برای آموزش کامپایلر

گام بعدی شما

بررسی مجموعه داده FuzzyBench برای شناسایی کارهای «مبهم» که بیشترین پتانسیل را برای تبدیل به آداپتور دارند.
تحلیل موازنه‌ی زمان کامپایل (Compilation Time) در برابر تأخیر استنتاج (Inference Latency) در محیط‌های محلی.
آزمایش جایگزینی فراخوانی‌های API گران‌قیمت با مدل‌های ۰.۶ میلیارد پارامتری در گردش‌های کاری تکراری.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روش PAW حافظهٔ استنتاج را ۵۰ برابر کاهش داد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روش PAW حافظهٔ استنتاج را ۵۰ برابر کاهش داد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روش PAW حافظهٔ استنتاج را ۵۰ برابر کاهش داد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روش PAW حافظهٔ استنتاج را ۵۰ برابر کاهش داد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران