دقت مدلهای هوش مصنوعی در هنگام فشردهسازی، تصادفی نیست؛ بلکه کاملاً تابع هندسهی فضای تلفات است. اگر مهندسان بخواهند مدلهای عظیم را روی سختافزارهای لبه (Edge Devices) اجرا کنند، باید بدانند که شکست در حفظ دقت، نتیجهی یک خطای تصادفی نیست، بلکه یک شکست هندسی در باقی ماندن در «حوضه کمتلفات» است.
کوانتیزه کردن (Quantization) ابزار اصلی برای کاهش حجم مدلها برای اجرا در دستگاههای کاربر نهایی است. در حالی که روش کوانتیزه کردن پس از آموزش (Post-Training Quantization یا PTQ) از نظر محاسباتی ارزان است، اما در پهنای بیتهای بسیار پایین معمولاً دچار فروپاشی میشود. در مقابل، آموزش آگاه از کوانتیزه کردن (Quantization-Aware Training یا QAT) هزینه بیشتری دارد، اما بهطور معمول میتواند عملکرد از دست رفته را بازیابی کند.
بر اساس مستندات منتشر شده در arxiv.org در تاریخ ۹ ژوئن ۲۰۲۶، پژوهشگری به نام Hanyang Li یک چهارچوب هندسی واحد برای توضیح این شکاف ارائه داده است. او آموزش با دقت کامل را به عنوان یک «رودخانه» در دل یک «دره» وسیع مدلسازی میکند که در آن یک «حوضه» (Basin) تخت در اطراف رودخانه، نشاندهندهی تلفات کم است.
همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی استنتاج در لبه اشاره کردیم، مدیریت حافظه در مدلهای فشرده همواره چالشبرانگیز بوده است. یافتههای جدید لی نشان میدهد:
- PTQ زمانی شکست میخورد که عرض شبکهی کوانتیزه کردن با عرض حوضه برابر باشد؛ این اتفاق باعث میشود مدل نقاطی با تلفات بالا را خارج از حوضه انتخاب کند.
- QAT از یک تخمینگر مستقیم (Straight-Through Estimator یا STE) استفاده میکند که گرادیانها را در وزنهای کوانتیزه شدهی استقرار یافته ارزیابی کرده و همزمان وزنهای پنهان با دقت کامل را بهروزرسانی میکند.
- این سازوکار یک مؤلفهی گرادیانی رو به داخل ایجاد میکند که عملاً «دیوارهی دره» را حس کرده و تکرارها را دوباره به سمت حوضهی کمتلفات هدایت میکند.
به نقل از این پژوهش، این یافته درک حرفهای از QAT را از یک «بهبود تجربی» به یک «فرآیند بازیابی ریاضی» تغییر میدهد. برای جامعهی فنی، این بدان معناست که موفقیت QAT به «سازگاری کوانتیزر» وابسته است؛ یعنی شبکه باید با هندسهی خاص چشمانداز تلفات همراستا باشد.
گام بعدی شما
- پیش از انتخاب بین PTQ و QAT، عرض حوضههای تلفات مدل خود را ارزیابی کنید.
- بر روی پیادهسازی شبکههای کوانتیزه کردن تطبیقی که اثر «بایاس حوضه» را شبیهسازی میکنند، تمرکز کنید.
- اثرات STE بر پایداری گرادیان در مدلهای زیر ۴-بیت را در محیطهای تست بررسی نمایید.
اما تأثیر این مکانیزم بر بهرهوری تراشههای نسل بعد حتی پیچیدهتر است — به تحلیل ما دربارهی معماری استنتاج در Blackwell مراجعه کنید.
گفتگو