اجبار یک مدل به تولید خروجی JSON صرفاً یک تغییر فرمت نیست؛ برای مدلهای زبانی متوسط، این کار میتواند دقت استدلالی آنها را تا ۲۸ درصد تخریب کند. باید بدانید که این «مالیات استدلال» در واقع نشانی از کمبود ظرفیت پردازشی در مدلهای کوچکتر است؛ موضوعی که در تلاش برای اجرای مدل Gemma 4 گوگل در حافظه کمتر از ۱ گیگابایت نیز به عنوان یکی از چالشهای بهینهسازی مدلهای کوچک مورد بررسی قرار گرفت.
توسعهدهندگان مدتهاست میان انعطافپذیری زنجیره تفکر (Chain-of-Thought) و قابلیت اطمینان فرمتهای ساختاریافته برای استفاده از ابزار (Tool Use) دستوپنجه نرم میکنند. همانطور که در تحلیلهای پیشین ما درباره توازن میان استدلال آزاد و خروجیهای سختگیرانه اشاره کردیم، این افت کیفیت پیشتر به عنوان هزینهی اجباریِ قالببندی پذیرفته شده بود، اما این پژوهش نشان میدهد جریمهی این کار به شدت به مقیاس مدل وابسته است.
به نقل از گزارش arXiv که در ۹ ژوئن ۲۰۲۶ منتشر شد، این شکاف عملکردی در مدلهای مختلف بسیار متفاوت است:
- Claude 3.5 Sonnet تقریباً هیچ افت دقتی در آزمون MATH-Hard نشان نداد (۸۹.۳٪ در حالت زنجیره تفکر در مقابل ۸۸.۷٪ در حالت JSON).
- Claude 3 Haiku سقوطی ۳۶.۲ درصدی را تجربه کرد که عمدتاً ناشی از قطع توکنها در بودجههای استاندارد بود.
- GPT-4o-mini حتی پس از حذف مشکل قطع توکنها، با افت ۲۸ درصدی مواجه شد؛ این امر نشاندهنده رقابتی خالص برای ظرفیت است که در آن تلاش برای قالببندی، با فرآیند استدلال تداخل میکند.
- حتی Claude 3 Opus در مسابقات ریاضی AIME، افت دقت از ۹۶.۲٪ به ۹۱.۰٪ را ثبت کرد.
بر اساس مستندات این پژوهش، راهکار بازیابی این دقت در روشی به نام «حذف ساختار تأخیری» (Delayed-structure ablation) نهفته است. در این رویکرد، به مدل اجازه داده میشود ابتدا آزادانه در قالب متن استدلال کند و تنها در گام نهایی، پاسخ را فرمت کند؛ روشی که میانگین دقت را به ۸۰ تا ۸۷ درصد بازمیگرداند. برای جامعه فنی، این یافته هدف بهینهسازی را تغییر میدهد: هدف نباید حذف خروجی ساختاریافته باشد، بلکه باید آن را با ظرفیت مدل تطبیق داد.
گام بعدی شما
- بررسی کنید آیا جایگزینی خروجی مستقیم JSON با یک خط لوله دو مرحلهای (استدلال-قالببندی) دقت مدلهای کوچک شما را بهبود میبخشد یا خیر.
- در مدلهای با ظرفیت پایین، اولویت را به «تفکر آزاد» بدهید و قالببندی را به لایه نهایی بسپارید.
- ارزیابی کنید که آیا هزینه استنتاج (Inference) در یک خط لولهی دو مرحلهای، کمتر از هزینه خطای ناشی از استفاده از مدلهای بزرگتر است.
اما تأثیر این محدودیت بر هزینههای استنتاج در مدلهای بازمتن حتی پیچیدهتر است؛ به بررسی ما درباره بهینهسازی حافظه در Llama-3 مراجعه کنید.
گفتگو