«مالیات استدلال»: کاهش ۲۸ درصدی دقت مدل‌های متوسط در خروجی‌های JSON

اجبار یک مدل به تولید خروجی JSON صرفاً یک تغییر فرمت نیست؛ برای مدل‌های زبانی متوسط، این کار می‌تواند دقت استدلالی آن‌ها را تا ۲۸ درصد تخریب کند. باید بدانید که این «مالیات استدلال» در واقع نشانی از کمبود ظرفیت پردازشی در مدل‌های کوچک‌تر است؛ موضوعی که در تلاش برای اجرای مدل Gemma 4 گوگل در حافظه کمتر از ۱ گیگابایت نیز به عنوان یکی از چالش‌های بهینه‌سازی مدل‌های کوچک مورد بررسی قرار گرفت.

توسعه‌دهندگان مدت‌هاست میان انعطاف‌پذیری زنجیره تفکر (Chain-of-Thought) و قابلیت اطمینان فرمت‌های ساختاریافته برای استفاده از ابزار (Tool Use) دست‌وپنجه نرم می‌کنند. همان‌طور که در تحلیل‌های پیشین ما درباره توازن میان استدلال آزاد و خروجی‌های سخت‌گیرانه اشاره کردیم، این افت کیفیت پیش‌تر به عنوان هزینه‌ی اجباریِ قالب‌بندی پذیرفته شده بود، اما این پژوهش نشان می‌دهد جریمه‌ی این کار به شدت به مقیاس مدل وابسته است.

به نقل از گزارش arXiv که در ۹ ژوئن ۲۰۲۶ منتشر شد، این شکاف عملکردی در مدل‌های مختلف بسیار متفاوت است:

Claude 3.5 Sonnet تقریباً هیچ افت دقتی در آزمون MATH-Hard نشان نداد (۸۹.۳٪ در حالت زنجیره تفکر در مقابل ۸۸.۷٪ در حالت JSON).
Claude 3 Haiku سقوطی ۳۶.۲ درصدی را تجربه کرد که عمدتاً ناشی از قطع توکن‌ها در بودجه‌های استاندارد بود.
GPT-4o-mini حتی پس از حذف مشکل قطع توکن‌ها، با افت ۲۸ درصدی مواجه شد؛ این امر نشان‌دهنده رقابتی خالص برای ظرفیت است که در آن تلاش برای قالب‌بندی، با فرآیند استدلال تداخل می‌کند.
حتی Claude 3 Opus در مسابقات ریاضی AIME، افت دقت از ۹۶.۲٪ به ۹۱.۰٪ را ثبت کرد.

بر اساس مستندات این پژوهش، راهکار بازیابی این دقت در روشی به نام «حذف ساختار تأخیری» (Delayed-structure ablation) نهفته است. در این رویکرد، به مدل اجازه داده می‌شود ابتدا آزادانه در قالب متن استدلال کند و تنها در گام نهایی، پاسخ را فرمت کند؛ روشی که میانگین دقت را به ۸۰ تا ۸۷ درصد بازمی‌گرداند. برای جامعه فنی، این یافته هدف بهینه‌سازی را تغییر می‌دهد: هدف نباید حذف خروجی ساختاریافته باشد، بلکه باید آن را با ظرفیت مدل تطبیق داد.

گام بعدی شما

بررسی کنید آیا جایگزینی خروجی مستقیم JSON با یک خط لوله دو مرحله‌ای (استدلال-قالب‌بندی) دقت مدل‌های کوچک شما را بهبود می‌بخشد یا خیر.
در مدل‌های با ظرفیت پایین، اولویت را به «تفکر آزاد» بدهید و قالب‌بندی را به لایه نهایی بسپارید.
ارزیابی کنید که آیا هزینه استنتاج (Inference) در یک خط لوله‌ی دو مرحله‌ای، کمتر از هزینه خطای ناشی از استفاده از مدل‌های بزرگ‌تر است.

اما تأثیر این محدودیت بر هزینه‌های استنتاج در مدل‌های بازمتن حتی پیچیده‌تر است؛ به بررسی ما درباره بهینه‌سازی حافظه در Llama-3 مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

به نقل از گزارش arXiv که در ۹ ژوئن ۲۰۲۶ منتشر شد، این شکاف عملکردی در مدل‌های مختلف بسیار متفاوت است:

Claude 3.5 Sonnet تقریباً هیچ افت دقتی در آزمون MATH-Hard نشان نداد (۸۹.۳٪ در حالت زنجیره تفکر در مقابل ۸۸.۷٪ در حالت JSON).
Claude 3 Haiku سقوطی ۳۶.۲ درصدی را تجربه کرد که عمدتاً ناشی از قطع توکن‌ها در بودجه‌های استاندارد بود.
GPT-4o-mini حتی پس از حذف مشکل قطع توکن‌ها، با افت ۲۸ درصدی مواجه شد؛ این امر نشان‌دهنده رقابتی خالص برای ظرفیت است که در آن تلاش برای قالب‌بندی، با فرآیند استدلال تداخل می‌کند.
حتی Claude 3 Opus در مسابقات ریاضی AIME، افت دقت از ۹۶.۲٪ به ۹۱.۰٪ را ثبت کرد.

گام بعدی شما

بررسی کنید آیا جایگزینی خروجی مستقیم JSON با یک خط لوله دو مرحله‌ای (استدلال-قالب‌بندی) دقت مدل‌های کوچک شما را بهبود می‌بخشد یا خیر.
در مدل‌های با ظرفیت پایین، اولویت را به «تفکر آزاد» بدهید و قالب‌بندی را به لایه نهایی بسپارید.
ارزیابی کنید که آیا هزینه استنتاج (Inference) در یک خط لوله‌ی دو مرحله‌ای، کمتر از هزینه خطای ناشی از استفاده از مدل‌های بزرگ‌تر است.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«مالیات استدلال»: کاهش ۲۸ درصدی دقت مدل‌های متوسط در خروجی‌های JSON

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«مالیات استدلال»: کاهش ۲۸ درصدی دقت مدل‌های متوسط در خروجی‌های JSON

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«مالیات استدلال»: کاهش ۲۸ درصدی دقت مدل‌های متوسط در خروجی‌های JSON

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«مالیات استدلال»: کاهش ۲۸ درصدی دقت مدل‌های متوسط در خروجی‌های JSON

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران