فریب JSON؛ وقتی مدل‌های زبانی با دقت ساختاری، دروغ می‌گویند

احتمالاً خط لوله تولید شما در حال پذیرش داده‌های توهمی است، فقط چون در یک قالب JSON بی‌نقص بسته‌بندی شده‌اند. اگر هنوز تصور می‌کنید خروجی ساختاریافته به معنای صحت داده‌هاست، باید بدانید که در حال اعتماد به یک سراب فنی هستید.

به نقل از گزارشی که در ۲۹ آوریل ۲۰۲۶ توسط Interfaze منتشر شد، تکیه صنعت بر «نرخ پذیرش JSON» (JSON Pass Rate) به عنوان معیار موفقیت، به‌طور بنیادین گمراه‌کننده است. این مطالعه نشان می‌دهد که مدل‌ها می‌توانند در عین رعایت کامل دستورالعمل‌های ساختاری، در محتوای داده‌ها دچار توهم (Hallucination) شوند.

Interfaze برای جداسازی توانایی استخراج داده از استدلال کلی، بنچ‌مارک خروجی ساختاریافته (Structured Output Benchmark - SOB) را معرفی کرد. نتایج این بررسی، یک «شکاف دقت» بحرانی را آشکار می‌کند: در حالی که تقریباً تمام مدل‌های پیشرو نرخ پذیرش JSON بالای ۹۵ درصد دارند، اما «دقت مقداری» (Value Accuracy) — یعنی سهم فیلدهایی که بدون بازبینی انسانی قابل اعتماد هستند — بین ۱۵ تا ۳۰ درصد کاهش می‌یابد.

معرفی SOB: معیار خروجی ساخت‌یافته چندمنبعی برای مدل‌های زبانی بزرگ

طبق گزارش این مطالعه، چارچوب SOB مدل‌ها را در سه وجه مختلف و با هفت معیار ارزیابی کرده است که یافته‌های کلیدی آن عبارتند از:

واگرایی دقت مقداری: مدل Qwen3.5-35B کمترین شکاف (۱۶.۸ واحد) را داشت، در حالی که Schematron-8B با افت شدید ۲۵.۶ واحدی بین پذیرش ساختاری و دقت محتوایی، ضعیف‌ترین عملکرد را ثبت کرد.
اندازه، همه چیز نیست: مدل‌های کوچک‌تر مانند Qwen3.5-35B و GLM-4.7 در دقت مقداری از مدل‌های غول‌پیکری مثل GPT-5 و Claude-Sonnet-4.6 پیشی گرفتند.
فروپاشی وجهی (Modality Collapse): با تغییر منبع داده، عملکرد به‌شدت افت می‌کند. دقت مقداری در متن (۸۳.۰٪ برای GLM-4.7) در تصاویر به ۶۷.۲٪ (Gemma-4-31B) و در صوت به رقم تکان‌دهنده ۲۳.۷٪ (Gemini-2.5-Flash) سقوط می‌کند.

این افت کیفیت به‌ویژه در نسخه‌های متنی صوت (Transcripts) با میانگین ۷۳۰۰ توکن مشهود است. همان‌طور که در تحلیل قبلی ما درباره‌ی مدیریت کانتکست بلند در PyTorch اشاره کردیم، حتی با وجود مدیریت بهینه حافظه، توانایی مبنی‌سازی (Grounding) مقادیر ساختاریافته در گفتگوهای طولانی و هم‌پوشان، همچنان نقطه شکست اصلی هوش مصنوعی زاینده (Generative AI) است.

برای توسعه‌دهندگان، پیام روشن است: مدلی که تست اسکیما را پاس می‌کند، لزوماً حقیقت را نمی‌گوید. خطرناک‌ترین باگ‌ها، «توهمات ساختاریافته» هستند؛ مقادیری که از نظر نوع داده درست و پذیرفتنی به نظر می‌رسند، اما از نظر واقعیت کاملاً غلط‌اند.

اما بحران مبنی‌سازی در داده‌های صوتی تنها بخشی از یک معمای بزرگ‌تر است؛ در گزارش بعدی به بررسی تأثیر این موضوع بر عامل‌های (Agents) خودکار خواهیم پرداخت.

گام بعدی شما

استفاده از «نرخ پذیرش JSON» را به عنوان تنها معیار کیفیت متوقف کنید.
برای داده‌های حساس، لایه‌ای از اعتبارسنجی مقداری (Value Validation) را به خط لوله خود اضافه کنید.
در پروژه‌های تبدیل صوت به داده، انتظار دقت پایین داشته باشید و نظارت انسانی را افزایش دهید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

معرفی SOB: معیار خروجی ساخت‌یافته چندمنبعی برای مدل‌های زبانی بزرگ

واگرایی دقت مقداری: مدل Qwen3.5-35B کمترین شکاف (۱۶.۸ واحد) را داشت، در حالی که Schematron-8B با افت شدید ۲۵.۶ واحدی بین پذیرش ساختاری و دقت محتوایی، ضعیف‌ترین عملکرد را ثبت کرد.
اندازه، همه چیز نیست: مدل‌های کوچک‌تر مانند Qwen3.5-35B و GLM-4.7 در دقت مقداری از مدل‌های غول‌پیکری مثل GPT-5 و Claude-Sonnet-4.6 پیشی گرفتند.
فروپاشی وجهی (Modality Collapse): با تغییر منبع داده، عملکرد به‌شدت افت می‌کند. دقت مقداری در متن (۸۳.۰٪ برای GLM-4.7) در تصاویر به ۶۷.۲٪ (Gemma-4-31B) و در صوت به رقم تکان‌دهنده ۲۳.۷٪ (Gemini-2.5-Flash) سقوط می‌کند.

گام بعدی شما

استفاده از «نرخ پذیرش JSON» را به عنوان تنها معیار کیفیت متوقف کنید.
برای داده‌های حساس، لایه‌ای از اعتبارسنجی مقداری (Value Validation) را به خط لوله خود اضافه کنید.
در پروژه‌های تبدیل صوت به داده، انتظار دقت پایین داشته باشید و نظارت انسانی را افزایش دهید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فریب JSON؛ وقتی مدل‌های زبانی با دقت ساختاری، دروغ می‌گویند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فریب JSON؛ وقتی مدل‌های زبانی با دقت ساختاری، دروغ می‌گویند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فریب JSON؛ وقتی مدل‌های زبانی با دقت ساختاری، دروغ می‌گویند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فریب JSON؛ وقتی مدل‌های زبانی با دقت ساختاری، دروغ می‌گویند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران