اگر مدلهای زبانی شما کدهایی مینویسند که از نظر فنی اجرا میشوند اما در خروجی بصری دچار مشکلاتی مثل همپوشانی متن یا برش عناصر هستند، دلیل آن عدم دسترسی مدل به خروجی رندر پیش از نهایی کردن کد است. این شکاف بین کد انتزاعی و اثر بصری ملموس، یکی از بزرگترین چالشهای فعلی در تولید خودکار رابطهای کاربری است.
به نقل از گزارش پژوهشی منتشر شده در ۱۰ ژوئن ۲۰۲۶، چارچوب Visual-SDPO با استفاده از تقطیر ممتاز (Privileged Distillation)، بازخوردهای بصری را از یک مدل «معلم» به مدل «شاگرد» منتقل میکند. همانطور که در تحلیلهای پیشین ما دربارهی مدلهای چندوجهی (Multimodal) اشاره کردیم، چالش اصلی این است که رندرهای گرافیکی ماهیتی «غیردیفرانسیل» دارند و مدل نمیتواند خطاها را از تصویر مستقیماً به کد بازگرداند.
این سیستم که بر پایه مدل Qwen3-VL-8B-Instruct بنا شده است، از مکانیزم وزندهی اعتبار کد مبتنی بر بصری (Visual-Grounded Code Credit Weighting) استفاده میکند تا نقصهای بصری را دقیقاً به دستورات کد مربوطه متصل کند. طبق مستندات این پژوهش، نتایج در بنچمارکهای ChartMimic، Design2Code و AeSlides به شرح زیر است:
- بهبود بیش از ۱۰ امتیاز مطلق نسبت به مدلهای پایه (Zero-shot).
- کسب حداقل ۲.۴ امتیاز بیشتر نسبت به روش بهینهسازی سیاست نسبی گروهی (GRPO).
- استفاده از یک معلم با اشتراک وزن که بازخوردهای رندر شده را به عنوان بافت ممتاز در نظر میگیرد.
این رویکرد، معیار موفقیت مدلهای کدنویس را تغییر میدهد؛ هدف دیگر تنها تولید کد «قابل اجرا» نیست، بلکه تولید اثرات «بصری دقیق» است. پژوهشگران دریافتهاند که میتوان «شهود بصری» را بدون افزایش تأخیر در زمان استنتاج (Inference)، در دل مدل جای داد.
گام بعدی شما
- توسعهدهندگان ابزارهای UI باید ادغام Visual-SDPO در موتورهای تولید کد را رصد کنند تا میزان انتقال این دقت به محیطهای عملیاتی را بسنجند.
- بررسی قابلیتهای این مدل در تولید نمودارهای پیچیده برای کاهش خطاهای بصری در گزارشهای دادهمحور.
- دنبال کردن گسترش این متد به حوزههای رندرینگ سهبعدی یا نرمافزارهای CAD.
اما چالشهای استنتاج در مدلهای بزرگتر همچنان پابرجاست — به بررسی ما دربارهی بهینهسازیهای هزینه استنتاج مراجعه کنید.


گفتگو