باید بدانید که تخمین دقیق ۶۵ ریزمغذی مختلف از روی یک تصویر غذا، از یک مسئلهی بالینی «ناممکن» به یک چالش مهندسی تبدیل شده است. این پیشرفت به معنای آن است که مدلهای بینایی-زبانی اکنون میتوانند با دقتی بیسابقه، پروفایلهای تغذیهای پیچیده را تنها با یک نگاه تحلیل کنند.
دسترسی به دادههای باکیفیت در تغذیه همیشه با یک «صحرا یا خلأ دادهای» روبرو بوده است؛ یعنی فقدان تصاویری که با پروفایلهای دقیق آزمایشگاهی جفت شده باشند. در پوشش پیشین ما از چالشهای استخراج دادههای ساختاریافته در مدلهای زبانی، دیدیم که فقدان دادههای برچسبدار چگونه رشد مدلهای تخصصی را متوقف میکند و همین مشکل، مانع اصلی در توسعه ابزارهای ردیابی تغذیه بود.
برای عبور از این بنبست، تیم پژوهشی از دادههای مربوط به یادآوریهای رژیم غذایی ۲۴ ساعته در مقیاس جمعیت طی یک دهه اخیر استفاده کردند تا پرامپتهایی برای تولید تصویر بسازند. طبق گزارش ۹ ژوئن ۲۰۲۶ در arxiv.org، این خط لوله منجر به تولید یک مجموعه دادهی مصنوعی شامل ۱.۱ میلیون «تریپلت» (سه-تایی) از تصویر، توصیف و مقدار ریزمغذی شد. بر اساس مستندات پروژه، تیم سازنده با تنظیم دقیق (Fine-tuning) مدلهای Qwen3-VL (در نسخههای ۲ تا ۳۰ میلیارد پارامتری) و GLM-4.6V-Flash، خانوادهی NutriMLLM را خلق کردند. نتایج نشان میدهد که بزرگترین نسخهی این مدل، در اکثر ریزمغذیها با دقت مدلهای GPT-5، Gemini 3 و Claude Sonnet 4.5 برابری کرده یا حتی از آنها پیشی گرفته است.
این نتیجه ثابت میکند که نظارت مصنوعیِ مبتنی بر دادههای تاریخی میتواند وظایف بالینی سخت را به مسئلههای قابل حل مهندسی تبدیل کند. با حذف نیاز به برچسبگذاری دستی توسط متخصصان، این رویکرد یک نقشه راه برای سایر حوزههای پزشکی ایجاد میکند که در آنها برچسبهای آموزشی دقیق، کمیاب هستند.
گام بعدی شما
- رصد زمان انتشار عمومی مجموعه داده ۱.۱ میلیون تصویری برای آموزش مدلهای تخصصیتر.
- بررسی امکان تعمیم این استراتژی تولید دادهی مصنوعی به سایر تشخیصهای کلینیکی غیرتغذیهای.
- تحلیل اثرات ادغام این مدلها در گجتهای پوشیدنی برای پایش لحظهای سلامت.
این تنها آغاز ماجراست؛ اثر موجگونهی این استراتژی بر سایر تشخیصهای پزشکی را در گزارش بعدی بررسی خواهیم کرد.
گفتگو