چرا مدل ۰.۷۷ میلیارد پارامتری Fashion Florence از GPT-4o-mini دقیق‌تر است؟

باید بدانید که برای استخراج داده‌های دقیق از تصاویر، لزوماً به مدل‌های غول‌پیکر نیاز ندارید. تصور کنید مدلی با حجم بسیار کم بتواند در تشخیص جزئیات لباس، مدل‌های پیشروترین شرکت‌های جهان را به چالش بکشد.

به نقل از مقاله منتشر شده در arxiv.org در تاریخ ۱۲ مه ۲۰۲۶، مدل Fashion Florence با تنها ۰.۷۷ میلیارد پارامتر، در استخراج ویژگی‌های ساختاریافته‌ی مد از تصاویر، عملکردی برتر از GPT-4o-mini داشته است. این مدل یک جایگزین کم‌هزینه و با دقت بالا برای مدل‌های چندوجهی (Multimodal) در کاربردهای خرده‌فروشی است.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های زبانی کوچک (SLM) اشاره کردیم، تخصص‌گرایی در حال جایگزینی مقیاس‌پذیری مطلق است. مدل‌های زبانی بزرگ (LLM) عمومی اغلب در رعایت فرمت‌های سخت‌گیرانه و درک تفاوت‌های ظریف حوزه‌های تخصصی دچار مشکل می‌شوند. در خط لوله‌های تجارت الکترونیک، خروجی‌های JSON معتبر برای تغذیه موتورهای توصیه‌گر حیاتی هستند، اما مدل‌های پیشرو هنگام پردازش برچسب‌های خاص لباس، همچنان دچار توهم (Hallucination) یا خطاهای فرمت‌بندی می‌شوند.

این مدل بر پایه معماری Florence-2 ساخته شده و پژوهشگران از متد تنظیم دقیق (Fine-tuning) با استفاده از LoRA (r=16, alpha=32) برای تمام لایه‌های خطی رمزگشای آن استفاده کرده‌اند. مدل مذکور طی ۳ دوره (Epoch) روی ۳,۶۸۸ نمونه از مجموعه داده iMaterialist Fashion آموزش دیده است. در این فرآیند، از یک طرح‌واره ساده‌شده شامل ۶ دسته، ۱۶ رنگ و ۱۹ سبک استفاده شده است.

بر اساس مستندات پژوهش، معیارهای کلیدی عملکرد به شرح زیر است:

دقت دسته‌بندی: ۹۴.۶٪ (در مقابل ۸۹.۳٪ برای GPT-4o-mini و ۸۷.۴٪ برای Gemini 2.5 Flash)
دقت تشخیص متریال: ۶۳.۰٪ (در مقابل ۴۳.۳٪ برای GPT-4o-mini)
اعتبار JSON: ۹۹.۸٪ از کل خروجی‌ها
امتیاز F1 برای تگ‌های سبک: ۰.۷۵۳ (به‌طور قابل‌توجهی بالاتر از ۰.۶۱۲ در Gemini)

این نتایج این فرض را که برای استخراج دقیق ویژگی‌ها حتماً به مقیاس‌های عظیم نیاز است، به چالش می‌کشد. با ساده‌سازی برچسب‌های پیچیده به یک طرح‌واره قاعده‌مند و فشرده، ثابت شد که یک مدل زیر یک میلیارد پارامتر می‌تواند قابل‌اعتمادتر و از نظر محاسباتی بهینه‌تر از مدل‌های پیشرو باشد. برای متخصصان فنی، این یک سیگنال واضح برای چرخش به سمت SLMهای تخصصی در خط لوله‌های تولیدی است.

در حال حاضر این مدل در قالب یک Hugging Face Space مستقر شده و در Loom، یک سیستم توصیه‌گر لباس متن‌باز، ادغام شده است.

گام بعدی شما

بررسی استراتژی «ساده‌سازی برچسب‌ها» (Label-collapsing) برای سایر وظایف استخراج داده در حوزه‌های تخصصی.
تست مدل Fashion Florence در Hugging Face برای مقایسه هزینه استنتاج (Inference) با مدل‌های API-based.
بررسی امکان پیاده‌سازی مدل‌های زیر یک میلیارد پارامتر برای کاهش تأخیر در سیستم‌های توصیه‌گر لحظه‌ای.

اما تأثیر این رویکرد بر کاهش هزینه‌های استنتاج در مقیاس صنعتی، موضوع تحلیل بعدی ماست.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات پژوهش، معیارهای کلیدی عملکرد به شرح زیر است:

دقت دسته‌بندی: ۹۴.۶٪ (در مقابل ۸۹.۳٪ برای GPT-4o-mini و ۸۷.۴٪ برای Gemini 2.5 Flash)
دقت تشخیص متریال: ۶۳.۰٪ (در مقابل ۴۳.۳٪ برای GPT-4o-mini)
اعتبار JSON: ۹۹.۸٪ از کل خروجی‌ها
امتیاز F1 برای تگ‌های سبک: ۰.۷۵۳ (به‌طور قابل‌توجهی بالاتر از ۰.۶۱۲ در Gemini)

در حال حاضر این مدل در قالب یک Hugging Face Space مستقر شده و در Loom، یک سیستم توصیه‌گر لباس متن‌باز، ادغام شده است.

گام بعدی شما

بررسی استراتژی «ساده‌سازی برچسب‌ها» (Label-collapsing) برای سایر وظایف استخراج داده در حوزه‌های تخصصی.
تست مدل Fashion Florence در Hugging Face برای مقایسه هزینه استنتاج (Inference) با مدل‌های API-based.
بررسی امکان پیاده‌سازی مدل‌های زیر یک میلیارد پارامتر برای کاهش تأخیر در سیستم‌های توصیه‌گر لحظه‌ای.

اما تأثیر این رویکرد بر کاهش هزینه‌های استنتاج در مقیاس صنعتی، موضوع تحلیل بعدی ماست.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل ۰.۷۷ میلیارد پارامتری Fashion Florence از GPT-4o-mini دقیق‌تر است؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل ۰.۷۷ میلیارد پارامتری Fashion Florence از GPT-4o-mini دقیق‌تر است؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل ۰.۷۷ میلیارد پارامتری Fashion Florence از GPT-4o-mini دقیق‌تر است؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل ۰.۷۷ میلیارد پارامتری Fashion Florence از GPT-4o-mini دقیق‌تر است؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران