باید بدانید که برای استخراج دادههای دقیق از تصاویر، لزوماً به مدلهای غولپیکر نیاز ندارید. تصور کنید مدلی با حجم بسیار کم بتواند در تشخیص جزئیات لباس، مدلهای پیشروترین شرکتهای جهان را به چالش بکشد.
به نقل از مقاله منتشر شده در arxiv.org در تاریخ ۱۲ مه ۲۰۲۶، مدل Fashion Florence با تنها ۰.۷۷ میلیارد پارامتر، در استخراج ویژگیهای ساختاریافتهی مد از تصاویر، عملکردی برتر از GPT-4o-mini داشته است. این مدل یک جایگزین کمهزینه و با دقت بالا برای مدلهای چندوجهی (Multimodal) در کاربردهای خردهفروشی است.
همانطور که در تحلیلهای پیشین ما دربارهی مدلهای زبانی کوچک (SLM) اشاره کردیم، تخصصگرایی در حال جایگزینی مقیاسپذیری مطلق است. مدلهای زبانی بزرگ (LLM) عمومی اغلب در رعایت فرمتهای سختگیرانه و درک تفاوتهای ظریف حوزههای تخصصی دچار مشکل میشوند. در خط لولههای تجارت الکترونیک، خروجیهای JSON معتبر برای تغذیه موتورهای توصیهگر حیاتی هستند، اما مدلهای پیشرو هنگام پردازش برچسبهای خاص لباس، همچنان دچار توهم (Hallucination) یا خطاهای فرمتبندی میشوند.
این مدل بر پایه معماری Florence-2 ساخته شده و پژوهشگران از متد تنظیم دقیق (Fine-tuning) با استفاده از LoRA (r=16, alpha=32) برای تمام لایههای خطی رمزگشای آن استفاده کردهاند. مدل مذکور طی ۳ دوره (Epoch) روی ۳,۶۸۸ نمونه از مجموعه داده iMaterialist Fashion آموزش دیده است. در این فرآیند، از یک طرحواره سادهشده شامل ۶ دسته، ۱۶ رنگ و ۱۹ سبک استفاده شده است.
بر اساس مستندات پژوهش، معیارهای کلیدی عملکرد به شرح زیر است:
- دقت دستهبندی: ۹۴.۶٪ (در مقابل ۸۹.۳٪ برای GPT-4o-mini و ۸۷.۴٪ برای Gemini 2.5 Flash)
- دقت تشخیص متریال: ۶۳.۰٪ (در مقابل ۴۳.۳٪ برای GPT-4o-mini)
- اعتبار JSON: ۹۹.۸٪ از کل خروجیها
- امتیاز F1 برای تگهای سبک: ۰.۷۵۳ (بهطور قابلتوجهی بالاتر از ۰.۶۱۲ در Gemini)
این نتایج این فرض را که برای استخراج دقیق ویژگیها حتماً به مقیاسهای عظیم نیاز است، به چالش میکشد. با سادهسازی برچسبهای پیچیده به یک طرحواره قاعدهمند و فشرده، ثابت شد که یک مدل زیر یک میلیارد پارامتر میتواند قابلاعتمادتر و از نظر محاسباتی بهینهتر از مدلهای پیشرو باشد. برای متخصصان فنی، این یک سیگنال واضح برای چرخش به سمت SLMهای تخصصی در خط لولههای تولیدی است.
در حال حاضر این مدل در قالب یک Hugging Face Space مستقر شده و در Loom، یک سیستم توصیهگر لباس متنباز، ادغام شده است.
گام بعدی شما
- بررسی استراتژی «سادهسازی برچسبها» (Label-collapsing) برای سایر وظایف استخراج داده در حوزههای تخصصی.
- تست مدل Fashion Florence در Hugging Face برای مقایسه هزینه استنتاج (Inference) با مدلهای API-based.
- بررسی امکان پیادهسازی مدلهای زیر یک میلیارد پارامتر برای کاهش تأخیر در سیستمهای توصیهگر لحظهای.
اما تأثیر این رویکرد بر کاهش هزینههای استنتاج در مقیاس صنعتی، موضوع تحلیل بعدی ماست.
گفتگو