تصور کنید هوش مصنوعی نه تنها یک انسان را ببیند، بلکه هر چین لباس و هر تغییر ظریف در وضعیت بدن را با دقت ریاضی درک کند. اگر هنوز فکر میکنید بینایی ماشین در مواجهه با تنوع لباسها و نورپردازیها محدود است، باید با Sapiens2 آشنا شوید.
متا (Meta) با معرفی Sapiens2، مدل بنیادی (Foundation Model) جدید خود، اعلام کرد که توانسته است مشکل «انحراف بازنمایی» (Representation Drift) را حل کند. به نقل از گزارش marktechpost.com، این مدل با ترکیب بازسازی ماسکشده و یادگیری مقابلهای، هم بافتهای ظریف پوست و هم معنای کلی حرکت را بهطور همزمان حفظ میکند.
بر اساس مستندات فنی این پروژه، متا برای رسیدن به این سطح از دقت، مجموعهدادهی «Humans-1B» شامل ۱ میلیارد تصویر پالایششده را طراحی کرد. معماری این مدل از ۰.۴ میلیارد تا ۵ میلیارد پارامتر متغیر است و برای پشتیبانی از رزولوشن ۴K، از طراحی «توجه پنجرهای سلسلهمراتبی» (Hierarchical Windowed Attention) استفاده میکند.
Sapiens2 برای ۵ وظیفهی تخصصی تنظیم دقیق (Fine-tuning) شده است:
- تخمین وضعیت (Pose Estimation): شناسایی ۳۰۸ نقطهی کلیدی در بدن، صورت و دستها.
- بخشبندی اجزای بدن (Body-Part Segmentation): تفکیک ۲۹ کلاس معنایی، از جمله عینک.
- تخمین نقشهی نقطهای (Pointmap Estimation): استخراج مختصات سهبعدی هر پیکسل.
- تخمین نرمال (Normal Estimation): پیشبینی بردار سطح برای ارتقای کیفیت تصویر.
- تخمین آلبدو (Albedo Estimation): بازیابی رنگ واقعی سطح، مستقل از نور محیط.

نتایج خیرهکننده است. در تستهای دنیای واقعی روی ۱۱ هزار تصویر، مدل Sapiens2-5B به دقت ۸۲.۳ mAP رسید که جهشی قابلتوجه نسبت به نسل قبلی است. در بخشبندی اجزای بدن نیز، این مدل با کسب ۸۲.۵ mIoU، رکورد جدیدی را ثبت کرد.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای اخلاقی جمعآوری دادههای عظیم اشاره کردیم، مقیاس خیرهکنندهی این مجموعه داده، دوباره بحث تنش میان عملکرد مدل و حریم خصوصی را زنده میکند. با این حال، Sapiens2-5B ثابت کرد که مدلهای تخصصی میتوانند حتی از مدلهای غولپیکر و همهمنظورهای مثل DINOv3-7B در تحلیلهای متراکم پیشی بگیرند.
اما این دقت بصری تنها نیمی از داستان است؛ ادغام این درک فضایی در رباتیکِ آنی (Real-time Robotics)، مرز بعدی رقابت خواهد بود.
گام بعدی شما
- بررسی مستندات Sapiens2 برای درک نحوه پیادهسازی توابع زیان مشترک (Joint Loss Functions).
- مقایسه خروجیهای Albedo Estimation با مدلهای سنتی برای کاربردهای گرافیکی.
- دنبال کردن بهروزرسانیهای متا در مورد دسترسی عمومی به وزنهای این مدل.




گفتگو