پایان عصر توهمات بصری: متا چگونه دید ماشین را به دقت ۴K رساند؟

تصور کنید هوش مصنوعی نه تنها یک انسان را ببیند، بلکه هر چین لباس و هر تغییر ظریف در وضعیت بدن را با دقت ریاضی درک کند. اگر هنوز فکر می‌کنید بینایی ماشین در مواجهه با تنوع لباس‌ها و نورپردازی‌ها محدود است، باید با Sapiens2 آشنا شوید.

متا (Meta) با معرفی Sapiens2، مدل بنیادی (Foundation Model) جدید خود، اعلام کرد که توانسته است مشکل «انحراف بازنمایی» (Representation Drift) را حل کند. به نقل از گزارش marktechpost.com، این مدل با ترکیب بازسازی ماسک‌شده و یادگیری مقابله‌ای، هم بافت‌های ظریف پوست و هم معنای کلی حرکت را به‌طور هم‌زمان حفظ می‌کند.

بر اساس مستندات فنی این پروژه، متا برای رسیدن به این سطح از دقت، مجموعه‌داده‌ی «Humans-1B» شامل ۱ میلیارد تصویر پالایش‌شده را طراحی کرد. معماری این مدل از ۰.۴ میلیارد تا ۵ میلیارد پارامتر متغیر است و برای پشتیبانی از رزولوشن ۴K، از طراحی «توجه پنجره‌ای سلسله‌مراتبی» (Hierarchical Windowed Attention) استفاده می‌کند.

Sapiens2 برای ۵ وظیفه‌ی تخصصی تنظیم دقیق (Fine-tuning) شده است:

تخمین وضعیت (Pose Estimation): شناسایی ۳۰۸ نقطه‌ی کلیدی در بدن، صورت و دست‌ها.
بخش‌بندی اجزای بدن (Body-Part Segmentation): تفکیک ۲۹ کلاس معنایی، از جمله عینک.
تخمین نقشه‌ی نقطه‌ای (Pointmap Estimation): استخراج مختصات سه‌بعدی هر پیکسل.
تخمین نرمال (Normal Estimation): پیش‌بینی بردار سطح برای ارتقای کیفیت تصویر.
تخمین آلبدو (Albedo Estimation): بازیابی رنگ واقعی سطح، مستقل از نور محیط.

The user wants a short Persian (Farsi) translation for an image alt text in an article titled: "Top 7 Benchmarks That Actuall

نتایج خیره‌کننده است. در تست‌های دنیای واقعی روی ۱۱ هزار تصویر، مدل Sapiens2-5B به دقت ۸۲.۳ mAP رسید که جهشی قابل‌توجه نسبت به نسل قبلی است. در بخش‌بندی اجزای بدن نیز، این مدل با کسب ۸۲.۵ mIoU، رکورد جدیدی را ثبت کرد.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های اخلاقی جمع‌آوری داده‌های عظیم اشاره کردیم، مقیاس خیره‌کننده‌ی این مجموعه داده، دوباره بحث تنش میان عملکرد مدل و حریم خصوصی را زنده می‌کند. با این حال، Sapiens2-5B ثابت کرد که مدل‌های تخصصی می‌توانند حتی از مدل‌های غول‌پیکر و همه‌منظوره‌ای مثل DINOv3-7B در تحلیل‌های متراکم پیشی بگیرند.

اما این دقت بصری تنها نیمی از داستان است؛ ادغام این درک فضایی در رباتیکِ آنی (Real-time Robotics)، مرز بعدی رقابت خواهد بود.

گام بعدی شما

بررسی مستندات Sapiens2 برای درک نحوه پیاده‌سازی توابع زیان مشترک (Joint Loss Functions).
مقایسه خروجی‌های Albedo Estimation با مدل‌های سنتی برای کاربردهای گرافیکی.
دنبال کردن به‌روزرسانی‌های متا در مورد دسترسی عمومی به وزن‌های این مدل.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

Sapiens2 برای ۵ وظیفه‌ی تخصصی تنظیم دقیق (Fine-tuning) شده است:

تخمین وضعیت (Pose Estimation): شناسایی ۳۰۸ نقطه‌ی کلیدی در بدن، صورت و دست‌ها.
بخش‌بندی اجزای بدن (Body-Part Segmentation): تفکیک ۲۹ کلاس معنایی، از جمله عینک.
تخمین نقشه‌ی نقطه‌ای (Pointmap Estimation): استخراج مختصات سه‌بعدی هر پیکسل.
تخمین نرمال (Normal Estimation): پیش‌بینی بردار سطح برای ارتقای کیفیت تصویر.
تخمین آلبدو (Albedo Estimation): بازیابی رنگ واقعی سطح، مستقل از نور محیط.

The user wants a short Persian (Farsi) translation for an image alt text in an article titled: "Top 7 Benchmarks That Actuall

گام بعدی شما

بررسی مستندات Sapiens2 برای درک نحوه پیاده‌سازی توابع زیان مشترک (Joint Loss Functions).
مقایسه خروجی‌های Albedo Estimation با مدل‌های سنتی برای کاربردهای گرافیکی.
دنبال کردن به‌روزرسانی‌های متا در مورد دسترسی عمومی به وزن‌های این مدل.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر توهمات بصری: متا چگونه دید ماشین را به دقت ۴K رساند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر توهمات بصری: متا چگونه دید ماشین را به دقت ۴K رساند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر توهمات بصری: متا چگونه دید ماشین را به دقت ۴K رساند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر توهمات بصری: متا چگونه دید ماشین را به دقت ۴K رساند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران