اگر تصور میکنید ویدیوهای تولیدشده با هوش مصنوعی به واقعگرایی رسیدهاند، احتمالاً قوانین بنیادین فیزیک را نادیده گرفتهاید. باید بدانید که تفاوت میان «شبیهسازی واقعیت» و «تقلید بصری از الگوها»، دقیقاً در جایی است که مدلها در برابر قوانین جاذبه یا دینامیک سیالات شکست میخورند.
طبق اعلام پژوهشگران در مقاله منتشرشده در arXiv در تاریخ ۱۲ می ۲۰۲۶، مدل PhyJudge-9B توانسته است سوگیری نسبی در ارزیابیهای فیزیکی را به ۳.۳٪ کاهش دهد؛ عددی که در مقایسه با سوگیری ۱۶.۶ درصدی در Gemini-3.1-Pro، یک جهش خیرهکننده در دقت محسوب میشود. این مدل که یک مدل زبانی-بصری (VLM) تخصصی است، به عنوان یک داور عمل میکند تا بررسی کند آیا مدلهای جهان (World Models) واقعاً فیزیک را درک میکنند یا صرفاً پیکسلها را جابهجا میکنند.
همانطور که در تحلیل قبلی ما دربارهی Microsoft WHAM و کاربرد مدلهای جهان در هوش مصنوعی بازیها اشاره کردیم، صنعت اکنون با یک شکاف بحرانی روبروست: نبود روشی عینی برای اندازهگیری لحظهای که یک ویدیو قانون فیزیک را نقض میکند. برای حل این مشکل، بنچمارک PhyGround با ویژگیهای زیر طراحی شده است:
- استفاده از ۲۵۰ پرامپت منتخب متناظر با ۱۳ قانون فیزیکی.
- پوشش حوزههای اپتیک، دینامیک سیالات و مکانیک اجسام صلب.
- اعتبارسنجی توسط ۴۵۹ تحلیلگر انسانی با ثبت ۵٬۷۹۶ حاشیهنویسی کامل.
- دستیابی به همبستگی بالای رتبهبندی مدلها (Spearman's rho > 0.۹۰).
به نقل از مستندات این پروژه، این تحول باعث میشود ارزیابیها از نمرات کلی «کیفیت» به «تشخیصهای قانونمحور» تغییر مسیر دهند. با ارائه یک مدل با وزنهای باز (Open Weights)، وابستگی توسعهدهندگان به APIهای تجاری که اغلب نقاط شکست مدل را پنهان میکنند، از بین میرود. اکنون میتوان دقیقاً تشخیص داد که مدل در کجا شکست خورده است؛ مثلاً جایی که لزجت سیالات را با اصطکاک جامدات اشتباه میگیرد.
گام بعدی شما
- بررسی چکپوینتهای مدل و کدهای ارزیابی در صفحه پروژه برای تست خطلولههای تولید ویدیو.
- رصد نحوه ادغام این داوران فیزیک-آگاه در حلقههای یادگیری تقویتشده از بازخورد انسانی (RLHF) برای حذف توهمات حرکتی.
- مقایسه خروجیهای مدلهای متنباز با مدلهای تجاری در سناریوهای پیچیده فیزیکی.
اما داستان سختافزاری لازم برای اجرای این داوران در مقیاس وسیع، چالش بعدی است — به تحلیل ما دربارهی بهینهسازیهای استنتاج در مدلهای VLM مراجعه کنید.




گفتگو