اگر امروز در میامی هستید، میتوانید بدون حضور راننده در صندلی جلو، با یک تسلا به مقصد برسید. این اتفاق یعنی تسلا یک قدم بزرگ به شبکهای مقیاسپذیر از تاکسیهای خودران نزدیک شده است.
استقرار کامل سرویس Robotaxi در میامی، ردپای عملیاتی این شرکت را به پنج شهر ایالات متحده گستراند. طبق گزارش وبسایت blockchain.news و Refresh Miami در ۴ جولای ۲۰۲۶، این اقدام دقیقاً با رشد ۲۵ درصدی تحویل خودروها در سهماهه دوم سال همراه بود؛ اتفاقی که نشان میدهد روایت تسلا درباره رانندگی خودران دوباره مورد استقبال بازار قرار گرفته است.
برای درک این تغییر، باید بدانید تسلا از روش «حصار الکترونیکی» (Geofencing) استفاده میکند؛ چیزی شبیه به کشیدن یک خط دور محلهای خاص که سیستم فقط در همان محدوده اجازه حرکت دارد. در این مدل، پشتیبانی از راه دور جایگزین راننده انسانی شده تا ایمنی حفظ شود. در حالی که میامی، دالاس و هیوستون اکنون rides بدون نظارت دارند، شهر آستین هنوز در حالت ترکیبی است و برخی خودروها ناظر ایمنی دارند. این وضعیت، تسلا را در رقابتی مستقیم با Waymo قرار میدهد که همزمان شبکه بدون راننده خود را به نشویل گسترش داده است.
همانطور که در تحلیلهای قبلی ما درباره امنیت مدلهای بازمتن اشاره کردیم، اعتماد به سیستمهای خودکار تنها زمانی ممکن است که دادههای آموزشی با واقعیت تطبیق داشته باشند. این گذار به سمت اجرای عملیات توسط مدلهای هوشمند، همسو با رویکرد جدید غولهای فناوری است؛ چنانکه OpenAI نیز با سری GPT-5.6 تمرکز خود را از گفتگوهای متنی به اجرای عملیات تغییر داد تا تعامل با دنیای واقعی را بهبود بخشد. اکنون صنعت به سمت «هوش مصنوعی فیزیکی» (Physical AI) میرود؛ مدلهایی که به جای پیشبینی پیکسلها، قوانین فیزیک را میفهمند.
NVIDIA GEAR با همکاری متخصصانی چون Fei-Fei Li، جیم فن و یوکه ژو، سامانه SimFoundry را معرفی کرده است. این سیستم میتواند یک ویدیو تککاناله RGB از دنیای واقعی را به یک شبیهساز تعاملی تبدیل کند. در این محیط، «دوقلوهای دیجیتالی» ساخته میشوند؛ یعنی نسخههایی از صحنه که در آن اشیا جابهجا شده یا وظایف تغییر کردهاند.
بر اساس مقاله arXiv شماره 2606.28276، سامانه SimFoundry زنجیرهای از بازسازی صحنه، تولید داده و آموزش سیاستها را به صورت یک خط لوله کامل (Pipeline) اجرا میکند. این یعنی رباتها میتوانند روی دادههای مصنوعی نامحدود آموزش ببینند. نتایج خیرهکننده است: اضافه کردن سه دسته از دوقلوهای دیجیتال، نرخ موفقیت رباتها در دنیای واقعی را به ترتیب ۱۷٪، ۲۱٪ و ۴۰٪ افزایش داد. همچنین همبستگی بین ارزیابی شبیهساز و عملکرد واقعی به ۰.۹۱۱ رسید که اجازه میدهد مدلها بدون آموزش مجدد، مستقیماً روی سختافزار فیزیکی پیاده شوند.
در همین راسته، تیم Yann LeCun و استارتاپ AMI مدل AdaJEPA را معرفی کردند. مدلهای دنیای جهان معمولاً بعد از آموزش ثابت میمانند و در محیطهای جدید شکست میخورند. اما AdaJEPA قابلیت «تطبیق در زمان تست» (TTA) را دارد؛ یعنی مدل میتواند حین کار یاد بگیرد. این مدل مثل ورزشکاری است که حین بازی، استراتژی خود را بر اساس حرکت حریف اصلاح میکند. در وظایفی مثل PushObj، نرخ موفقیت برنامهریزی تقریباً دو برابر شد و در PointMaze از ۵۳.۳٪ به ۷۸.۷٪ رسید، در حالی که تأخیر ایجاد شده تنها ۰.۰۱ تا ۰.۰۳ ثانیه بود.
دیگر پژوهشها شامل WM-AMT برای افزایش دقت استدلال تا ۹.۸٪ و LoopWM برای بازبینی گامها قبل از تصمیمگیری است. همچنین یک چارچوب RL کارآمد برای حذف «توهمات بصری» (Visual Hallucinations) — شبیه به خوابهای پریشان مدل که اشیایی را میبیند که وجود ندارند — توسعه یافته است.
مدلهای بینایی-زبانی-عملکرد (VLA) تا پیش از این «غولهای معنایی اما کوتولههای مکانی» بودند. Tencent با معرفی GEM این مشکل را حل کرد. آنها یک سر تولید عمق مبتنی بر انتشار را به بدنه Qwen3-VL اضافه کردند. با اجبار مدل به کدگذاری ساختار سهبعدی، نمرات درک مکانی در VSI-Bench از ۵۷.۹ به ۷۰.۶ رسید و Gemini-3-Pro را پشت سر گذاشت. در وظایف واقعی مثل «جمعآوری میزها»، پیشرفت مدل ۶۷٪ بهبود یافت.
در حوزه استدلال زمانی، کنسرسیومی شامل دانشگاه ژجیانگ و دانشگاه ملی سنگاپور مدل EgoTSR را توسعه دادند (ICML ۲۰۲۶). بسیاری از مدلها دچار «سوگیری ترتیب زمانی» هستند؛ یعنی فکر میکنند فریم آخر همیشه کاملترین است، حتی اگر ربات شیء را انداخته باشد. EgoTSR با استفاده از یک مجموعه داده ۴۶ میلیون نمونهای، به دقت ۹۲.۴٪ در وظایف طولانیمدت رسید و فاصله بین ترتیب رفت و برگشت ویدیو را به ۰.۱ درصد رساند.
برخی پژوهشگران حتی کارایی معماریهای VLA را زیر سؤال بردهاند. دانشگاه مریلند و Cisco Research پیشنهاد کردند که شاید مغزهای زبانی با میلیاردها پارامتر اضافی باشند. آنها با حذف نیمی از بدنه زبانی و تنظیم دقیق (Fine-tuning) — که مثل دادن تخصص پوست به یک پزشک عمومی است — موفق شدند نرخ موفقیت OpenVLA-OFT را از ۹۵٪ به ۹۸.۳٪ برسانند. این یعنی مسیرهای عملیاتی «دستنیافتنی» هستند اما زبان تا حد زیادی تکراری است.
برای حرکت انساننماها، Noitom Robotics سامانه OmniContact را ساخت. این سیستم از «جریان تماس» استفاده میکند؛ یعنی زمان و نحوه لمس بدن با شیء. این روش در تصحیح جابجایی جعبهها به موفقیت ۹۹.۷٪ رسید و میتواند اشیا را به شکلهای پیچیدهای مثل یک قلب مرتب کند.
در چین، بازار رباتیک به سمت سختافزارهای تخصصی و اخلاقیات سخت میرود. «شورای ۱۰۰ ربات انساننمای چین» اخیراً دستورالعملهایی برای رباتهای «همراه عاطفی» صادر کرد. این اقدام پاسخی به ربات U1 شرکت UBTech است که قیمتهای آن تا ۹۹۰ هزار یوان میرسد و با وجود جنجالها، بیش از ۱۳ هزار پیشسفارش دریافت کرده است.
در بخش صنعتی، استارتاپ Guangxiang Technology که در آوریل ۲۰۲۵ تأسیس شد، سرمایه کلانی جذب کرد. مدیرعامل این شرکت، ژانگ تائو، به دنبال مدلهای بنیادین «ذاتاً فیزیکی» است. ربات صنعتی Phi-Bot X1 آنها توانست ۲۱.۵ ساعت متوالی در خط تولید خودرو بدون خطا کار کند و بازدهی بازرسی کیفیت را ۲۵ تا ۴۵ درصد نسبت به نیروی انسانی ارتقا دهد.
اما این پیشرفتها هزینه اجتماعی دارد. General Motors اخیراً ۱۰۰۰ شغل را در Детرویت حذف و ۵۰ ربات همکار AI را جایگزین کرد که منجر به اعتراض شدید اتحادیههای کارگری شد. در مقابل، بازار اجارهای رباتها در حال شکلگیری است. استارتاپهایی مثل Zhiyuan Robotics با پلتفرم RoboShare، خدمات خانگی را با قیمت حدود ۷۴ یوان برای هر ۳ ساعت ارائه میدهند.
در زنجیره تأمین، کمبود ۲۰ درصدی در «کاهندههای هارمونیک» وجود دارد. برای حل این مشکل، شرکتها به یکپارچگی عمودی روی آوردهاند. برای مثال، Li Auto تراشه Mach M100 را برای محاسبات داخلی خودرو ساخت و Zhongke Group تراشهای برای دستهای چیره-دست (Dexterous Hands) با ۲۲ درجه آزادی عرضه کرد. همچنین Yuequan Bionics دست Y-Hand M1 را برای جابجایی اشیای شکننده منتشر کرد.
در سطح جهانی، سازمان ملل مقررات رانندگی خودران را تصویب کرد. XPeng اعلام کرد که تا سال ۲۰۲۷ رانندگی «بدون نقشه» را برای بازارهای جهانی عملیاتی میکند و پیشبینی میکند خودرانی سطح L4 تا L5 ظرف ۳ تا ۵ سال آینده برسد. همچنین ۱۲ شغل جدید در چین، از جمله «تکنسین کاربردی ربات AI»، تعریف شده است. در نمایشگاه CIEI ۲۰۲۶ شانگهای، نزدیک به ۲۰۰ شرکت از جمله Unitree و Fourier Intelligence بیش از ۱۲۰ قرارداد همکاری امضا کردند.
بنیانگذار Unitree معتقد است «لحظه ChatGPT» برای رباتها زمانی میرسد که دو آستانه ۸۰ درصدی (در دقت و مقیاس) طی شود. همچنین شیائومی آخرین مدل رانندگی خودران خود را برای مدیریت سناریوهای پیچیده با مدلهای کوچک، متنباز کرد.
گام بعدی شما
- اگر مدیر کسبوکاری هستید، ارزیابی داراییهای خود را از نرمافزارهای عمومی AI به سمت دادههای فیزیکی اختصاصی و سختافزارهای حسگر تغییر دهید.
- نظارت بر مقررات جدید سازمان ملل برای رانندگی خودران را آغاز کنید تا فرصتهای ورود به بازارهای بینالمللی را از دست ندهید.
- بررسی کنید آیا مدلهای VLM فعلی شما در وظایف مکانی شکست میخورند؟ در این صورت به دنبال مدلهای ادغامشده با عمق (مانند GEM) باشید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر زنجیرهای کمبود قطعات در تولید انبوه رباتها را در گزارش بعدی بررسی خواهیم کرد.




گفتگو