اگر امروز یک ربات صنعتی را در خط تولید قرار دهید، گلوگاه اصلی شما سختافزار نیست، بلکه هزاران ساعت زمانی است که انسانها برای تنظیم کدهای هر شیء جدید صرف میکنند. در ۱۷ ژوئن ۲۰۲۶، پژوهشگران Nvidia، دانشگاه کارنگی ملون و دانشگاه برکلی راهی را نمایش دادند که این هزینههای انسانی را با استفاده از عامل (Agent) — شبیه به کارمندی که نه تنها دستور میگیرد، بلکه خودش برای رسیدن به هدف برنامهریزی میکند و ابزار میسازد — به کلی حذف میکند.
به گزارش وبسایت the-decoder.com، سامانهی جدید ENPIRE چرخهٔ دستی جمعآوری داده را با یک حلقهی خودبهبوددهنده جایگزین کرده است. در این مدل، هوش مصنوعی ابتدا یک استراتژی مینویسد، آن را روی سختافزار تست میکند، نتیجه را ارزیابی کرده و سپس کد را برای تلاش بعدی ویرایش میکند. همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، اتوماسیون در لایههای زیرساختی کدنویسی، ریسکهای جدیدی را ایجاد میکند اما سرعت پیشرفت را بهشدت بالا میبرد. این رویکرد یادگیری مستمر، یادآور تلاشهای اخیر برای جلوگیری از تکرار اشتباهات عاملها از طریق حافظههای مشترک است تا بهرهوری در کدنویسی خودکار افزایش یابد.
طبق مستندات این پژوهش، سیستم در دو فاز عمل میکند:
- فاز اول: عامل ابزارهای ارزیابی خود را میسازد و توابع پاداش را بر اساس ویدئوهای کوتاه طراحی میکند تا موفقیت را از شکست تشخیص دهد.
- فاز دوم: عامل مقالات پژوهشی را میخواند، فرضیه شکل میدهد و مستقیماً کدهای آموزشی را با روشهای یادگیری تقویتی (Reinforcement Learning) ویرایش میکند.

برای مقیاسپذیری، این تیم از هشت ایستگاه رباتیک دو-بازو YAM استفاده کرد. این رباتها از طریق Git با یکدیگر هماهنگ میشوند تا «دستورپختهای» موفق را به اشتراک بگذارند. این هوش جمعی باعث شد زمان حل آزمون Push-T از ۵ ساعت (برای یک ربات) به تنها ۲ ساعت (برای ۸ ربات) کاهش یابد. در عملیات جایگذاری پین، این عاملها سریعتر از روشهای انسانی به موفقیت ۱۰۰٪ رسیدند. چنین استانداردهایی در نظارت بر مدلها، با رویکردهایی مانند هارنس در ROS 2 همسو است که به دنبال استانداردسازی اجرای مدلهای هوش مصنوعی در دنیای فیزیکی هستند.

اما این جهش، یک موازنه جدید را پیش روی ما میگذارد: هزینه محاسباتی در برابر زمان انسانی. ناوگانهای بزرگتر سریعتر به هدف میرسند اما بودجهی توکن (Token) — تکههای کوچکی از متن که مدل مثل برشهای کیک میخورد — را با سرعت بیشتری میسوزانند. این چالش اقتصادی، دقیقاً همان نقطهای است که برخیExperiments با هزینههای بالای توکن بدون رسیدن به درآمد یا خروجی تجاری، با بنبست مواجه شدند. همچنین شکاف بین شبیهسازی و واقعیت همچنان پابرجاست؛ ۲ مورد از ۳ عاملی که آزمون Push-T را در شبیهساز پاس کردند، در دنیای واقعی به دلیل اصطکاکهای پیشبینی نشده شکست خوردند.
گام بعدی شما
- بررسی تعامل بین LLMها و سختافزار در پروژههای متنباز رباتیک.
- تحلیل هزینهی توکن در مقیاس صنعتی برای ارزیابی توجیه اقتصادی اتوماسیون کدنویسی.
- دنبال کردن توسعهی مدلهای استدلالی در محیطهای غیرestandard که دستورپختهای Git در آنها کار نمیکنند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو