تصور کنید پهپادی در قلب یک منطقه بحرانی رها شود، بدون اینکه حتی یک ثانیه آموزش دیده باشد، اما باز هم از سقوطهای مرگبار نجات یابد. اگر هنوز تصور میکنید برای رسیدن به اتونومی (Autonomy) کامل، نیاز به میلیاردها دادهی آموزشی است، باید دیدگاه خود را تغییر دهید.
در ۳۰ آوریل ۲۰۲۶، پژوهشگری به نام مهیا رمضانی مطالعهای را در arXiv.org منتشر کرد که در آن سیستمی برای هدایت ایمن پهپادها (UAVs) در سناریوهای امداد و نجات (SAR) معرفی شده است. به نقل از این مقاله، معماری پیشنهادی اجازه میدهد تا پهپادها حتی در شرایط «استقرار بدون پیشآموزش»، با ایمنی بالا در محیطهای خطرناک عملیات کنند.
این چارچوب بر پایه دو لایه مجزا عمل میکند:
- یک مشاور سطح بالا (High-level Advisor) که دستورالعملهای وظایف را به قوانین قطعی (Deterministic Rules) تبدیل میکند.
- یک کنترلکننده یادگیری تقویتشده (Reinforcement Learning Controller) در سطح پایین که بهصورت آنلاین و بر اساس پاداشهای متراکم یاد میگیرد.
طبق اعلام نویسنده، مشاور سطح بالا با پیشنهاد اقدامات خاص و تعیین وزنهای داوری، یک «نرده حفاظتی» ایجاد میکند تا از رفتارهای پیشبینیناپذیر مدل جلوگیری شود. برای بهینهسازی این فرآیند، کنترلکننده پاییندستی از یک مکانیسم بازپخش اولویتبندیشده (Prioritized Replay) استفاده میکند که با متادیتای استخراجشده از قوانین تقویت شده است.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای استقرار مدلهای عاملمحور (Agentic) اشاره کردیم، شکاف میان تئوری و عمل همیشه در «ایمنی لحظهای» بوده است. این سیستم دقیقاً همین شکاف را با ترکیب صلبیتِ قوانین و انعطافپذیری هوش مصنوعی زاینده (Generative AI) در لایهی کنترل، پر میکند.
این متدولوژی در محیطهای غنی از موانع، در دو سناریوی «تحویل هدفهای متحرک» و «تحویل چندهدفه با مدیریت باتری» آزمایش شد. اگرچه درصد دقیقی از کاهش شکستها در گزارش ذکر نشده، اما تأیید شده است که این روش با کاهش پایانهای ناشی از برخورد، کارایی نمونهبرداری (Sample Efficiency) را بهشدت بهبود میبخشد.
اما این تنها بخشی از معماری است؛ اثر این رویکرد بر مدیریت مصرف انرژی در محیطهای پیچیده، بحثی است که در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مقاله مهیا رمضانی در arXiv برای درک جزئیات ریاضی لایهی مشاور.
- مطالعه در مورد تفاوتهای یادگیری تقویتشده آنلاین در مقابل آفلاین برای کاربردهای رباتیک.
- دنبال کردن پیشرفتهای مربوط به ادغام مدلهای جهانی (World Models) با سیستمهای کنترل قطعی.




گفتگو