اگر در حال توسعهی عاملهایی هستید که در محیطهای متغیر شکست میخورند، باید بدانید که مشکل در سرعت واکنش نیست، بلکه در نبودِ تفکر استراتژیک است. تصور کنید سیستمی داشته باشید که پیش از هر حرکت، تمام احتمالات را در یک محیط مجازی تست کند و تنها زمانی اقدام کند که پیروزی تضمین شده باشد.
به نقل از گزارش ۱۶ ژوئن ۲۰۲۶ در وبسایت arxiv.org، معماری جدیدی به نام PACT معرفی شده است که از فروپاشی سیاستهای یادگیری تقویتشده (Reinforcement Learning - RL) در محیطهای ناشناخته جلوگیری میکند. همانطور که در تحلیلهای قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، جداسازی لایهی تصمیمگیری از لایهی اجرا، کلید پایداری در سیستمهای هوشمند است.
در حالی که RL سنتی در تصمیمات لحظهای و واکنشی عالی است، در برنامهریزیهای بلندمدت یا محیطهای نوظهور شکست میخورد. PACT با معرفی یک لایهی «تفکر کند»، این شکاف را پر میکند تا مدلها بهجای تکیه بر شناسایی الگوهای فوری، روی فرآیند برنامهریزی متمرکز شوند.
چارچوب Plan, Align, Commit, Think (PACT) از یک مدل زبانی کوچک (Small Language Model - SLM) با ۲ میلیارد پارامتر بهعنوان ستون فقرات استفاده میکند:
- اعتبارسنجی: طرحهای پیشنهادی از طریق شبیهسازی بررسی میشوند تا ایمنی و امکانپذیری آنها تأیید شود.
- اجرا: پس از تأیید، طرح مستقیماً اجرا میشود و لایهی RL کاملاً دور زده میشود.
- بدون آموزش مجدد: این فرآیند هیچ نیازی به تغییر یا آموزش مجدد سیاستهای RL پایه ندارد.
طبق اعلام پژوهشگران، PACT در آزمونهای سه پیکربندی مختلف از محیط FrozenLake با درجه سختی متفاوت، تمامی مدلهای پایه را شکست داد.
این رویکرد، نقش SLMها را از چتباتهای مستقل به کنترلکنندههای استراتژیک سطحبالا برای سیستمهای واکنشی سطحپایین تغییر میدهد. برای جامعهی فنی، این یعنی مسیر بهینه برای رسیدن به عاملهای قدرتمند، نه مدلهای یکپارچهی غولپیکر، بلکه یک سلسلهمراتب تخصصی است: یک SLM کوچک برای تامل و یک سیاست سریع برای واکنش.
گام بعدی شما
- بررسی کنید که آیا مدلهای SLM فعلی شما میتوانند به عنوان لایهی اعتبارسنجی برای سیستمهای اتوماسیون عمل کنند.
- تأخیر (Latency) شبیهسازی را در محیطهای واقعی بسنجید تا گلوگاه احتمالی PACT در رباتیک را شناسایی کنید.
- بررسی کنید که آیا این مدل در محیطهای پیوسته (Continuous-state) نیز همان عملکرد گسسته را دارد یا خیر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این معماری بر کاهش نیاز به GPUهای حجیم را در گزارش بعدی بررسی خواهیم کرد.




گفتگو