اگر همچنان تصور میکنید برای رسیدن به دقت بالا در یادگیری تقویتشده آفلاین نیازمند فرآیندهای زمانبر حذف نویز هستید، باید نگاهی به معماری BFQ بیندازید. این رویکرد ثابت میکند که میتوان بدون تکرار گامهای محاسباتی، به همان سطح از بیانگری (Expressivity) در سیاستهای کنش دست یافت.
Bootstrapped Flow Q-Learning (BFQ)، که جزئیات آن در مقالهای به تاریخ ۱۰ ژوئن ۲۰۲۶ منتشر شده است، امکان تولید دقیق کنشها را در تنها یک گام — هم در زمان آموزش و هم در زمان استنتاج (Inference) — فراهم میکند. این معماری برخلاف روشهای پیشین، به شبکههای کمکی یا فرآیند تقطیر (Distillation) وابسته نیست.
طبق گزارش منتشرشده در arxiv.org، این چارچوب از طریق یک دیدگاه «تقسیم و تسخیر» (Divide-and-Conquer) روی بردار جابهجایی در مسیر جریان عمل میکند. سازوکار BFQ به شرح زیر است:
- مدل ابتدا جابهجاییهای کوتاهبرد را بر اساس سرعت حاشیهای تطبیق جریان (Flow Matching) یاد میگیرد.
- سپس این مؤلفهها بهصورت بوتاسترپ (Bootstrapped) ترکیب میشوند تا یک نگاشت مستقیم از «نویز به کنش» را در یک گام یاد بگیرند.
- این ساختار، نیاز به آموزشهای چندمرحلهای و تقطیر سیاستها را که برای تسریع مدل انتشار (Diffusion Model) ضروری بودند، حذف میکند.
همانطور که در تحلیل قبلی ما دربارهی محافظت احتمالی (Probabilistic Shielding) و رفع شکافهای ایمنی در RL آفلاین اشاره کردیم، بهینهسازی عملیاتی سیاستها گام بعدی این تکامل است. BFQ دقیقاً بر همین نقطه تمرکز کرده تا تأخیر (Latency) فرآیند حذف نویز را بهطور کامل حذف کند.
بر اساس مستندات ارائهشده، ارزیابیهای گسترده با استفاده از بنچمارک D4RL نشان میدهد که BFQ در حالی که سربار محاسباتی را بهشدت کاهش میدهد، عملکرد خود را در برابر خط Baselineهای سنتی مدلهای انتشار چندگامی حفظ یا بهبود میبخشد.
این تحول، این فرض رایج را که «اصلاح تکرارشونده چندگامی» برای دستیابی به بیانگری بالا در RL آفلاین ضروری است، به چالش میکشد. با اثبات کفایت یک نگاشت تکگامی، BFQ خط لوله آموزش را سادهتر کرده و عاملهای پیچیده RL را برای استقرار در محیطهای بلادرنگ (Real-time) که تأخیر استنتاج در آنها یک محدودیت حیاتی است، کاربردیتر میکند.
گام بعدی شما
- بررسی مقایسهای هزینههای محاسباتی BFQ در مقابل مدلهای Diffusion-QL در محیطهای با ابعاد بالا.
- دنبال کردن احتمال ادغام این رویکرد بوتاسترپ در معماریهای مدلهای جهانی (World Models) برای بهینهسازی بهرهوری نمونهها.
- اختبار مدلهای تکگامی در سناریوهای رباتیک که نیاز به پاسخدهی زیر ۱۰۰ میلیثانیه دارند.
اما این بهینهسازی نرمافزاری تنها بخشی از معما است؛ تأثیر این کاهش محاسبات بر سختافزارهای نسل بعد را در تحلیل ما دربارهی تراشههای Blackwell بررسی کنید.



گفتگو