اگر تصور میکنید افزایش دفعات بازبینی (iteration) در عاملهای پژوهشی لزوماً به خروجی کامل منجر میشود، سخت در اشتباهید. باید بدانید که این سیستمها در مسیر اصلاح خطاها، دستاوردهای قبلی خود را فراموش میکنند و دچار عقبگرد میشوند.
طبق گزارشی که در ۹ ژوئن ۲۰۲۶ در arXiv.org منتشر شد، عاملهای پژوهش عمیق (Deep Research Agents - DRAs) قادر به حفظ بهبودهای کیفی در چرخههای متوالی نیستند. این مطالعه فاش میکند که مدلها در هنگام بازبینی گزارشها، در حدود ۲۴٪ از معیارهایی که پیشتر درست کرده بودند، دوباره دچار خطا میشوند. در واقع، توانایی اصلاح یک سند به معنای توانایی قابلاتکا در بهبود مستمر آن نیست.
بیشتر بنچمارکهای فعلی، عاملها را بر اساس خروجیهای تکمرحلهای (single-shot) ارزیابی میکنند و ماهیت تکرارپذیر پژوهشهای حرفهای را نادیده میگیرند. همانطور که در تحلیلهای قبلی ما دربارهی محدودیتهای حافظهی مدلهای زبانی اشاره کردیم، مدیریت حالت (state) در توالیهای طولانی همواره یک چالش بوده است. در حالی که صنعت به سمت محققان خودکار حرکت میکند، درک این نکته که مدلها واقعاً از سیگنالهای تشخیصی درس میگیرند یا صرفاً دچار توهم (Hallucination) در مورد بهبودها میشوند، برای استقرار در حوزههای فنی حساس حیاتی است.
پژوهشگران برای بررسی این موضوع، متدی به نام استنتاج شکاف پژوهشی (Research Gap Inference - RGI) را پیاده کردند که معیارهای پاسشوده و نشده را تحلیل کرده و راهنماییهای هدفمند ارائه میدهد. بر اساس مستندات این پژوهش، سه نتیجه متمایز بهدست آمد:
- خود-بازتابی (Self-reflection) بهبود خالص ناچیزی ایجاد میکند؛ زیرا نرخ اصلاح معیارها تقریباً با نرخ بازگشت خطاها برابر است.
- یک دور بازخورد در سطح فرآیند، جهشی قابلتوجه ایجاد میکند و امتیازهای نرمالشده را ۸ تا ۱۵ واحد افزایش میدهد (با نرخ پذیرش ۳۵ تا ۴۰ درصدی).
- دورههای بعدی نمیتوانند این دستاوردها را تجمیع کنند؛ چرا که عاملها هنگام بازنویسی کامل گزارش برای رفع شکافهای جدید، اطلاعات درستِ قبلی را حذف میکنند.
این یافته، این فرض رایج در صنعت را که افزایش تکرارها یا بهینهسازی پرامپتها لزوماً به خروجی کامل میرساند، به چالش میکشد. تحلیل ما نشان میدهد که این یک محدودیت معماری در نحوه مدیریت سازگاری جهانی توسط DRAs است. به همین دلیل، میدان باید از الگوی «بازنویسی کامل سند» به سمت ویرایشهای ماژولار و دانهبندیشده حرکت کند تا از این عقبگرد فاجعهبار جلوگیری شود.
گام بعدی شما
- برای پیادهسازی حلقههای بازخورد هدفمند در جریانهای کاری خود، کد منتشرشده برای RGI را بررسی کنید.
- استراژیهای بازنویسی کامل را در عاملهای خود جایگزین متدهای ویرایش بخشی (Granular Editing) کنید.
- پایش کنید که آیا این عقبگردها ناشی از اشباع پنجره متنی (Context Window) است یا شکست در برنامهریزی بلندمدت.
اما تأثیر این نقص در مدلهای استدلالی جدیدتر حتی پیچیدهتر است — به بررسی ما دربارهی مدلهای Reasoning مراجعه کنید.
گفتگو