گزارش arXiv: بازگشت ۲۴ درصدی خطاهای اصلاح‌شده در خروجی‌های عامل‌های پژوهشی

اگر تصور می‌کنید افزایش دفعات بازبینی (iteration) در عامل‌های پژوهشی لزوماً به خروجی کامل منجر می‌شود، سخت در اشتباهید. باید بدانید که این سیستم‌ها در مسیر اصلاح خطاها، دستاوردهای قبلی خود را فراموش می‌کنند و دچار عقب‌گرد می‌شوند.

طبق گزارشی که در ۹ ژوئن ۲۰۲۶ در arXiv.org منتشر شد، عامل‌های پژوهش عمیق (Deep Research Agents - DRAs) قادر به حفظ بهبودهای کیفی در چرخه‌های متوالی نیستند. این مطالعه فاش می‌کند که مدل‌ها در هنگام بازبینی گزارش‌ها، در حدود ۲۴٪ از معیارهایی که پیش‌تر درست کرده بودند، دوباره دچار خطا می‌شوند. در واقع، توانایی اصلاح یک سند به معنای توانایی قابل‌اتکا در بهبود مستمر آن نیست.

بیشتر بنچمارک‌های فعلی، عامل‌ها را بر اساس خروجی‌های تک‌مرحله‌ای (single-shot) ارزیابی می‌کنند و ماهیت تکرارپذیر پژوهش‌های حرفه‌ای را نادیده می‌گیرند. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی محدودیت‌های حافظه‌ی مدل‌های زبانی اشاره کردیم، مدیریت حالت (state) در توالی‌های طولانی همواره یک چالش بوده است. در حالی که صنعت به سمت محققان خودکار حرکت می‌کند، درک این نکته که مدل‌ها واقعاً از سیگنال‌های تشخیصی درس می‌گیرند یا صرفاً دچار توهم (Hallucination) در مورد بهبودها می‌شوند، برای استقرار در حوزه‌های فنی حساس حیاتی است.

پژوهشگران برای بررسی این موضوع، متدی به نام استنتاج شکاف پژوهشی (Research Gap Inference - RGI) را پیاده کردند که معیارهای پاس‌شوده و نشده را تحلیل کرده و راهنمایی‌های هدفمند ارائه می‌دهد. بر اساس مستندات این پژوهش، سه نتیجه متمایز به‌دست آمد:

خود-بازتابی (Self-reflection) بهبود خالص ناچیزی ایجاد می‌کند؛ زیرا نرخ اصلاح معیارها تقریباً با نرخ بازگشت خطاها برابر است.
یک دور بازخورد در سطح فرآیند، جهشی قابل‌توجه ایجاد می‌کند و امتیازهای نرمال‌شده را ۸ تا ۱۵ واحد افزایش می‌دهد (با نرخ پذیرش ۳۵ تا ۴۰ درصدی).
دوره‌های بعدی نمی‌توانند این دستاوردها را تجمیع کنند؛ چرا که عامل‌ها هنگام بازنویسی کامل گزارش برای رفع شکاف‌های جدید، اطلاعات درستِ قبلی را حذف می‌کنند.

این یافته، این فرض رایج در صنعت را که افزایش تکرارها یا بهینه‌سازی پرامپت‌ها لزوماً به خروجی کامل می‌رساند، به چالش می‌کشد. تحلیل ما نشان می‌دهد که این یک محدودیت معماری در نحوه مدیریت سازگاری جهانی توسط DRAs است. به همین دلیل، میدان باید از الگوی «بازنویسی کامل سند» به سمت ویرایش‌های ماژولار و دانه‌بندی‌شده حرکت کند تا از این عقب‌گرد فاجعه‌بار جلوگیری شود.

گام بعدی شما

برای پیاده‌سازی حلقه‌های بازخورد هدفمند در جریان‌های کاری خود، کد منتشرشده برای RGI را بررسی کنید.
استراژی‌های بازنویسی کامل را در عامل‌های خود جایگزین متدهای ویرایش بخشی (Granular Editing) کنید.
پایش کنید که آیا این عقب‌گردها ناشی از اشباع پنجره متنی (Context Window) است یا شکست در برنامه‌ریزی بلندمدت.

اما تأثیر این نقص در مدل‌های استدلالی جدیدتر حتی پیچیده‌تر است — به بررسی ما درباره‌ی مدل‌های Reasoning مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

خود-بازتابی (Self-reflection) بهبود خالص ناچیزی ایجاد می‌کند؛ زیرا نرخ اصلاح معیارها تقریباً با نرخ بازگشت خطاها برابر است.
یک دور بازخورد در سطح فرآیند، جهشی قابل‌توجه ایجاد می‌کند و امتیازهای نرمال‌شده را ۸ تا ۱۵ واحد افزایش می‌دهد (با نرخ پذیرش ۳۵ تا ۴۰ درصدی).
دوره‌های بعدی نمی‌توانند این دستاوردها را تجمیع کنند؛ چرا که عامل‌ها هنگام بازنویسی کامل گزارش برای رفع شکاف‌های جدید، اطلاعات درستِ قبلی را حذف می‌کنند.

گام بعدی شما

برای پیاده‌سازی حلقه‌های بازخورد هدفمند در جریان‌های کاری خود، کد منتشرشده برای RGI را بررسی کنید.
استراژی‌های بازنویسی کامل را در عامل‌های خود جایگزین متدهای ویرایش بخشی (Granular Editing) کنید.
پایش کنید که آیا این عقب‌گردها ناشی از اشباع پنجره متنی (Context Window) است یا شکست در برنامه‌ریزی بلندمدت.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: بازگشت ۲۴ درصدی خطاهای اصلاح‌شده در خروجی‌های عامل‌های پژوهشی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: بازگشت ۲۴ درصدی خطاهای اصلاح‌شده در خروجی‌های عامل‌های پژوهشی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: بازگشت ۲۴ درصدی خطاهای اصلاح‌شده در خروجی‌های عامل‌های پژوهشی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: بازگشت ۲۴ درصدی خطاهای اصلاح‌شده در خروجی‌های عامل‌های پژوهشی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران