جست‌وجوی وب AgentCore خطاهای زمانی عامل‌های هوش مصنوعی را ۳۴٪ کاهش داد

اگر امروز یک عامل هوش مصنوعی تولیدی را روی یک پایگاه داده برداری استاتیک اجرا می‌کنید، احتمالاً دقت واقع‌گرایانهٔ مدل شما هر ساعت در حال کاهش است. خط لوله‌های تولید بازیابی‌افزا (RAG) شما تاریخ انقضا دارند و به احتمال زیاد این تاریخ همین حالا گذشته است. Amazon Bedrock AgentCore Web Search با انتقال بازیابی از انبارهای نمایه‌شدهٔ دسته‌ای به یک جریان زنده در لحظهٔ پرس‌وجو، این مشکل را حل می‌کند. بر اساس بنچمارک‌های داخلی انجام شده توسط شرکت Twarx با استفاده از مجموعه‌ای شامل ۱۲۰۰ پرس‌وجوی متغیر (Volatile)، این رویکرد نرخ پاسخ‌های نادرست در پرس‌وجوهای حساس به زمان را ۳۴٪ کاهش داده است.

بسیاری از توسعه‌دهندگان برای پیاده‌سازی تولید بازیابی‌افزا (RAG) — که شبیه دانش‌آموزی است که قبل از جواب دادن، اول کتاب درسی را باز می‌کند تا از آن نقل آورد — از پایگاه‌های داده‌ای مثل Pinecone، Weaviate یا OpenSearch استفاده می‌کنند. این ابزارها برای دفترچه‌های راهنمای ثابت یا اسناد سیاستی تغییرناپذیر عالی هستند، اما در حوزه‌های متغیری مثل امور مالی، حقوق یا زیرساخت‌های ابری شکست می‌خورند؛ جایی که واقعیت‌ها سریع‌تر از هر فرآیند نمایه‌سازی (Ingestion Job) تغییر می‌کنند. این شکست منجر به «تله‌ی زوال زمانی» (Temporal Decay Trap) می‌شود؛ یک حالت شکست ترکیبی که در آن هر روزی که یک عامل هوش مصنوعی بدون بازیابی زنده می‌ماند، کیفیت پاسخ‌هایش نسبت به انتظارات کاربر کاهش می‌یابد و یک بدهی SLA پنهان ایجاد می‌کند که هیچ برنامه‌ی بازسازی ایندکس نمی‌تواند آن را جبران کند.

بر اساس یک مقاله در arXiv در سال ۲۰۲۴، اکثر مجموعه‌های دادهٔ RAG در محیط تولید، تنها ۶ تا ۸ هفته پس از نمایه‌سازی به نقطهٔ شکست در دقت (Accuracy-debt inflection point) می‌رسند. پس از این خط، هر روز اضافه‌تر به معنای انحراف (Drift) ترکیبی داده‌هاست. این یک نقص ساختاری است: دنیا به‌طور مداوم در حال حرکت است، اما مجموعه‌های داده در دسته‌های مجزا به‌روز می‌شوند. شکاف میان این دو نرخ، همان بدهی دقت است.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت و پایداری مدل‌های زبانی اشاره کردیم، شکاف میان سرعت تغییر جهان و سرعت به‌روزرسانی مدل‌ها، بزرگ‌ترین نقطه ضعف استقرار تجاری است.

خطر دروغ‌های فصیح

خط لوله‌های RAG با پیام‌های خطای فنی (Stack Traces) شکست نمی‌خورند، بلکه به‌صورت تدریجی و روی یک منحنی دقت خود را از دست می‌دهند. این وضعیت را می‌توان «اطمینان کامل به یک واقعیت منسوخ» نامید. در یک استقرار مربوط به لجستیک در سه ماهه چهارم ۲۰۲۵، شرکت Twarx متوجه شد که یک پایگاه داده برداری ۱۱ هفته قدیمی شده است. وقتی یک مشتری درباره‌ی هزینه‌های اضافی جاری (Surcharges) شرکت‌های حمل‌ونقل پرسید، عامل با تسلط و اعتمادبه‌نفس کامل پاسخ داد، اما اعدادی که ذکر کرده بود از سه هفته قبل تغییر کرده بودند. هیچ‌کس تا دو روز متوجه خطا نشد چون پاسخ «درست» به نظر می‌رسید. این همان «دروغ فصیح» (Fluent Lie) است که اعتماد کاربر را در هزاران تعامل تخریب می‌کند.

سه الگوی شکست در محیط تولید

در استقرارهای مالی، حقوقی و زیرساختی، سه الگوی تکرارشونده از قطع دانش (Knowledge Cutoff) دیده می‌شود:

کهنگی خاموش (Silent Staleness): عامل به مقررات، قیمت یا API اشاره می‌کند که هفته گذشته تغییر کرده است.
تضاد متقاطع (Confident Contradiction): دو پرس‌وجو پاسخ‌های متناقض می‌دهند چون فقط بخشی از مجموعه داده باز-نمایه‌سازی شده است.
تازگی ساختگی (Fabricated Freshness): مدل متوجه شکاف اطلاعاتی می‌شود و برای پر کردن آن، یک واقعیت جدید اما جعلی می‌سازد که منطقی به نظر برسد. این خطرناک‌ترین حالت است چون بسیار معتبر و مقتدرانه خوانده می‌شود.

زمینه: محدودیت‌های ساختاری RAG استاندارد

گزارش شاخص هوش مصنوعی ۲۰۲۴ استنفورد مستند می‌کند که واقع‌گرایی مدل‌ها در برابر بنچمارک‌های حساس به زمان، به‌سرعت افت می‌کند، به محض اینکه جهان از افق آموزش و نمایه‌سازی مدل فراتر می‌رود. این کف تجربی نشان می‌دهد مشکل از هوش مدل نیست، بلکه از «افق دید» (Horizon) آن است.

فقط در مستندات سرویس‌های AWS، هر فصل صدها به‌روزرسانی منتشر می‌شود. یک عملیات بردار معنایی (Embedding) — که شبیه کارت معرفی عددی برای هر واژه است تا همسایگان معنایی‌اش را بشناسد — که هر شب اجرا شود، هنوز پیش از پایان اجرا، از قافله عقب افتاده است. اشتباه اصلی در این استقرارها، برخورد با دانش به‌مثابه یک «انبار» بود، در حالی که دانش باید مانند یک «رودخانه» در نظر گرفته شود.

سرویس Web Search که در ژوئن ۲۰۲۵ عرضه شد، به عنوان یک جزء مدیریتی درجه‌یک در AgentCore Runtime عمل می‌کند. برخلاف پلاگین‌های شخص ثالث یا پروتکل زمینه مدل (MCP) — که فقط روش فراخوانی ابزارها را استاندارد می‌کنند — این یک سرویس بومی AWS است. این ابزار از امنیت IAM، CloudTrail و وضعیت‌های انطباق (Compliance) بهره می‌برد و بررسی‌های امنیتی سازمانی که معمولاً شش هفته طول می‌کشید را به چند روز کاهش می‌دهد. آنتجه بارت، مبلغ ارشد توسعه‌دهندگان در AWS، اشاره می‌کند که تبدیل ابزارها به اجزای مدیریتی به عامل‌ها اجازه می‌دهد تا در هر مقیاسی به‌طور ایمن در مرز اعتماد AWS فعالیت کنند.

پشته تولید AgentCore

ابزار جست‌وجوی وب به مجموعه‌ای از اجزای مدیریتی می‌پیوندد که برای عملیات امن در مقیاس بزرگ طراحی شده‌اند:

AgentCore Runtime: محیط اجرای مرکزی، لایه ارکستراسیون و بستر مدیریتی.
AgentCore Memory: مدیریت حالت‌های پایدار و حافظه.
AgentCore Code Interpreter: محیط اجرای ایزوله (Sandbox) برای کدهای برنامه‌نویسی.
AgentCore Browser Tool: امکان تعامل کامل با DOM (مانند کلیک روی دکمه‌ها، پر کردن فرم‌ها و پیمایش در جریان‌های چند مرحله‌ای).
AgentCore Web Search: اختصاص یافته به بازیابی ساختاریافته و آنی دانش برای مبنی‌سازی (Grounding) پاسخ‌ها در اطلاعات جاری.

توسعه‌دهندگان باید تفاوت Browser Tool و Web Search را بدانند. Browser Tool برای «اقدام» (Action) است و Web Search برای «دانش» (Knowledge). استفاده از مرورگر برای بازیابی ساده اطلاعات، تأخیر (Latency) را به‌طور غیرضروری بالا برده و سطح حملات امنیتی را افزایش می‌دهد. برخورد با این دو به‌عنوان ابزارهای جایگزین، منجر به تولید عامل‌های معیوب در هر دو جهت می‌شود.

سازوکار بازیابی زنده

خط لوله بازیابی در پنج مرحله دقیق در محیط امن AWS اجرا می‌شود:
۱. پرس‌وجوی کاربر: درخواست وارد Runtime می‌شود. لایه ارکستراسیون (چه بومی باشد، چه LangGraph یا AutoGen) تصمیم می‌گیرد که جست‌وجو لازم است. تأخیر در این مرحله ناچیز است.
۲. فرمول‌بندی پرس‌وجو: مدلی مثل Claude 3.5 Sonnet یا Amazon Nova Pro قصد کاربر را به یک پرس‌وجوی جست‌وجوی دقیق تبدیل می‌کند. پرامپت‌های سیستمی ضعیف در این مرحله باعث ایجاد پرس‌وجوهای مبهم و مبنی‌سازی ضعیف می‌شوند.
۳. بازیابی مدیریتی: AgentCore Web Search بازیابی زنده را اجرا می‌کند. هیچ داده خام کاربر بدون لایه میانجی کنترل‌شده AWS به تامین‌کنندگان خارجی ارسال نمی‌شود. تأخیر در اینجا هزینه غالب است و معمولاً بین ۳۰۰ تا ۶۰۰ میلی‌ثانیه است.
۴. نتایج ساختاریافته: نتایج به‌صورت تکه‌های کوتاه، تمیز و قابل استناد (Citable Snippets) بازمی‌گردند، نه HTML خام، و سپس به پنجره زمینه (Context Window) ارسال می‌شوند.
۵. سنتز مبنی‌شده: مدل پاسخ نهایی را با استنادات صریح تولید می‌کند.

چرا باز-نمایه‌سازی یک راهکار موقتی است؟

راه‌حل غریزی برای رفع کهنگی این است که «بیشتر نمایه‌سازی کنیم». این در واقع یک الگوی دسته‌ای (Scheduled-batch) است که لباس رئال-تایم پوشیده است. حتی یک خط لوله شبانه هم یک نقطه کور ۲۴ ساعته باقی می‌گذارد. علاوه بر این، باز-بردارسازی شبانه یک مجموعه ۵۰۰ هزار سندی، بسیار گران و کند است و اغلب ساعت‌ها طول می‌کشد تا تنها یک پاسخ تازه‌تر ارائه دهد. شما می‌توانید بازه زمانی را کوتاه‌تر کنید، اما هرگز نمی‌توانید به تأخیر صفر برسید. مشکل با افزایش تکرار حل نمی‌شود، بلکه با تغییر «زمان» بازیابی حل می‌شود: یعنی انتقال بازیابی به لحظه پرس‌وجو.

هزینه کهنگی و بازگشت سرمایه جست‌وجوی زنده

طبق قیمت‌گذاری ۲۰۲۵ Pinecone، نگهداری یک خط لوله باز-نمایه‌سازی هفتگی برای ۵۰۰ هزار سند، بین ۸۰۰۰ تا ۲۵۰۰۰ دلار در ماه هزینه دارد (شامل محاسبات Embedding، ذخیره‌سازی و زمان مهندسی). این هزینه مستقل از حجم پرس‌وجوها، ثابت است.

جست‌وجوی وب AgentCore این مدل را به «پرداخت به ازای هر پرس‌وجو» تغییر می‌دهد. برای شرکتی با ۱۰ هزار پرس‌وجوی روزانه که در ۳۰٪ موارد نیاز به جست‌وجو دارد، انتقال بازیابی متغیر به لحظه پرس‌وجو می‌تواند هزینه‌های کل را ۶۰ تا ۷۰٪ کاهش دهد. دلیل این امر آن است که سازمان دیگر برای بردارسازی دانشی هزینه نمی‌کند که در زمان رسیدن به مقصد، منسوخ شده است. در یک مورد ناشناس، یک استارت-آپ فین‌تک در مرحله Series B، هزینه‌های باز-نمایه‌سازی ماهانه خود را پس از انتقال جست‌وجوهای مربوط به مقررات و قیمت‌ها به بازیابی زنده، ۳۴٪ کاهش داد.

جزئیات: الگوهای ادغام و ارکستراسیون

برای استقرار مؤثر، توسعه‌دهندگان می‌توانند از دو الگو استفاده کنند:

استفاده درون‌خطی (Inline): مدل به‌طور خودکار تصمیم می‌گیرد چه زمانی از Web Search از طریق مکانیسم Tool-use در Bedrock استفاده کند. این ساده‌ترین مسیر و برای عامل‌های چندمنظوره مناسب است.
تزریق در لایه ارکستراسیون: استفاده از فریم‌ورک‌هایی مثل LangGraph، AutoGen یا CrewAI برای فراخوانی قطعی ابزارهای AgentCore از طریق API در گره‌های (Nodes) خاص. این روش کنترل پیش‌بینی‌پذیری روی زمان اجرای بازیابی را فراهم می‌کند.

این سیستم با سرمایه‌گذاری‌های فعلی شما سازگار است و نیازی به حذف ارکستراسیون‌های موجود نیست. LangGraph گراف‌های وضعیت‌مند را فراهم می‌کند، AutoGen روی هماهنگی‌های گفتگو-محور تمرکز دارد و CrewAI تفویض اختیار مبتنی بر نقش را مدیریت می‌کند. هیچ‌کدام از این‌ها به‌تنهایی مشکل تازگی بازیابی را حل نمی‌کنند، اما همگی می‌توانند AgentCore را به‌عنوان بستر زیربنایی فراخوانی کنند.

جزئیات: حفاظ‌های اجرایی

نویسنده درباره چهار اشتباه رایج که باعث شکست عامل‌ها در محیط تولید می‌شود هشدار می‌دهد:

نبود استنادات: عدم اجبار مدل به ذکر URLهای منبع در پرامپت سیستمی. راه حل: افزودن دستور «هر ادعای واقع‌گرایانه را با URL منبع ذکر کن» و تنظیم requireCitations: True در پیکربندی ابزار. این یک رویکرد دو لایه برای اطمینان کامل است.
توهم در نتایج تهی (Null): عدم دستور به مدل برای گفتن «نتیجه‌ای یافت نشد» وقتی جست‌وجو خروجی ندارد. راه حل: دستور صریح به مدل برای گزارش نتایج تهی جهت جلوگیری از «تازگی ساختگی».
سردرگمی ابزاری: تلاش برای استفاده از Web Search برای کارهای تعاملی DOM. راه حل: رزرو Web Search فقط برای مبنی‌سازی خواندنی (Read-only) و استفاده از Browser Tool برای تعاملات.
جهش هزینه‌ها: اجرای جست‌وجو در هر نوبت گفتگو. راه حل: قرار دادن جست‌وجو پشت لایه تشخیص قصد (Intent Detection)، محدود کردن maxResults برای کنترل هزینه هر فراخوانی و نظارت بر تعداد درخواست‌ها در CloudWatch.

معماری ترکیبی برنده

بازیابی زنده جایگزین کامل RAG نیست. برای پاسخ‌های زیر ۲۰۰ میلی‌ثانیه (مثل دستیارهای صوتی بلادرنگ یا دستیارهای معاملاتی با فرکانس بالا)، جست‌وجوی وب Synchronous به دلیل تأخیر ۳۰۰ تا ۶۰۰ میلی‌ثانیه‌ای از نظر معماری ناسازگار است. هیچ فراخوانی بازیابی مدیریتی نمی‌تواند در رقابتی با جست‌وجوی برداری در حافظه (In-memory) پیروز شود.

همچنین، AgentCore Web Search برای دانش عمومی متغیر است، نه مجموعه‌های داده محرمانه داخلی. مؤثرترین معماری، مدل ترکیبی با یک طبقه‌بندی‌کننده قصد (Intent Classifier) است:

دانش پایدار و محرمانه: هدایت به Bedrock Knowledge Bases، Amazon Kendra یا OpenSearch برای بازیابی برداری خصوصی زیر ۱۰۰ میلی‌ثانیه. این بخش شامل اسناد داخلی، سیاست‌ها و دفترچه‌های راهنمای ثابت است.
دانش عمومی متغیر: هدایت به AgentCore Web Search برای داده‌های زنده (مثل گزارشات جاری SEC، به‌روزرسانی‌های AWS Service Health Dashboard یا قیمت‌های لحظه‌ای).
فهرست‌های مجاز (Allowlists): در صنایع تنظیم‌شده (مالی/حقوق)، سازندگان باید یک لایه امتیازدهی به نتایج یا لیست سفید (مثل Reuters یا EDGAR) اضافه کنند تا از مبنی‌سازی بر اساس محتواهای سئو شده و بی‌اعتبار جلوگیری شود. بدون این لایه، بازیابی زنده می‌تواند سریع‌ترین مسیر به سمت «مزخرفات معتبر» باشد.

این رویکرد «تله‌ی زوال زمانی» را می‌شکند و سرعت و حریم خصوصی بازیابی داده‌های داخلی را حفظ می‌کند. تا سال ۲۰۲۷، عامل‌هایی که فاقد این آگاهی زمانی (Temporal Awareness) باشند، احتمالاً به‌عنوان سیستم‌های میراثی (Legacy) شناخته خواهند شد. چرخه هایپ گارتنر ۲۰۲۴، هوش مصنوعی عامل‌محور را نزدیک به «قله انتظارات متورم» قرار داده است؛ گودال بعدی با عامل‌هایی تعریف خواهد شد که روی داده‌های منسوخ دچار توهم می‌شوند.

آینده‌نگری پشته فناوری

تا نیمه اول ۲۰۲۶، بازیابی ترکیبی به معماری مرجع تبدیل خواهد شد که توسط نقشه‌های راه (Blueprints) معماران راهکارهای AWS هدایت می‌شود. در نیمه دوم ۲۰۲۶، انتظار می‌رود امتیازدهی بومی به اعتبار منابع (Source-credibility scoring) در لایه مدیریتی برای موارد نظارتی و قابل حسابرسی اضافه شود.

پشته تولید پایدار اکنون از سه لایه تشکیل شده است: ارکستراسیون (LangGraph/AutoGen)، بازیابی مدیریتی (AgentCore) و حافظه اختصاصی (Bedrock Knowledge Bases). برخلاف رقبایی مثل OpenAI، Anthropic یا گوگل — که توسعه‌دهندگان را مجبور می‌کنند مرزهای ادغام را خودشان مدیریت کنند — مزیت ساختاری AgentCore یکپارچگی کامل با استانداردهای امنیتی و انطباق AWS است. برای سازمان‌هایی که در حال حاضر در AWS هستند، این امر اصطکاک خرید (Procurement Friction) را حذف می‌کند؛ اصطکاکی که باعث مرگ عامل‌های بیشتری می‌شود تا بودجه‌های تأخیر.

جزئیات: گام‌های استقرار عملی

پیاده‌سازی AgentCore Web Search نیازمند پیش‌نیازهای خاص و پیکربندی ساختاریافته است. سازندگان باید اطمینان حاصل کنند که یک حساب AWS با دسترسی Bedrock دارند، AgentCore Runtime در یک منطقه (Region) پشتیبانی‌شده مستقر شده است و یک نقش IAM با دسترسی‌های bedrock:InvokeModel و agentcore:* دارند.

سازگاری مدل‌ها و پیکربندی:

مدل‌های سازگار: Claude 3.5 Sonnet و Amazon Nova Pro در زمان عرضه سازگار هستند. Claude 3.5 Sonnet به‌ویژه در فرمول‌بندی پرس‌وجو قوی است، در حالی که Amazon Nova Pro اقتصاد بهتری از نظر هزینه و تأخیر ارائه می‌دهد.
پیکربندی ابزار: در تعریف عامل، ابزار به صورت type: 'web_search' تعریف می‌شود. پیکربندی‌های کلیدی شامل maxResults (برای محدود کردن تأخیر و هزینه) و requireCitations: True (حیاتی برای خروجی‌های نظارتی) است.
مهندسی پرامپت سیستمی: مؤثرترین اقدام، استفاده از پرامپتی است که دستور دهد: «هنگام استفاده از جست‌وجوی وب، باید برای هر ادعای واقع‌گرایانه URL منبع را ذکر کنی. اگر جست‌وجوی وب نتیجه‌ای یافت نکرد، صراحتاً اعلام کن. هرگز تازگی را جعل نکن».

اعتبارسنجی آمادگی تولید:
پیش از عرضه، عامل‌ها باید چهار بررسی اعتبارسنجی خاص را طی کنند:

تست‌های ادعای تازگی: پرس‌وجو درباره رویدادهایی که پس از تاریخ آموزش مدل رخ داده‌اند.
بنچمارک‌های تأخیر: تست افزودنی تأخیر ۳۰۰-۶۰۰ میلی‌ثانیه‌ای در شرایط ترافیک بالا (High Concurrency).
رفتار در نتایج تهی: تأیید اینکه عامل در صورت عدم یافتن نتیجه توسط جست‌وجو، دچار توهم نشود.
نظارت بر هزینه: متصل کردن هشدار‌های CloudWatch برای شناسایی جهش‌های ناگهانی در تعداد فراخوانی‌ها.

تأثیر بر کاربردهای نام‌برده:

عملیات IT: انتقال عامل‌ها از دستورالعمل‌های (Runbooks) استاتیک به داده‌های زنده AWS Service Health Dashboard و مستندات جاری، که منجر به کاهش حوادث توهم در زمان MTTR می‌شود.
پژوهش‌های مالی: انتقال از نسخه‌های استاتیک گزارشات SEC به داده‌های زنده EDGAR، که به عامل‌ها اجازه می‌دهد اصلاحات گزارشات را در همان روز انتشار ببینند.
تحلیل رقابتی: انتقال از سیستم‌های چند-عاملی با داده‌های هفته‌ای را به جریان‌های کاری با تازگی لحظه‌ای، که «باستان‌شناسی داده‌ها» را به بینش‌های آنی تبدیل می‌کند.

گام بعدی شما

اگر از RAG استفاده می‌کنید، نرخ «کهنگی داده‌ها» را در کاربردهای خود اندازه‌گیری کنید تا نقطه شکست دقت را بیابید.
برای کاهش هزینه‌های Embedding، متغیرهای عمومی را از حافظه برداری خارج کرده و به ابزار جست‌وجوی زنده منتقل کنید.
در پرامپت‌های سیستمی خود، مکانیسم requireCitations را برای جلوگیری از «دروغ‌های فصیح» فعال کنید.

اما تأثیر این معماری بر مصرف حافظه در مقیاس میلیونی حتی پیچیده‌تر است — به تحلیل ما درباره‌ی بهینه‌سازی KV Cache در مدل‌های بزرگ مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.