اگر در حال ساخت هوش مصنوعی هستید که بهجای بازیابی سادهی دادهها، واقعاً وظایفی را اجرا کند، دیگر با پرامپتنویسی سر و کار ندارید؛ شما در حال مهندسی یک سیستم توزیعشده هستید. در ۱۹ ژوئن ۲۰۲۶، یک تحلیل عملی در وبسایت dev.to افشا کرد که جهش به سمت تولید بازیابیافزای عاملمحور (Agentic RAG) یک کابوس زیرساختی است که در تئوری عالی عمل میکند اما در محیط عملیاتی شکست میخورد.
در حالی که تولید بازیابیافزا (RAG) — شبیه دانشآموزی که قبل از جواب دادن، اول کتاب درسی را باز میکند و از آن نقل میآورد — صرفاً حافظهی مدل را تقویت میکند، سیستمهای عاملمحور (Agentic) دستهای لازم برای اثرگذاری بر آن حافظه را فراهم میکنند. طبق گزارش این منبع، برخلاف RAG ساده که یک مسیر مستقیم از بازیابی تا پاسخ است، مدلهای عاملمحور از یک حلقهی «مشاهده-تفکر-اقدام» استفاده میکنند. این سازوکار به مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — اجازه میدهد تصمیم بگیرد کدام منبع داده را جستوجو کند، پرسوجو را بنویسد و تا زمان تکمیل وظیفه (مثلاً تسویه یک صورتحساب مشتری) تکرار کند.
همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، پیچیدگی لایههای میانی همواره ریسک خطا را بالا میبرد. در واقع، این چالشها نشان میدهند که چرا حتی مدلهای قدرتمندتر هم نمیتوانند تمامی نقصهای عملیاتی عاملهای هوش مصنوعی را برطرف کنند. توسعهدهندگانی که از چارچوبهایی مثل LangChain استفاده میکنند، اکنون باید این چرخشها را بهعنوان «ماشینهای وضعیت» مدیریت کنند. بر اساس مستندات فنی، هزینههای عملیاتی این مسیر بسیار سنگین است:
- مسیریابی ابزار: مدل باید بهصورت لحظهای تصمیم بگیرد کدام پایگاهداده یا API را فراخوانی کند. برای کاهش این پیچیدگی، هگینگفیس با معرفی استاندارد ARD تلاش کرده تا فرآیند جستوجوی ابزارها برای عاملها را خودکار کند.
- حلقههای بینهایت: عاملها ممکن است بدون محدودیتهای سختافزاری در تفکرات بازگشتی گیر کنند.
- تأخیر (Latency): درخواستی که در RAG استاندارد ۲ ثانیه زمان میبرد، در حلقههای عاملمحور به دلیل رفتوبرگشتهای مکرر مدل، به ۱۵ تا ۲۰ ثانیه میرسد.
این تغییر مسیر به این معناست که تمرکز صنعت باید از مهندسی پرامپت (Prompt Engineering) — هنر سؤال درست پرسیدن برای گرفتن بهترین جواب — به سمت «ارکستراسیون» یا مدیریت هماهنگ سیستمها برود. در عمل، یک مدل قدرتمند در یک خط لوله (Pipeline) ساده، اغلب در کارهای ابتدایی از یک سیستم پیچیده عاملمحور بهتر عمل میکند. در واقع، هوش مصنوعی عاملمحور کمتر به هوش مدل و بیشتر به پایداری داربستهای نرمافزاری اطراف آن وابسته است؛ رویکردی که پروژههایی مانند Clioloop با ترکیب مدلهای ارزانقیمت برای شبیهسازی کیفیت مدلهای پیشرو سعی در بهینهسازی آن دارند.
گام بعدی شما
- پیش از سپردن کنترل به مدل، جریانهای ابزار مورد نیاز خود را بهصورت یک گراف صلب و محدود ترسیم کنید.
- میزان مصرف توکن (Token) — تکههای کوچک متن که مدل میخورد — را در هر چرخه بهدقت رصد کنید تا از تخلیه بودجه در حلقههای بینهایت جلوگیری شود.
- برای وظایف ساده، بهجای پیچیدگی عاملمحور، از خط لولههای خطی استفاده کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو