تصور کنید ساعتها وقت صرف اجرای مجدد یک عامل کدنویسی کنید، چون یک مورد خاص (edge case) را نادیده گرفته است. لنگچین (LangChain) اکنون با معرفی RubricMiddleware، این بارهی بازبینی را از دوش برنامهنویس برداشته و به خودِ سیستم میسپارد.
بیشتر عاملهای هوش مصنوعی به صورت احتمالی عمل میکنند. یعنی یک دستور که امروز جواب میدهد، شاید فردا شکست بخورد. این نوسان باعث میشود توسعهدهندگان در چرخهای از تشخیص دستی خطاها گیر کنند. مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — ذاتاً غیرقطعی است. همانطور که در تحلیلهای قبلی ما دربارهی معماریهای عاملمحور اشاره کردیم، کنترل این عدمقطعیت سختترین بخش توسعه است. به نقل از وبلاگ لنگچین، این قابلیت جدید برای عاملهای عمیق (Deep Agents)، روشی ساختاریافته برای تأیید موفقیت ارائه میدهد.
این سیستم از یک معماری دو-عاملی استفاده میکند. یک عامل اصلی راه حل را تولید میکند و یک «عامل ارزیاب» (Grader Agent) — که معمولاً مدل کوچکتر و ارزانتری مثل Claude Haiku 4.5 است — کار را بر اساس یک دستورالعمل (Rubric) بررسی میکند. بر اساس مستندات این ابزار، اجزای فنی کلیدی عبارتاند از:
- یکپارچگی با ابزارها: ارزیاب میتواند ابزارهای خاصی (مثل
run_test_suite) را اجرا کند تا به جای حدس زدن، شواهد سخت جمع کند. - تزریق بازخورد: اگر معیاری رد شود، ارزیاب بازخوردی هدفمند میدهد که دوباره به گفتگوی عامل اصلی تزریق میشود.
- سقف تکرار: این فرآیند تا زمان برآورده شدن تمام معیارها یا رسیدن به حد مجاز (مثلاً
max_iterations: 5) تکرار میشود.
برای توسعهدهندگان، این یعنی تغییر رویکرد از «بفرست و دعا کن» به یک فرآیند مهندسی قابلتأیید. حالا برنامهنویس دیگر نیازی نیست فرآیند اجرای عامل را بازبینی کند؛ بلکه باید خودِ «دستورالعمل ارزیابی» را بهینه کند.
گام بعدی شما
- مستندات لنگچین را برای پیادهسازی پایداری دستورالعملها (Rubric Persistence) بررسی کنید.
- برای کاهش هزینه، از مدلهای کوچکتر برای نقش ارزیاب استفاده کنید.
- یک «تعریف از پایان» (Definition of Done) دقیق و سختگیرانه برای وظایف پیچیده بنویسید.
اما چالش اصلی در مقیاسبندی این حلقهها، مدیریت هزینههای استنتاج است — به تحلیل ما دربارهی بهینهسازی GPU مراجعه کنید.




گفتگو