اگر عامل هوش مصنوعی شما در هر جلسه یک اشتباه تکراری را مرتکب میشود، یعنی سیستم اندازهگیری شما حلقه-بسته نیست. باید بدانید که اکثر توسعهدهندگان برای ایجاد حافظه به تولید بازیابی-افزا (RAG) — مثل دانشآموزی که قبل از جواب دادن، اول کتاب درسی را باز میکند و از آن نقل میآورد — یا پنجرههای متنی طولانیتر تکیه میکنند؛ اما این روشها فقط یادآوری میکنند و باعث بهبود واقعی نمیشوند.
همانطور که در تحلیلهای پیشین ما دربارهی پایداری عاملهای هوش مصنوعی اشاره کردیم، حافظه واقعی در محیط تولید نیازمند دانشی سازمانی است که ماهها باقی بماند. اد فایف (Ed Fife)، مهندس خط لوله تولید، بر اساس مستندات خود استدلال میکند که خروجیهای مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — باید به جای متن ساده، به عنوان تلهمتری صنعتی دیده شوند.
قلب این سیستم یک اسکریپت ۱۰۰۰ خطی پایتون به نام self_improvement_engine.py است. طبق گزارش فایف، این ابزار گزارشهای تضمین کیفیت (QA) را تحلیل کرده و امتیاز ریسک را با فرمول «شدت × تداوم × تازگی» محاسبه میکند. این دادهها سپس به یک «قالب پیشپرواز» (Preflight Template) منتقل میشوند تا مدل در لحظه بوت شدن، رفتار خود را کالیبره کند.
تا تاریخ ۱۳ مه ۲۰۲۶، فایف گزارش داد که در ۷۹ نسخه تولیدی، تمامی «موانع فنی» (Blockers) حذف شدهاند. برای مثال، خطای T1-META که در ۶۷ درصد نسخهها باعث شکست میشد، با این روش شناسایی و بهصورت ساختاری اصلاح شد.

این رویکرد، بازی را از مهندسی پرامپت (Prompt Engineering) — هنر سؤال درست پرسیدن برای گرفتن بهترین جواب — به سمت «کنترل بافت» میبرد. فایف با بهکارگیری استانداردهای Six Sigma و تحلیل FMEA، قابلیت اطمینان هوش مصنوعی را به یک معیار مهندسی قابل اندازهگیری تبدیل کرده است. برای توسعهدهندگان، این یعنی عملکرد مدل به جای موفقیتهای تصادفی، به یک خط روند پیشبینیپذیر تبدیل میشود.
گام بعدی شما
- خط لوله خود را با گزارشهای ساختاریافتهی QA تجهیز کنید تا نقاط شکست مدل شناسایی شوند.
- فرمول محاسبه ریسک فایف را برای اولویتبندی اصلاحات در مدلهای خود به کار ببرید.
- پرسوناهای متنباز در گیتهاب اد فایف را برای پیادهسازی این الگو بررسی کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این متدها بر کاهش هزینه استنتاج را در گزارش بعدی بررسی خواهیم کرد.
گفتگو