Quorum توهمات عامل‌های هوش مصنوعی را با اجماع پنج داور متوقف می‌کند

تصور کنید یک عامل هوش مصنوعی در یک فرآیند ۱۲ مرحله‌ای، در مرحله هفتم یک دروغ متقاعدکننده بگوید و تمام خط تولید شما را به‌طور خاموش نابود کند. برای جلوگیری از این فاجعه، ابزار متن‌باز Quorum که در ۲ جولای ۲۰۲۶ منتشر شد، با این فرض پیش می‌رود که عامل‌ها اساساً غیرقابل اعتماد هستند و هر گام را پیش از اجرا زیر نظر می‌گیرد.

بسیاری از چارچوب‌های عامل‌محور (Agentic) فعلی بر پایه اعتماد بنا شده‌اند؛ یعنی خطاها تنها زمانی کشف می‌شوند که خروجی نهایی به دست کاربر برسد. این وضعیت یک نقطه شکست خطرناک ایجاد می‌کند؛ جایی که یک ادعای پذیرفتنی اما غلط، توسط تمام مراحل بعدی پذیرفته می‌شود. برای مثال، اگر یک عامل مالی موجودی حساب را اشتباه ذکر کند، تمام محاسبات بعدی فوراً بی‌اعتبار می‌شوند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت مدل‌های زبانی اشاره کردیم، مدیریت خطاهای زنجیره‌ای در سیستم‌های خودکار یکی از دشوارترین چالش‌های فعلی است. در واقع، تشخیص اینکه کدام خطا ناشی از توهم مدل است و کدام مربوط به نقص در پیاده‌سازی ابزاری است، نیازمند تفکیک دقیق دسته‌های خطای عامل‌های AI است.

به نقل از مستندات این پروژه در dev.to، ابزار Quorum مانند شورایی متشکل از پنج داور منتقد عمل می‌کند که هر مرحله را به‌صورت مستقل ارزیابی می‌کنند. این سازوکار تضمین می‌کند که هیچ نقطه شکست واحدی اجازه ندهد یک توهم (Hallucination) — شبیه دوستی که خاطره‌ای را با اطمینان اما اشتباه تعریف می‌کند — از فیلترها عبور کند. با این حال، تکیه بر داوران مدل زبانی همواره بدون ریسک نیست، چرا که بسیاری از نقص‌های عامل‌های چندمرحله‌ای ممکن است توسط همین داوران نادیده گرفته شوند.

پنج ستون اعتبارسنجی

مبنی‌سازی (Grounding): بررسی می‌کند که آیا گام مربوطه توسط داده‌های بازیابی‌شده پشتیبانی می‌شود یا مدل در حال ابداع جزئیات است.
سازگاری: تضمین می‌کند که گام فعلی با اقدامات قبلی در همان اجرا در تضاد نباشد.
ایمنی: تأیید می‌کند که اقدام عامل در محدوده تعیین‌شده باقی بماند.
ارجاعات: بررسی می‌کند که ادعاهای واقع‌گرایانه دارای منبع واقعی باشند.
تکرارپذیری: با بررسی اینکه آیا گام مذکور در صورت اجرای مجدد نتیجه یکسانی می‌دهد، میزان انحراف را رصد می‌کند.

بر اساس مستندات فنی، هر داور یک امتیاز اطمینان و یک رأی می‌دهد و Quorum این نتایج را در یک عدد اجماعی تجمیع می‌کند. اگر این اجماع به‌هم بخورد — چه از طریق یک مخالفت شدید یا چندین امتیاز پایین — سیستم فوراً اجرای برنامه را متوقف می‌کند. این رویکرد تلاشی برای رفع مشکلاتی است که در آن عامل‌های ناظر در شناسایی خطاهای خود شکست می‌خورند و نمی‌توانند شکاف‌های قابلیت اطمینان را شناسایی کنند.

توسعه‌دهنده این ابزار تأکید می‌کند که «توقف سخت» بسیار برتر از «ثبت گزارش» (Log) است، زیرا یک خط تولید نمی‌تواند توقف کامل را نادیده بگیرد. با گزارش دقیق اینکه کدام مرحله و به چه دلیل شکست خورد، تمرکز از «کشف احتمالی خطا در آینده» به «جلوگیری از استفاده پایین‌دستی از داده‌های غلط» تغییر می‌کند.

این ابزار بخشی از یک زنجیره ابزاری با مجوز MIT است که برای چرخه حیات اپلیکیشن‌های مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — طراحی شده است. سازنده اشاره می‌کند که این سیستم حاصل یک مشارکت انسان-هوش مصنوعی است؛ جایی که عامل‌ها پیاده‌سازی را انجام دادند و انسان استاندارد اعتبارسنجی را تعیین کرد.

گام بعدی شما

برای توقف توهمات پیش از رسیدن به کاربر نهایی، این لایه را با دستور npx github:rxNxkolai/quorum مستقر کنید.
معیارهای پنج‌گانه اعتبارسنجی را با نیازهای خاص کسب‌وکار خود تطبیق دهید.
نرخ توقف‌های سیستم را رصد کنید تا نقاط ضعف مدل پایه خود را شناسایی کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

پنج ستون اعتبارسنجی

مبنی‌سازی (Grounding): بررسی می‌کند که آیا گام مربوطه توسط داده‌های بازیابی‌شده پشتیبانی می‌شود یا مدل در حال ابداع جزئیات است.
سازگاری: تضمین می‌کند که گام فعلی با اقدامات قبلی در همان اجرا در تضاد نباشد.
ایمنی: تأیید می‌کند که اقدام عامل در محدوده تعیین‌شده باقی بماند.
ارجاعات: بررسی می‌کند که ادعاهای واقع‌گرایانه دارای منبع واقعی باشند.
تکرارپذیری: با بررسی اینکه آیا گام مذکور در صورت اجرای مجدد نتیجه یکسانی می‌دهد، میزان انحراف را رصد می‌کند.

گام بعدی شما

برای توقف توهمات پیش از رسیدن به کاربر نهایی، این لایه را با دستور npx github:rxNxkolai/quorum مستقر کنید.
معیارهای پنج‌گانه اعتبارسنجی را با نیازهای خاص کسب‌وکار خود تطبیق دهید.
نرخ توقف‌های سیستم را رصد کنید تا نقاط ضعف مدل پایه خود را شناسایی کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Quorum توهمات عامل‌های هوش مصنوعی را با اجماع پنج داور متوقف می‌کند

پنج ستون اعتبارسنجی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Quorum توهمات عامل‌های هوش مصنوعی را با اجماع پنج داور متوقف می‌کند

پنج ستون اعتبارسنجی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Quorum توهمات عامل‌های هوش مصنوعی را با اجماع پنج داور متوقف می‌کند

پنج ستون اعتبارسنجی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Quorum توهمات عامل‌های هوش مصنوعی را با اجماع پنج داور متوقف می‌کند

پنج ستون اعتبارسنجی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران