محدودیت‌های باینری نرخ بازگشت کاربران به عامل‌های هوش مصنوعی را افزایش داد

تصور کنید هر بار از یک تحلیل‌گر می‌پرسید «آیا این اتفاق می‌افتد؟» و او با سه پاراگراف پاسخ مبهم و محتاطانه جواب می‌دهد؛ احتمالاً به‌سرعت از پیگیری موضوع دست می‌کشید. این دقیقاً همان تله‌ای است که بسیاری از توسعه‌دهندگان در طراحی عامل‌های هوش مصنوعی می‌افتند. محدودیت‌های باینری (دوتایی) باعث می‌شوند عامل‌های هوش مصنوعی برای کاربر «چسبنده‌تر» و جذاب‌تر شوند.

Inithouse، استودیوی توسعه محصول که مجموعه‌ای رو به رشد از محصولات را به‌طور موازی عرضه می‌کند، دریافت کاربرانی که با خروجی‌های متن‌محور و باز مواجه می‌شوند، به‌سرعت این ابزارها را رها می‌کنند. در مقابل، وقتی عامل (Agent) — شبیه به کارمندی که به‌جای گزارش‌های طولانی، فقط یک عدد قطعی روی میز می‌گذارد — یک امتیاز احتمالی بین ۰ تا ۱۰۰ درصد ارائه می‌دهد، نرخ بازگشت کاربران به‌شدت افزایش می‌یابد.

بر اساس گزارش این استودیو، اکثر برنامه‌نویسان به‌دلیل ماهیت متنی مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — به‌طور پیش‌فرض رابطه‌های چت‌محور می‌سازند. اما نثر و متون طولانی یک «تله» ایجاد می‌کنند که در آن تحلیل‌های محتاطانه و دوپهلو (Hedged Analysis) برای کاربر ایستا و بی‌تحرک به نظر می‌رسند. برای مثال، وقتی از یک عامل پرسیده شود «آیا دورکاری تا سال ۲۰۲۸ به حالت پیش‌فرض تبدیل خواهد شد؟» و او سه پاراگراف تحلیل محتاطانه ارائه دهد، هیچ لنگر مشخصی برای مقایسه وجود ندارد. این فقدان کمّی‌سازی باعث می‌شود ردیابی این موضوع که آیا موضع عامل در طول زمان واقعاً تغییر کرده است یا خیر، غیرممکن شود.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت و پایداری مدل‌های بازمتن دیدیم، شفافیت در خروجی کلید اعتماد کاربر است. برای حل این مشکل، Inithouse پلتفرم Watching Agents را بازطراحی کرد؛ پلتفرمی که برای رصد پیش‌بینی‌های آینده طراحی شده است. آن‌ها پاراگراف‌ها را حذف کرده و یک مدل سخت‌گیرانه را جایگزین کردند که مدل را مجبور می‌کند یک امتیاز احتمال، یک سطح اطمینان (Confidence Level) و یک معیار سرعت تغییر (Change Velocity) ارائه دهد. این تغییر رویکرد پاسخی به چالش‌های عملیاتی است که بسیاری از دموهای عامل‌های هوش مصنوعی را هنگام انتقال به محیط تولید با شکست مواجه می‌کند.

طبق اعلام Inithouse، این چرخش استراتژیک سه شکست عملیاتی مشخص را برطرف کرد:

عدم قابلیت مقایسه (Diffability): کاربران نمی‌توانند سه پاراگراف امروز را با سه پاراگراف دیروز به‌راحتی مقایسه کنند تا بفهمند چه چیزی تغییر کرده است. کاربران به دلیل اینکه خروجی حتی در زمان تغییر داده‌های زیربنایی، ایستا به نظر می‌رسد، تعامل خود را قطع می‌کنند.
فقدان پاسخگویی: بدون وجود یک عدد، نمی‌توان ثابت کرد که یک عامل اشتباه کرده است. اگر یک عامل در دو سه‌شنبه متوالی بگوید «تنش‌ها در حال افزایش است»، غیرممکن است که بفهمیم آیا اتفاق خاصی افتاده است یا خیر. این مسئله اعتماد کاربر را تخریب می‌کند.
نبود محرک تعامل: سیستم نمی‌تواند برای یک «وضعیت در حال تکامل» اعلان ارسالی (Push Notification) معنادار بفرستد، اما برای «سقوط احتمال از ۷۲٪ به ۵۸٪» این کار را به‌راحتی انجام می‌دهد.

مکانیزم تجزیه به جای خلاصه‌سازی

در ساختار جدید Watching Agents، عامل‌های محدودشده به‌جای خلاصه‌سازی، پرسش‌ها را به فرضیه‌های رقیب تجزیه می‌کنند. به عنوان مثال، عاملی که مقررات مدل‌های بنیادی اتحادیه اروپا تا سال ۲۰۲۷ را رصد می‌کند، چهار تا پنج سناریوی مجزا را مدیریت می‌کند که هر کدام احتمال، جهت روند و لینک‌های شواهد خاص خود را دارند. این رویکرد مانع از آن می‌شود که عامل صرفاً محتوا را خلاصه کند و در عوض، او را مجبور می‌کند تا برداشت‌های مبهم را به ادعاهای قابل آزمون تجزیه کند.

این ساختار مدل را مجبور می‌کند شرایط تأییدکننده و ردکننده (Confirming and Disconfirming Conditions) را از ابتدا تعریف کند. این کار از «سرگردانی» (Drifting) مدل جلوگیری کرده و باعث می‌شود استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند، شبیه به خودِ آشپزی و نه دوره‌ی آموزش آشپز — کاملاً قابل حسابرسی باشد. عامل با رسیدن شواهد جدید، احتمالات را به‌روزرسانی می‌کند و منطق خود را شفاف نگه می‌دارد.

قابلیت اطمینان و نرخ بازگشت

محدودیت‌های خروجی، امکان رصد کالیبراسیون (Calibration) را فراهم می‌کند. Inithouse مشاهده کرد که عامل‌های محدودشده در بازه دقیق‌تری نسبت به عامل‌های متن‌باز عمل می‌کنند؛ زیرا ارائه یک عدد نیازمند تعهد است، در حالی که نثر به مدل اجازه می‌دهد با عبارات مبهم از پاسخ مستقیم فرار کند. اگر یک عامل به‌طور مداوم احتمال ۷۰٪ را پیش‌بینی کند، در حالت ایده‌آل باید تقریباً ۷۰٪ از آن پیش‌بینی‌ها به نتیجه «بله» ختم شوند.

برای افزایش نرخ بازگشت کاربر، هر صفحه از عامل این سیگنال‌های خاص را نمایش می‌دهد:

سرعت تغییر (Change Velocity)
استدلال مربوط به آخرین جابجایی
سیگنال‌های نظارتی (پیشرو، تأییدکننده و ردکننده)

وقتی احتمال بیش از ۵ واحد تغییر کند، عامل آن را علامت‌گذاری می‌کند. کاربران اکنون نمودارهای تکاملی احتمال را درست مانند اینکه معامله‌گران نمودارهای سهام را بررسی می‌کنند، تحلیل می‌کنند. این موضوع باعث ایجاد الگوی بازگشتی شد که پیش از این در خروجی‌های متنی دیده نمی‌شد. Inithouse پس از این انتقال، عمق پیمایش (Scroll Depth) بیشتر و جلسات چندصفحه‌ای بیشتری را اندازه‌گیری کرد.

اعتبارسنجی در محصولات دیگر

Inithouse این الگوی رفتاری را در کل پورتفولیوی خود مشاهده کرد. در ابزار Be Recommended که یک ابزار نمایش دیدگاه (Visibility) هوش مصنوعی است، تغییر توضیحات متنی به یک امتیاز ۰ تا ۱۰۰ برای هر موتور هوش مصنوعی، محصول را یک‌شبه «چسبنده» کرد. کاربران به‌جای بازخوانی تحلیل‌ها، فقط برای چک کردن «عدد خود» بازگشتند.

همین اتفاق در Verdict Buddy نیز افتاد؛ ابزاری برای حل مناقشات که بر اساس چارچوب‌های گاتمن (Gottman) و ارتباط بدون خشونت (NVC) عمل می‌کند. این ابزار به‌جای توصیف مسیرهای حل مناقشه، به آن‌ها امتیاز می‌دهد. در این مورد، امتیاز به عنوان یک لنگر برای پیشبرد گفتگو عمل می‌کند.

پیاده‌سازی برای محیط تولید (Production)

برای کسانی که عامل‌هایی با تعاملات مکرر می‌سازند، این استودیو الگوهای طراحی زیر را توصیه می‌کند:

اجبار به خروجی کمّی: حتی در حوزه‌های کیفی، یک بُعد امتیازدهی پیدا کنید تا کاربر را به یک لنگر متصل کنید.
تفکیک ساختار از توضیح: امتیاز پیش‌بینی باید خروجی اصلی باشد. استدلال‌ها، فرضیه‌ها، محرک‌ها و شواهد لایه‌های ثانویه هستند. اکثر کاربران بازگشتی، عدد بالایی را اسکن می‌کنند و تنها زمانی عمیق‌تر می‌روند که عدد تغییر کرده باشد.
جایگذاری قابلیت مقایسه (Diff) در محصول: هر صفحه باید دارای یک نمودار تاریخچه احتمال و بخش «آخرین تغییرات» باشد. کاربران گزارش داده‌اند که این نمودارهای تکاملی را بیشتر از خودِ پیش‌بینی‌ها به اشتراک می‌گذارند.
تجزیه کنید، نه خلاصه‌سازی: از مدل خلاصه‌سازی به سمت مدلی از فرضیه‌ها با مسیرهای شواهد مجزا حرکت کنید. این کار خروجی را قابل اعتماد می‌کند، زیرا کاربران می‌توانند با یک فرضیه خاص مخالفت کنند بدون اینکه کل پیش‌بینی را رد کنند.

در نهایت، محدود کردن فرمت خروجی — خواه از طریق احتمال بله/خیر، یک امتیاز یا یک درخت تصمیم ساختاریافته — به کاربران دلیلی برای بازگشت می‌دهد. این محدودیت، عامل را محدود نمی‌کند، بلکه او را متمرکز می‌کند. عامل‌های عمومی در پلتفرم Watching Agents این مدل پیش‌بینی باینری را با لایه‌های کامل فرضیه و شواهد به نمایش می‌گذارند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق اعلام Inithouse، این چرخش استراتژیک سه شکست عملیاتی مشخص را برطرف کرد:

عدم قابلیت مقایسه (Diffability): کاربران نمی‌توانند سه پاراگراف امروز را با سه پاراگراف دیروز به‌راحتی مقایسه کنند تا بفهمند چه چیزی تغییر کرده است. کاربران به دلیل اینکه خروجی حتی در زمان تغییر داده‌های زیربنایی، ایستا به نظر می‌رسد، تعامل خود را قطع می‌کنند.
فقدان پاسخگویی: بدون وجود یک عدد، نمی‌توان ثابت کرد که یک عامل اشتباه کرده است. اگر یک عامل در دو سه‌شنبه متوالی بگوید «تنش‌ها در حال افزایش است»، غیرممکن است که بفهمیم آیا اتفاق خاصی افتاده است یا خیر. این مسئله اعتماد کاربر را تخریب می‌کند.
نبود محرک تعامل: سیستم نمی‌تواند برای یک «وضعیت در حال تکامل» اعلان ارسالی (Push Notification) معنادار بفرستد، اما برای «سقوط احتمال از ۷۲٪ به ۵۸٪» این کار را به‌راحتی انجام می‌دهد.