GPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXINGGPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXING
پرش به محتوای مقاله

رمز حذف توهمات در برنامه‌ریز سفر: جایگزینی پرامپت‌های غول‌آسا با منطق قطعی

·۱۴ خرداد ۱۴۰۵۹ دقیقه مطالعه
گردش کار برنامه‌ریز سفر چند عاملی از یک جمله تا برنامه نهایی
گردش کار برنامه‌ریز سفر چند عاملی از یک جمله تا برنامه نهایی
اشتراک‌گذاری
واقعاً چه چیز جدید است؟

جایگزینی «داور LLM» با «ناظر پایتونی» برای کاهش ۳۰ درصدی هزینه‌ها و حذف کامل توهمات عددی در برنامه‌ریزی سفر.

اگر در حال ساخت عامل‌های هوش مصنوعی برای کسب‌وکار خود هستید، بزرگ‌ترین اشتباه این است که از خودِ مدل بخواهید درستی پاسخ‌هایش را بسنجد. این تله‌ی پرهزینه‌ای است که منجر به ایجاد توهم (Hallucination) — شبیه به دوستی که با اطمینان خاطره‌ای اشتباه را تعریف می‌کند — و به‌هم‌ریختگی بودجه‌ها می‌شود.

بیشتر دموهای سفر با یک «پرامپت غول‌آسا» کار می‌کنند که در محاسبات ساده ریاضی شکست می‌خورد. طبق اعلام توسعه‌دهنده این پروژه در ۳ مه ۲۰۲۶، قابلیت اطمینان سیستم نیازمند رویکرد «مهندسی سیستم» است، نه فقط نوشتن پرامپت‌های بهتر. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی امنیت مدل‌های بازمتن دیدیم، تکیه صرف بر احتمالات در محیط‌های عملیاتی خطرناک است.

در این معماری، وظایف بین هفت عامل (Agent) — شبیه به کارمندانی متخصص که هر کدام فقط یک بخش از پروژه را پیش می‌برند — تقسیم شده است. این‌ها شامل تحلیل‌گر قصد و مکان‌-یاب هستند که توسط یک هماهنگ‌کننده مرکزی مدیریت می‌شوند.

نمودار معماری برنامه‌ریز سفر چند عاملی از دستور تا برنامه تأییدشده و متناسب با بودجه

برای تضمین کیفیت، سیستم از طرح‌های Pydantic استفاده می‌کند تا قراردادهای سخت‌گیرانه‌ای بین عامل‌ها برقرار کند. این یعنی هر خروجی، مثل خلاصه‌ی سفر، باید فرمت دقیقی داشته باشد تا به مرحله بعد برود.

برنامه‌ریز سفر چندعاملی: از پرامپت یک‌جمله‌ای تا برنامه سفر بودجه‌آگاه و تأییدشده

نوآوری اصلی در «ناظر» (Critic) نهفته است. برخلاف رویکردهای رایج، این ناظر با زبان پایتون و منطق قطعی نوشته شده، نه با یک فراخوانی دیگر از مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد. این ناظر ۵ قانون حیاتی را چک می‌کند: محدودیت بودجه، ترجیحات کاربر، شلوغ نبودن مکان‌ها، امکان‌پذیری جغرافیایی و توازن روزانه.

معماری چندعاملی برنامه‌ریز سفر: از درخواست یک جمله‌ای تا برنامه تأییدشده و متناسب با بودجه

اگر ناظر خطایی پیدا کند، عامل مقصر را شناسایی کرده و دستور اجرای مجدد می‌دهد. این چرخه حداکثر دو بار تکرار می‌شود و سپس سیستم از کاربر می‌خواهد محدودیت‌هایش را کاهش دهد.

نمودار معماری سیستم چند عاملی برنامه‌ریز سفر از درخواست تا برنامه بودجه‌محور تأییدشده

برای افزایش سرعت، عامل‌های مربوط به مقصد، اقامت و حمل‌ونقل به‌صورت موازی اجرا می‌شوند. توسعه‌دهنده برای نزدیک کردن هزینه‌ها به صفر، از مدل Gemini Flash استفاده کرده است.

ساخت برنامه‌ریز سفر چندعاملی: از یک جمله تا برنامه سفر تأییدشده و بودجه‌محور

شفافیت سیستم هم از طریق لاگ‌های JSONL تأمین شده است. بر اساس مستندات پروژه، این کار اجازه می‌دهد هزینه دقیق هر سفر به دلار و تعداد توکن (Token) — یعنی همان تکه‌های کوچک متن که مدل می‌خورد — اندازه‌گیری شود.

نمودار معماری سیستم چند عاملی تبدیل یک جمله به برنامه سفر بودجه‌محور و تأییدشده

این چرخش نشان‌دهنده حرکت به سمت «طراحی سیستم‌های عامل‌محور» است. برای هر کسب‌وکاری، این یعنی هزینه‌ی کمتر؛ توسعه‌دهنده گزارش داد که حذف داورِ مبتنی بر LLM، هزینه‌های سفر را ۳۰٪ کاهش داده است.

گام بعدی شما

  • برای جلوگیری از توهمات عددی، به‌جای LLM از توابع اعتبارسنجی پایتونی در لایه‌ی Critic استفاده کنید.
  • از کتابخانه Pydantic برای تعریف قراردادهای سخت‌گیرانه بین مدل‌ها بهره ببرید.
  • برای کاهش هزینه استنتاج، مدل‌های کوچک‌تر و سریع‌تر (مثل Gemini Flash) را در لایه‌های موازی قرار دهید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

چرا این موضوع مهم است؟

این رویکرد تخصص مهندسی نرم‌افزار را دوباره به هسته‌ی توسعه AI باز می‌گرداند. اعتبار سیستم‌های تجاری تنها زمانی تأمین می‌شود که خروجی‌های احتمالی مدل با لایه‌های کنترل قطعی (Deterministic) فیلتر شوند.

تأثیر برای ایران

توسعه‌دهندگان ایرانی می‌توانند با این روش، وابستگی به مدل‌های گران‌قیمت استدلالی را کاهش داده و با استفاده از مدل‌های ارزان‌تر و لایه‌ی نظارتی محلی، ابزارهایی با دقت تجاری بالا بسازند.

·نگاه ما
تحریریه دات‌هوش

تحلیل ما نشان می‌دهد که دوران «جادوی پرامپت» به پایان رسیده و عصر «مهندسی سیستم» آغاز شده است. آنچه از این خبر می‌توان آموخت این است که LLMها در تولید محتوا عالی هستند، اما برای تضمین دقت عددی و منطقی، کد قطعی (Deterministic Code) همچنان تنها راه است. در واقع، هوش مصنوعی نباید پلیس خودش باشد، بلکه باید توسط یک کد سخت‌گیرانه نظارت شود.

منابع

گفتگو

شماره ۰۵۳پنج‌شنبه‌های هوش‌محور

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت — به‌علاوه ۳ بخش جدید. بدون هیاهو، هر پنج‌شنبه صبح.

خبر کلیدی
ابزار کاربردی
پرامپت حرفه‌ای
تحلیل پژوهش
به‌زودی
زاویه‌ی ایرانی
به‌زودی
تمرین این هفته
به‌زودی
۰۰:۰۰تا شماره بعدیهفته‌ی ۵۳ بدون وقفه