سامانه Tirtha هزینه استنتاج کدنویسی را ۸ برابر کاهش داد

اگر امروز برای هر تکه کد، هزینه توکن‌های مدل‌های پیشرو را می‌پردازید، باید بدانید که دقت بالا دیگر نیازمند پرداخت مبالغ گزاف نیست. سامانه Tirtha ثابت کرد می‌توان با معماری هوشمند، کیفیت خروجی را در سطح مدل‌های برتر نگه داشت و هم‌زمان هزینه‌ها را تقریباً ۸ برابر کمتر کرد.

طبق گزارشی که ۲۸ ژوئن ۲۰۲۶ در وب‌سایت dev.to منتشر شد، این سامانه به جای تکیه مطلق بر مدل‌های گران‌قیمت برای هر وظیفه، از یک «آبشار» (Cascade) استفاده می‌کند که درخواست‌ها را بر اساس سطح اطمینان و اعتبارسنجی فیلتر می‌کند. این تغییر رویکرد در زمانی رخ می‌دهد که توسعه‌دهندگان برای ایجاد تعادل میان هزینه بالای توکن‌های مدل‌های پیشرو و قابلیت اطمینانی که برای کدهای محیط عملیاتی (Production) نیاز دارند، در تکاپو هستند. این رویکرد یادآور تلاش‌های مشابه برای بهینه‌سازی ورودی‌هاست، مشابه آنچه در سامانه Tokdiet برای کاهش ۷۱ درصدی هزینه توکن‌ها بدون افت کیفیت مشاهده شد. تصور کنید شرکتی که قبلاً برای پاسخ به هر سؤال، صرف‌نظر از میزان پیچیدگی آن، هزینه یک متخصص ارشد را می‌پرداخت؛ Tirtha این مدل را با یک برنامه‌نویس تازه‌کار جایگزین می‌کند که تنها زمانی از متخصص کمک می‌گیرد که با بن‌بستی واقعی روبرو شود.

همان‌طور که در تحلیل‌های قبلی ما درباره بهینه‌سازی هزینه‌های مدل‌های بازمتن اشاره کردیم، استراتژی کاهش هزینه بدون افت کیفیت، فعلاً اولویت اصلی صنعت است.

معماری سامانه

این سامانه عملیات را به دو کانال اصلی تقسیم می‌کند:

کانال قابلیت (Capability Channel): یک مدل محلی ارزان‌قیمت با نام gpt-oss-120b که مسئولیت حل اولیه مسئله را بر عهده دارد.
کانال ساختار (Structure Channel): مجموعه‌ای از گیت‌های اعتبارسنجی و حفاظ‌ها (Guards) که تعیین می‌کنند آیا پاسخ به‌دست‌آمده قابل اعتماد است یا باید درخواست به یک مدل پیشرو ارجاع داده شود.

برای بهینه‌سازی بیشتر، یک لایه حافظه موقت (Cache) در مقابل این دو کانال قرار گرفته است تا از حل مجدد مسائل کاملاً تکراری جلوگیری کند. زمانی که مدل محلی با اطمینان پاسخ دهد و حفاظ‌های لایه ساختار آن را تأیید کنند، درخواست با هزینه کم پاسخ داده می‌شود. در صورت شکست حفاظ‌ها، درخواست به مدل پیشرو ارتقا می‌یابد. بخش عمده‌ای از دشواری‌های اندازه‌گیری و رفتارهای جالب این سامانه دقیقاً در این کانال ساختار نهفته است.

عملکرد کدنویسی و سیستم امتیازدهی

نتایج در تاریخ ۲۴ ژوئن ۲۰۲۶، با استفاده از تنظیمات BENCH-DOSSIER-coding روی ۱۶۴ مسئله جمع‌آوری شد. برای تضمین صداقت در نتایج، تیم توسعه از یک روش امتیازدهی «ضد نشت» (Leak-proof) در HumanEval+ استفاده کرد. در این ساختار، تست‌های عمومی یا پایه به عنوان دروازه‌ای برای پذیرش اولیه عمل می‌کنند، در حالی که تست‌های پنهان «پلاس» (Plus tests)، امتیازدهی واقعی را بر عهده دارند. به این ترتیب، مدل هرگز تست‌هایی را که بر اساس آن‌ها مورد ارزیابی قرار می‌گیرد، نمی‌بیند.

علاوه بر این، نتایج در وضعیت PRISTINE اجرا شدند؛ به این معنا که حافظه موقت مرحله‌بندی (Staging Cache) ابتدا کاملاً پاک شد تا نرخ بازیابی صفر باشد. تحت این شرایط سخت‌گیرانه، آبشار کامل Tirtha به نتایج زیر دست یافت:

صحت ۹۴.۵٪ در تست‌های پلاس
صحت ۹۹.۴٪ در تست‌های پایه
۹۶٪ از مسائل به صورت ارزان پاسخ داده شدند
تنها ۳.۷٪ درخواست‌ها به مدل پیشرو ارجاع یافتند
۰ مورد برخورد با حافظه موقت (اجرای سرد)

برای درک بهتر زمینه این نتایج، در همان تاریخ و با همان ابزار اندازه‌گیری، مدل‌های پیشرو به عنوان معیار سنجش مورد آزمایش قرار گرفتند: مدل Sonnet 4.6 صحت ۹۲.۷٪ در تست‌های پلاس، مدل Opus 4.8 صحت ۹۳.۳٪ و مدل GPT-5.3-codex صحت ۹۰.۲٪ را ثبت کردند. این نشان می‌دهد که معماری آبشاری Tirtha در این بنچمارک خاص، دقیقاً در سطح یا بالاتر از نقاط مرجع مدل‌های پیشرو قرار دارد.

اثبات بهبود قابلیت اطمینان

ادعای اصلی این است که «کانال ساختار» و نه اندازه مدل است که باعث افزایش قابلیت اطمینان می‌شود. مدل محلی پایه، زمانی که به تنهایی و از طریق OpenRouter در همان روز اجرا شد، تنها ۸۴.۸٪ در تست‌های پلاس امتیاز گرفت. معماری آبشاری این عدد را به ۹۴.۵٪ رساند، به این معنا که تقریباً ۱۰ درصد از صحت در تست‌های پلاس، مستقیماً حاصل معماری سیستم است. این چالشِ حفظ دقت در مدل‌های کوچک‌تر، مشابه سقوط ۲۸ درصدی دقت مدل‌های متوسط هنگام خروجی JSON است که نشان می‌دهد مدل‌های کوچک‌تر در مواجهه با سخت‌گیری‌های ساختاری آسیب‌پذیرترند.

برای جداسازی این اثر، تیم توسعه یک تست حذف (Ablation Test) را در ۲۷ ژوئن ۲۰۲۶ روی ناوگان داخلی خود اجرا کرد:

سامانه کامل: ۱۰۰٪ صحت
حذف اعتبارسنجی (Verification Removed): ۷۵٪ صحت
حذف حفاظ‌ها (Guards Removed): ۵۰٪ صحت

مشخص شد که با حذف حفاظ‌ها، صحت خروجی عملاً نصف می‌شود. این داده‌ها شواهد داخلی جهت‌داری را فراهم می‌کند که نشان می‌دهد کانال ساختار حامل اصلی بهبود قابلیت اطمینان است، هرچند تیم توسعه اشاره کرده است که این یک تست با تعداد نمونه کم (small-n) روی یک بستر داخلی بوده و نه یک بنچمارک عمومی بلندمدت.

بهره‌وری هزینه و حافظه

نمونه‌های زنده از محیط عملیاتی در ۲۳ و ۲۴ ژوئن ۲۰۲۶ تأثیر اقتصادی این سیستم را برجسته می‌کند:

هزینه ترکیبی (Blended Cost): ۰.۰۰۲۰۱ دلار برای هر درخواست (بر اساس ۳۱۳ درخواست در ۲۳ ژوئن)، در مقایسه با هزینه ۰.۰۱۷ دلاری هر درخواست در مدل‌های پیشرو.
ترکیب ارائه (Serve Mix): ۹۱٪ محلی، ۹٪ ارجاع شده به مدل پیشرو و ۷٪ برخورد با حافظه موقت (بر اساس ۳۲۴ درخواست در ۲۴ ژوئن که منجر به ذخیره ۴.۷۲ دلار شد).
سرعت بازیابی: برخورد با حافظه موقت به طور میانگین ۰.۱۶ ثانیه طول کشید که بسته به مورد، ۲۴ تا ۱۸۵ برابر سریع‌تر از حل مجدد مسئله بود و میانه آن ۷۱ برابر (n=8) ثبت شد.

در زمینه بهره‌وری کانتکست‌های طولانی، یک لایه فشرده‌سازی در ۲۶ ژوئن ۲۰۲۶ با استفاده از یک مدل محلی 7B تست شد. این لایه فشرده‌سازی تنها به ۱۶۵ توکن کانتکست نیاز داشت، در حالی که برای کانتکست کامل و خام ۲۸,۰۰۰ توکن لازم بود؛ این یعنی اشغال فضای حافظه تنها ۰.۶٪ بود. در یک بنچمارک بازیابی اطلاعات چندگامی (multi-hop context-rot)، مدل 7B تا ۲۸ هزار توکن، صحت ۱۰۰ درصدی خود را حفظ کرد. این تلاش‌ها برای افزایش سرعت و بهینه‌سازی استنتاج، در راستای مسیرهای توسعه‌ای است که DeepSeek نیز با استفاده از پیش‌نویس‌های موازی برای کاهش تأخیر استنتاج V4 دنبال کرده است.

مرزهای کانتکست طولانی

یک پروب NIAH چندگامی تک-پرومپتی (۳ گام در ۲ تکرار، n=6) که در ۲۸ ژوئن ۲۰۲۶ انجام شد، نشان داد که سیستم تا ۲۰۸ هزار توکن کاملاً پاک و با صحت ۱۰۰٪ عمل می‌کند. اما در ۲۱۶ هزار توکن و بالاتر، سیستم با یک سقف سخت HTTP-500 مواجه شد.

تیم توسعه تصریح کرد که این یک محدودیت پیکربندی شده در زیرساخت است که می‌توان آن را افزایش داد، و نه یک سقوط در کیفیت یا محدودیت مربوط به پنجره متنی مدل ۲۶۲ هزار توکنی. از آنجایی که سیستم به جای تزریق توکن‌های خام از لایه فشرده‌سازی/حافظه استفاده می‌کند، این آزمایش در واقع کفِ لوله‌کشی زیرساختی را نشان می‌دهد، نه تست مسیر عملیاتی واقعی را.

شکاف‌های صادقانه و داده‌های در انتظار

علیرغم این نتایج، بنچمارک‌های رسمی بلندمدت طراحی شده‌اند اما هنوز اجرا نشده‌اند. اگرچه ابزارهای اجرای RULER، LongMemEval، faithfulness و SWE-bench ادغام شده‌اند، اما به دلیل اینکه Sandbox نمی‌تواند Docker را کلون یا اجرا کند، روی یک ماشین پاک اجرا نشده‌اند.

در نتیجه، در حال حاضر اعداد رسمی برای RULER، SWE-bench یا LongMemEval وجود ندارد. LongMemEval به ویژه حیاتی است زیرا تست واقعی برای اثبات مزیت لایه‌ی فشرده‌سازی در طول نشست‌های مختلف با بیش از ۲۰۰ هزار توکن است. سایر شکاف‌ها شامل حجم کم نمونه‌ها در تست‌های حذف و احتمال آلودگی داده‌های آموزشی (Training Contamination) است، زیرا مسائل HumanEval+ به صورت عمومی در دسترس هستند.

این نتیجه، این فرض را که برای دستیابی به قابلیت اطمینان بالا حتماً به یک مدل عظیم نیاز است، تغییر می‌دهد. این امر نشان می‌دهد که «هوش» یک سامانه می‌تواند به جای وزن‌های مدل که کار را انجام می‌دهند، به گیت‌های معماری که کار را تأیید می‌کنند، منتقل شود.

برای مخاطب، این بدان معناست که هوش مصنوعی در محیط عملیاتی می‌تواند از حالت «گران و دقیق» یا «ارزان و نامطمئن» به یک مدل ترکیبی منتقل شود که به صورت پیش‌فرض هم ارزان و هم دقیق است. پس از رفع مشکلات Docker در Sandbox، تیم قصد دارد اعداد مربوط به بنچمارک‌های بلندمدت را با ذکر تاریخ‌های دقیق و تعداد نمونه‌ها منتشر کند.

گام بعدی شما

اگر از مدل‌های گران‌قیمت برای کارهای تکراری کدنویسی استفاده می‌کنید، معماری Cascade را برای تفکیک درخواست‌ها بررسی کنید.
لایه‌های اعتبارسنجی (Verification) را به جای افزایش اندازه مدل، به عنوان اولویت توسعه در نظر بگیرید.
برای مدیریت کانتکست‌های حجیم، به جای تزریق مستقیم توکن‌ها، از لایه‌های فشرده‌سازی (Compaction) استفاده کنید.

اما تأثیر این معماری بر مصرف حافظه VRAM در مقیاس صنعتی حتی پیچیده‌تر است — به تحلیل ما درباره بهینه‌سازی‌های KV Cache مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

معماری سامانه

این سامانه عملیات را به دو کانال اصلی تقسیم می‌کند:

کانال قابلیت (Capability Channel): یک مدل محلی ارزان‌قیمت با نام gpt-oss-120b که مسئولیت حل اولیه مسئله را بر عهده دارد.
کانال ساختار (Structure Channel): مجموعه‌ای از گیت‌های اعتبارسنجی و حفاظ‌ها (Guards) که تعیین می‌کنند آیا پاسخ به‌دست‌آمده قابل اعتماد است یا باید درخواست به یک مدل پیشرو ارجاع داده شود.

عملکرد کدنویسی و سیستم امتیازدهی

صحت ۹۴.۵٪ در تست‌های پلاس
صحت ۹۹.۴٪ در تست‌های پایه
۹۶٪ از مسائل به صورت ارزان پاسخ داده شدند
تنها ۳.۷٪ درخواست‌ها به مدل پیشرو ارجاع یافتند
۰ مورد برخورد با حافظه موقت (اجرای سرد)

اثبات بهبود قابلیت اطمینان

برای جداسازی این اثر، تیم توسعه یک تست حذف (Ablation Test) را در ۲۷ ژوئن ۲۰۲۶ روی ناوگان داخلی خود اجرا کرد:

سامانه کامل: ۱۰۰٪ صحت
حذف اعتبارسنجی (Verification Removed): ۷۵٪ صحت
حذف حفاظ‌ها (Guards Removed): ۵۰٪ صحت

بهره‌وری هزینه و حافظه

نمونه‌های زنده از محیط عملیاتی در ۲۳ و ۲۴ ژوئن ۲۰۲۶ تأثیر اقتصادی این سیستم را برجسته می‌کند:

هزینه ترکیبی (Blended Cost): ۰.۰۰۲۰۱ دلار برای هر درخواست (بر اساس ۳۱۳ درخواست در ۲۳ ژوئن)، در مقایسه با هزینه ۰.۰۱۷ دلاری هر درخواست در مدل‌های پیشرو.
ترکیب ارائه (Serve Mix): ۹۱٪ محلی، ۹٪ ارجاع شده به مدل پیشرو و ۷٪ برخورد با حافظه موقت (بر اساس ۳۲۴ درخواست در ۲۴ ژوئن که منجر به ذخیره ۴.۷۲ دلار شد).
سرعت بازیابی: برخورد با حافظه موقت به طور میانگین ۰.۱۶ ثانیه طول کشید که بسته به مورد، ۲۴ تا ۱۸۵ برابر سریع‌تر از حل مجدد مسئله بود و میانه آن ۷۱ برابر (n=8) ثبت شد.

مرزهای کانتکست طولانی

شکاف‌های صادقانه و داده‌های در انتظار

گام بعدی شما

اگر از مدل‌های گران‌قیمت برای کارهای تکراری کدنویسی استفاده می‌کنید، معماری Cascade را برای تفکیک درخواست‌ها بررسی کنید.
لایه‌های اعتبارسنجی (Verification) را به جای افزایش اندازه مدل، به عنوان اولویت توسعه در نظر بگیرید.
برای مدیریت کانتکست‌های حجیم، به جای تزریق مستقیم توکن‌ها، از لایه‌های فشرده‌سازی (Compaction) استفاده کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سامانه Tirtha هزینه استنتاج کدنویسی را ۸ برابر کاهش داد

معماری سامانه

عملکرد کدنویسی و سیستم امتیازدهی

اثبات بهبود قابلیت اطمینان

بهره‌وری هزینه و حافظه

مرزهای کانتکست طولانی

شکاف‌های صادقانه و داده‌های در انتظار

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سامانه Tirtha هزینه استنتاج کدنویسی را ۸ برابر کاهش داد

معماری سامانه

عملکرد کدنویسی و سیستم امتیازدهی

اثبات بهبود قابلیت اطمینان

بهره‌وری هزینه و حافظه

مرزهای کانتکست طولانی

شکاف‌های صادقانه و داده‌های در انتظار

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سامانه Tirtha هزینه استنتاج کدنویسی را ۸ برابر کاهش داد

معماری سامانه

عملکرد کدنویسی و سیستم امتیازدهی

اثبات بهبود قابلیت اطمینان

بهره‌وری هزینه و حافظه

مرزهای کانتکست طولانی

شکاف‌های صادقانه و داده‌های در انتظار

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سامانه Tirtha هزینه استنتاج کدنویسی را ۸ برابر کاهش داد

معماری سامانه

عملکرد کدنویسی و سیستم امتیازدهی

اثبات بهبود قابلیت اطمینان

بهره‌وری هزینه و حافظه

مرزهای کانتکست طولانی

شکاف‌های صادقانه و داده‌های در انتظار

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران