تصور کنید هر ماه مجبور باشید تمام کدهای اپلیکیشن خود را بازنویسی کنید، چون مدل زبانی «بهترین» بازار تغییر کرده است. اگر امروز از نامهای سختافزاری مدلها در کدتان استفاده میکنید، در واقع در حال ایجاد یک بدهی فنی عظیم هستید که هر بهروزرسانی، آن را سنگینتر میکند.
به نقل از مستندات پروژه، یک توسعهدهنده در ۵ جولای ۲۰۲۶ ابزار Tierup را برای پایان دادن به این چرخه معرفی کرد. این سیستم به جای استفاده از رشتههای متنی مدلها (مثل GPT-4o)، یک قرارداد چهارلایه شامل Speed (سرعت)، Balance (تعادل)، Intelligence (هوشمندی) و Reasoning (استدلال) ارائه میدهد.
این تغییر ساختاری دقیقاً همان چالشی است که در پوشش پیشین ما از شکست ۲۰۰ آزمایش برای جایگزینی شبکههای عصبی دیدیم؛ جایی که مشخص شد در عصر فعلی، انعطافپذیری در لایهی ارکستراسیون بسیار ارزشمندتر از انتخاب سختگیرانه یک مدل خاص است. در واقع مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — اکنون به یک کالای قابل تعویض تبدیل شده است. این رویکرد یادآور تلاشهای اخیر برای بهینهسازی هزینههاست، مشابه موردی که در آن جایگزینی GPT-4o با مدلهای ارزانتر باعث کاهش چشمگیر هزینههای استنتاج شد.
بر اساس گزارشهای فنی، این سامانه بر بستر Cloudflare Workers و با استفاده از چارچوب Hono پیادهسازی شده است. اجزای فنی این پشته عبارتند از:
- D1 Database: برای مدیریت کیف پول کاربران، گزارش درخواستها و صورتحسابها.
- KV Store: جهت کنترل نرخ درخواستها (Rate Limiting).
- OpenRouter: به عنوان تجمیعکنندهی بالادستی برای دسترسی به مدلها.
وقتی یک کلاینت درخواست «tier-2» را ارسال میکند، ورکر ابتدا Supabase JWT یا کلید API را اعتبارسنجی کرده و سپس این لایه را به بهینهترین مدل موجود در آن لحظه متصل میکند. برای جلوگیری از نشت جزئیات تأمینکننده، ورکر پیش از ارسال جریان داده (Stream)، تمام اطلاعات مربوط به ارائهدهنده را حذف میکند. این مکانیزم مسیریابی هوشمند، شباهت زیادی به رویکرد vLLM در استفاده از مسیریابهای معنایی برای شکستن بنچمارکهای سخت دارد.
طبق اعلام سازنده، پیادهسازی این مدل دو نقطه شکست حیاتی را آشکار کرد. نخست اینکه محاسبه هزینه باید در بلوک waitUntil انجام شود، زیرا هزینه دقیق تنها پس از دریافت آخرین تکه (Chunk) دادههای SSE مشخص میشود. دوم اینکه بررسیهای سلامت (Health Checks) استاندارد فریبنده بودند؛ بنابراین اکنون هر ۶ ساعت یک تست مصنوعی اجرا میشود که با ثبتنام یک کاربر موقت، کل مسیر را بازرسی میکند.
از نظر اقتصادی، این پروژه فعلاً یک آزمایش برای یافتن بازار هدف (Product-Market Fit) است. قیمتها حدود ۵۰٪ کمتر از نرخ خردهفروشی تعیین شده و لایه اول (Tier 1) رایگان است تا بار پژوهش درباره مدلهای جدید از دوش توسعهدهنده اپلیکیشن برداشته و به لایه مسیریابی منتقل شود. برای کسانی که قصد استقرار چنین زیرساختهایی را دارند، گامهای عملی برای استقرار مدلهایی نظیر Qwen2.5 بر روی کوبرنتیز میتواند راهگشای مدیریت منابع GPU باشد.
گام بعدی شما
- در محیط آزمایشی tierup.ai با ۲۵ دلار اعتبار رایگان، تفاوت لایههای عملکردی را تست کنید.
- اگر در حال توسعه اپلیکیشن AI هستید، نام مدلها را از کد کلاینت حذف کرده و به متغیرهای لایهای منتقل کنید.
- استراتژی قیمتگذاری خود را بر اساس «سطح هوشمندی» تعریف کنید، نه نام مدل.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو