Auto Endpoints در برابر ارائه‌دهندگان مدیریت‌شده؛ شفافیت در برابر جعبه‌سیاه

تیم‌های مهندسی اکنون باید بین راحتی APIهای مدیریت‌شده و کنترل زیرساختی شخصی یکی را انتخاب کنند؛ اما این انتخاب دیگر یک نقطه تصمیم‌گیرنده نیست. در تاریخ ۲۳ ژوئن ۲۰۲۶، شرکت Modal سرویس Auto Endpoints را برای حذف این تضاد معرفی کرد. هدف این است که تیم‌ها مالکیت کامل پشته استنتاج (Inference Stack) مدل‌های زبانی بزرگ (LLM) خود را به دست آورند، بدون اینکه با بارهای عملیاتی سنتی و دشوار دست‌وپنجه نرم کنند. تیم‌های پیشرو از جمله Cognition، Decagon، Fathom و DoorDash در حال حاضر از Modal استفاده می‌کنند تا مالکیت استنتاج خود را بدون به خطر انداختن سرعت توسعه یا نسبت هزینه-به-عملکرد به دست آورند.

بسیاری از توسعه‌دهندگان در حال حاضر به ارائه‌دهندگان مدل‌های اختصاصی وابسته هستند که پشته سرویس‌دهی آن‌ها مانند یک جعبه سیاه است. طبق استدلال Modal، اگر یک ارائه‌دهنده به‌طور بی‌صدا کیفیت یک مدل را کاهش دهد یا دسترسی به آن را محدود کند، توسعه‌دهنده کنترل سرنوشت محصولش را از دست می‌دهد. در حالی که استفاده از مدل‌های متن‌باز از طریق یک ارائه‌دهنده استنتاج، مقداری کنترل ایجاد می‌کند، اما Modal باور دارد مالکیت واقعی عمیق‌تر از یک API ساده است. برای اینکه یک تیم واقعاً مالک استنتاج باشد، باید کدی را که آن را اجرا می‌کند، بشناسد، درک کند و بهینه سازد.

تنها جایگزین تا پیش از این، راه‌اندازی یک سرویس استنتاج شخصی بود. این مسیر کنترل کامل را می‌داد اما بار عملیاتی عظیمی را تحمیل می‌کرد: از تنظیم دقیق موتور (Engine Tuning) و بنچمارک‌گذاری نقاط انتهایی (Endpoint Benchmarking) گرفته تا استقرار کانتینرها، مقیاس‌دهی خودکار نسخه‌های تکراری (Replica Autoscaling)، روتینگ و مدیریت متریک‌های استنتاج. این چالش‌ها به‌ویژه هنگام کار با مدل‌های حجیم‌تر مشهود است، جایی که بهینه‌سازی‌های معماری ترکیبی CPU-GPU می‌تواند نیاز به کوانتیزه کردن مدل‌های MoE را از بین ببرد و بهره‌وری سخت‌افزاری را افزایش دهد.

همان‌طور که در تحلیل‌های قبلی ما درباره امنیت مدل‌های بازمتن اشاره کردیم، شفافیت در لایه زیرساخت برای سازمان‌ها حیاتی است. Modal با ارائه یک سرویس سازگار با OpenAI که توسط یک اپلیکیشن قابل‌کنترل و قابل‌مشاهده پشتیبانی می‌شود، این شکاف را پر کرده است. برخلاف ارائه‌دهندگان مدیریت‌شده، Modal انتخاب GPU، منطقه‌بندی (Regionalization) یا پرچم‌های موتور (Engine Flags) را پنهان نمی‌کند. آن‌ها حتی گاهی اوقات وصله‌های (Patches) خاص موتور را به اشتراک می‌گذارند. این شفافیت به توسعه‌دهندگان اجازه می‌دهد با یک خط مبنای با عملکرد بالا شروع کنند و با تکامل بار کاری خود، به سمت بهینه‌سازی‌های سفارشی و ویژه حرکت کنند.

هسته فنی Auto Endpoints

این سیستم بر بستر یک پلتفرم زیرساختی تخصصی بنا شده است که برای بارهای کاری نامنظم و نوسانی هوش مصنوعی طراحی شده است. این همان زیربنایی است که کاربران برای تاختن پروتئین‌ها، هدایت ربات‌ها و تولید موسیقی از آن استفاده می‌کنند. ارکان فنی اصلی این سیستم عبارت‌اند از:

Modal Servers: اجزای روتینگ جدید با تأخیر بسیار کم که از حالت بتا خارج شده‌اند. این سرورها صف‌های انتظار (Queueing) را حذف کرده و به‌طور پیش‌فرض منطقه‌بندی شده‌اند. این امر اجازه می‌دهد درخواست‌های HTTP با تنها ۵ میلی‌ثانیه اورهد (Overhead) روی Modal پاسخ داده شوند، بدون اینکه پایایی سیستم به خطر بیفتد.
معماری DFlash: ادغام معماری درفتر block-diffusion از Z Lab. مودال از این معماری در هر مدل سازگار استفاده می‌کند. آن‌ها با همکاری نزدیک با Z Lab و تیم SGLang تلاش کرده‌اند تا DFlash را در سیستم‌های سرویس‌دهی واقعی سریع و قابل‌اعتماد کنند و برای تضمین عملکرد بهینه، مدل‌های درفتر DFlash خود را آموزش داده و منتشر کرده‌اند.
مشارکت در متن‌باز: این پلتفرم با اعمال وصله و ارسال بهبودها به موتورهایی مثل SGLang و کرنل‌هایی مانند FlashAttention-4 تکامل یافته است. در همین راستا، بهره‌گیری از مدل‌های زبانی باز برای کاهش ارزیابی‌های تنظیم MIMO نشان می‌دهد که چگونه ساختارهای پیشین در مدل‌های بازمتن می‌توانند فرآیندهای بهینه‌سازی را تسریع کنند.
مقیاس‌دهی الاستیک: کاربران تنها برای آنچه مصرف می‌کنند، در همان لحظه هزینه می‌پردازند. این یعنی دیگر نیازی نیست ماه‌ها ظرفیت GPUهای گران‌قیمت را برای بارهای کاری غیرقابل‌پیش‌بینی رزرو کنند. این سیستم مقیاس‌دهی با عملکرد بالا از یک محیط اجرای کانتینری (Container Runtime) سفارشی بهره می‌برد.

نمودار: مقایسه سرعت استنتاج مدال با سایر سرویس‌ها - سرعت بالاتر و هزینه کمتر

به نقل از مستندات Modal، استقرار یک مدل پیشرو مانند GLM 5.2 اکنون تنها با یک دستور CLI یا از طریق «کلیک‌اوپس» (Clickops) ممکن است. کاربران دیگر مجبور نیستند برای دسترسی به سخت‌افزارهای سطح بالا، وارد تماس‌های فروش یا جلسات زوم شوند. در عوض، آن‌ها از یک محیط اجرای کانتینری سفارشی استفاده می‌کنند که فارغ از محل قرارگیری کاربران در سطح جهان، به‌طور خودکار برای پاسخ به تقاضا مقیاس می‌یابد.

عملکرد بالا بدون فشار عملیاتی

از نظر Modal، موتورهای استنتاج مشابه سیستم‌های مدیریت پایگاه‌داده‌ای چون PostgreSQL هستند: نرم‌افزارهایی حیاتی، پیچیده و حساس که باید تا مرز نهایی سخت‌افزار تنظیم شوند تا بهترین عملکرد را داشته باشند. این فرآیند معمولاً نیازمند یک «سگ‌دوئی» یا فشار زیاد برای تنظیم متغیرهای بی‌شمار و پیچیده است.

سرویس Auto Endpoints این دشواری را با ارائه نسخه‌های استقرار آماده (Recipes) برطرف می‌کند که از تجربه کار با متقاضی‌ترین محصولات هوش مصنوعی جهان استخراج شده‌اند. این دستورالعمل‌ها در رقابت مستقیم با ارائه‌دهندگان استنتاج اختصاصی توسعه یافته‌اند و با شرط‌بندی روی متن‌باز و تمرکز کامل بر رمزگشایی گمانه‌زنانه (Speculative Decoding) پیروز شده‌اند. این رویکرد نیاز توسعه‌دهندگان به آزمایش‌های دستی و خسته‌کننده با پرچم‌های پیچیده موتور را تا زمانی که آماده بهینه‌سازی‌های خاص باشند، از بین می‌برد. نمونه‌هایی از پیچیدگی‌های فنی که Auto Endpoints مدیریت می‌کند عبارت‌اند از:

دقت و زمان‌بندی: مدیریت خودکار پرچم‌هایی مانند --mamba-scheduler-strategy و --flashinfer-mxfp4-moe-precision.
بنچمارک‌گذاری: نمایش نتایج در حین راه‌اندازی، که به کاربران اجازه می‌دهد توازن (Trade-off) بین تأخیر و توان عملیاتی (Throughput) را بررسی کنند و ببینند سرویس‌های با چندین نسخه تکراری (Multi-replica) تحت فشار چگونه رفتار می‌کنند.
تخصص‌گرایی بار کاری: تشخیص این نکته که یک نقطه انتهایی (Endpoint) برای طبقه‌بندی با تأخیر کم، به تنظیماتی متفاوت از یک حلقه عامل‌محور (Agentic Loop) چندمرحله‌ای نیاز دارد. مودال کاربران را با پیکربندی‌ای شروع می‌کند که تمیز، قابل‌بازرسی و بنچمارک‌شده است، پیش از آنکه تحلیل اثرات (Traces) را آغاز کند.

نقاط پایانی خودکار مُدال: استنتاج بهینه‌سازی‌شده که واقعاً متعلق به شماست | وبلاگ Modal

مشاهده‌پذیری در سطح موتور

مالکیت مستلزم مشاهده‌پذیری است. برای ریشه‌یابی مشکلات برنامه، Modal متریک‌های دقیقی را در داشبورد و از طریق خروجی OTEL ارائه می‌دهد. آن‌ها این داده‌ها را به دو گروه متمایز تقسیم می‌کنند:

۱. متریک‌های سرور: شاخص‌های سلامت فیزیکی که عمیق‌تر از ارائه‌دهندگان استاندارد هستند و مواردی مثل دمای GPU، توان مصرفی و میزان بهره‌برداری واقعی را شامل می‌شوند.
۲. متریک‌های استنتاج: داده‌های حیاتی عملکردی که توسط موتورهای استنتاج صادر می‌شوند، مانند زمان تا نخستین توکن (TTFT)، تأخیر بین توکن‌ها (ITL)، صف‌های انتظار و طول پذیرش در رمزگشایی گمانه‌زنانه.

نقاط پایانی خودکار مُدال: استنتاج بهینه‌شده که واقعاً متعلق به شماست | وبلاگ Modal

این سطح از جزئیات به تیم‌ها اجازه می‌دهد دقیقاً تشخیص دهند چرا جهش‌های تأخیر (Latency Spikes) رخ می‌دهند. برای مثال، در زمان افزایش شدید ترافیک، داشبورد نشان می‌دهد که یک کانتینر تنها در حال مدیریت بار پایه است و TTFT آن به‌طور مداوم افزایش می‌یابد (به دلیل صف پیش‌پُرکردن یا Prefills)، و به دنبال آن ITLها بالا می‌روند (به دلیل صف رمزگشایی یا Decodes). این زنجیره منجر به افزایش تأخیر کلی از ابتدا تا انتها (End-to-End) می‌شود.

نمودار: مقایسه عملکرد استنتاج مدل با روش Modal Auto Endpoints در برابر راه‌حل‌های سنتی

سیستم سپس به‌طور خودکار نسخه‌های اضافی (Replicas) — برای مثال دو کانتینر جدید — را فعال می‌کند تا صف کاهش یابد و تأخیرها به سطوح قابل‌قبول بازگردند. این فرآیند از طریق اتوماسیون زیرساختی رخ می‌دهد، نه از طریق یک هشدار دستی در PagerDuty.

مسیر رسیدن به استنتاج «کاملاً خودکار»

هدف Modal حرکت به سمت یک رابط تعریف‌کننده (Declarative Interface) بر اساس بارهای کاری و توافق‌نامه‌های سطح خدمات (SLO) است. این رویکرد حاصل سال‌ها بهینه‌سازی استنتاج برای مشتریان سطح اول است. مودال دیگر کدهای استقرار را صرفاً به‌صورت دستی نمی‌نویسد؛ آن‌ها اکنون از یک سیستم عامل‌محور داخلی (Internal Agentic System) به سبک autoresearch استفاده می‌کنند که موتورها را پیکربندی کرده و برای رسیدن به بالاترین عملکرد، روی منحنی بهینه‌سازی حرکت می‌کند (Hill-climbing)، در حالی که صحت و کیفیت خروجی را حفظ می‌نماید.

نمایی از داشبورد Modal Auto Endpoints: استنتاج بهینه‌ای که واقعاً متعلق به شماست

این تکامل به آینده‌ای اشاره دارد که در آن اتوماسیون کامل حاکم است و مهندسی دیگر یک گلوگاه نیست. نقشه راه Modal شامل موارد زیر است:

Autoinference: خودکارسازی کامل پیکربندی، اعمال وصله‌ها (Patching) و بنچمارک‌گذاری سرورهای استنتاج.
Autospec: ایجاد و به‌روزرسانی مدل‌های گمانه‌زن (Speculator) بر اساس داده‌های سنتتیک و داده‌های واقعی تولید. مدل‌های گمانه‌زن فعلی در چندین بنچمارک، بیش از ۴ برابر سریع‌تر از نسخه‌های پایه و بیش از ۱.۵ برابر سریع‌تر از سایر گمانه‌زن‌های عمومی هستند، اما آموزش آن‌ها روی داده‌های تولیدی خاص، عملکرد را باز هم بهبود می‌بخشد.
Autodistill: تقطیر خودکار (Automated Distillation) قابلیت‌ها از مدل‌های مستقر شده به مدل‌های کوچک‌تر و سریع‌تر.
Autoresearch: توسعه خودکار ویژگی‌های عملکردی جدید، موتورهای استنتاج و مدل‌های تازه.

نمودار: مقایسه عملکرد Modal Auto Endpoints با سایر روش‌های استنتاج - تاخیر کمتر و هزینه بهینه‌تر

در حال حاضر، مهندسان انسانی همچنان بر این سیستم عامل‌محور نظارت می‌کنند تا اطمینان حاصل شود که تنها کدهای سطح تولید (Production-grade) قدرت‌بخش نقاط انتهایی هستند. با این حال، هدف نهایی حذف گلوگاه نظارت انسانی بر فرآیندهای آموزش است. مودال در حال توسعه سیستم‌های شناسایی خودکار فرصت‌های بازآموزی و خط‌لوله‌های (Pipelines) آموزش خودکار است تا از این فرصت‌ها بهره ببرد.

این چرخش، فرض بنیادی استقرار مدل‌های زبانی را تغییر می‌دهد. استنتاج دیگر انتخابی بین یک API «جعبه سیاه» و یک سرور «کارِ دستی» نیست؛ بلکه به یک دارایی برنامه‌ریزی‌پذیر و مشاهده‌پذیر تبدیل شده است که خود را بر اساس ترافیک زنده بهینه می‌کند.

گام بعدی شما

اگر از APIهای بسته خسته شده‌اید، مدل‌های GLM یا Llama را روی Modal تست کنید تا تفاوت مشاهده‌پذیری لایه ۲ (L2) را ببینید.
متریک‌های TTFT و ITL را در داشبورد خود بررسی کنید تا گلوگاه‌های واقعی استنتاج را شناسایی کنید.
استراتژی‌های رمزگشایی گمانه‌زنانه را برای کاهش هزینه‌های GPU در ترافیک بالا بررسی نمایید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.