GPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXINGGPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXING
پرش به محتوای مقاله

کاهش تأخیر جست‌وجو از ۴.۲ ثانیه به ۴۵۰ میلی‌ثانیه با رنکر سفارشی Rust

·۱۵ خرداد ۱۴۰۵۵ دقیقه مطالعه۱۷ بازدید
تصویر مفهومی برای مقاله کاهش تأخیر جستجو
تصویر مفهومی برای مقاله کاهش تأخیر جستجو
اشتراک‌گذاری
واقعاً چه چیز جدید است؟

تغییر بنیادین در این گزارش، جایگزینی کامل لایه‌ی امتیازدهی یک ابزار تجاری با یک رنکر سبک Rust است که تأخیری زیر ۵۰ میلی‌ثانیه برای ۱۰ هزار سند ایجاد می‌کند؛ عددی که در ابزارهای All-in-one غیرممکن است.

اگر جست‌وجوهای پیچیده شما در محیط عملیاتی با خطای زمان‌بندی (Timeout) مواجه می‌شوند، احتمالاً از ابزاری استفاده می‌کنید که برای نمایش به سرمایه‌گذاران ساخته شده، نه برای کاربر واقعی. در پرس‌وجوهایی که نیاز به دقت میلی‌متری در نزدیکی کلمات و تقویت متاداتا دارند، جست‌وجوی معنایی (Semantic Search) ساده معمولاً شکست می‌خورد.

بسیاری از تیم‌ها برای مرحله‌ی بازیابی (Recall) — که شبیه به انداختن یک تور ماهی‌گیری بزرگ برای جمع‌آوری تمام احتمالات است — به Veltrix تکیه می‌کنند. اما طبق گزارش منتشر شده در ۲۷ مه ۲۰۲۶ در سایت dev.to، این ابزار در مواجهه با فیلترهای سنگین دچار گلوگاه می‌شود. طبق این گزارش، ۷۳٪ از نشست‌های کاربری در یک پیاده‌سازی خاص به دلیل ناتوانی امتیازدهنده‌ی کسینوسی (Cosine Scorer) — روشی برای اندازه‌گیری شباهت دو متن شبیه به زاویه بین دو فلش — در پردازش حجم درخواست‌ها، با خطا مواجه شدند.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی بهینه‌سازی زیرساختی مدل‌ها اشاره کردیم، جداسازی لایه‌های پردازشی کلید مقیاس‌پذیری است. این تیم مشکل را با تقسیم خط لوله به دو مرحله حل کرد. ابتدا Veltrix با استفاده از یک اندیس BM25 (شبیه به فهرست انتهایی کتاب که تعداد تکرار کلمات را می‌شمارد) در ۲۰۰ میلی‌ثانیه، ۱۰ هزار کاندید را می‌یابد. سپس این نتایج از طریق gRPC به یک رنکر سفارشی ارسال می‌شوند.

این رنکر با زبان Rust و با استفاده از کتابخانه‌های Prost و Tokio ساخته شده است. به نقل از مستندات فنی این پروژه، رنکر Rust می‌تواند ۱۰ هزار سند را تنها در ۴۵ میلی‌ثانیه رتبه‌بندی کند. برای پایداری بیشتر، تیم توسعه کتابخانه‌های استاندارد JSONPath را با یک اسکنر بایتِ دست‌ساز جایگزین کرد تا از رشد بیش از حد پشته (Stack) جلوگیری کند. در نهایت، یک پروکسی سبک به زبان Go تمامی این عملیات را مدیریت می‌کند تا API همچنان با Veltrix سازگار بماند.

این تغییر ثابت کرد که در مقیاس بالا، ساختار ماژولار بر راحتیِ ابزارهای «همه-در-یک» پیروز می‌شود. با انتقال منطق تجاری به Rust، تیم توانست از طریق Prometheus و OpenTelemetry دیدی به سیستم داشته باشد که لاگ‌های داخلی Veltrix هرگز ارائه نمی‌دادند. نتیجه برای کاربر، کاهش ۹۰ درصدی تأخیر و رسیدن نرخ خطا به ۰.۰۳٪ بود.

گام بعدی شما

  • بررسی کنید که گلوگاه جست‌وجوی شما در مرحله‌ی بازیابی است یا رتبه‌بندی.
  • اگر تأخیر p95 شما بالای ۱ ثانیه است، جداسازی رنکر (Ranker) از موتور بازیابی را تست کنید.
  • برای پردازش‌های با حجم بالا، استفاده از توابع اسکن بایت به جای پارسرهای سنگین JSON را بررسی کنید.

اما این بهینه‌سازی‌های نرم‌افزاری تنها نیمی از داستان است؛ اثر سخت‌افزارهای جدید بر کاهش هزینه استنتاج را در تحلیل ما درباره‌ی تراشه‌های Blackwell بخوانید.

چرا این موضوع مهم است؟

این رویکرد ثابت می‌کند که برای رسیدن به کارایی صنعتی، باید ابزارهای AI را به عنوان موتورهای خام دید و لایه‌ی رتبه‌بندی را به صورت تخصصی پیاده کرد. این موضوع تخصص در معماری سیستم‌های توزیع‌شده را به اندازه تخصص در مدل‌سازی اهمیت می‌دهد.

تأثیر برای ایران

برای توسعه‌دهندگان ایرانی که با محدودیت منابع سخت‌افزاری روبرو هستند، استفاده از Rust برای جایگزینی لایه‌های کندِ پایتون یا ابزارهای جامع، تنها راه دستیابی به سرعت‌های میلی‌ثانیه‌ای در مقیاس بالا است.

·نگاه ما
تحریریه دات‌هوش

تحلیل ما نشان می‌دهد که عصر «ابزارهای جامع» در زیرساخت‌های AI رو به پایان است. جابه‌جایی منطق امتیازدهی از ابزارهای سطح بالا به زبان‌های سیستم مانند Rust، نشان‌دهنده بازگشت به معماری‌های دقیق (Precision Engineering) برای رسیدن به SLAهای سخت‌گیرانه است؛ جایی که حتی چند میلی‌ثانیه تأخیر می‌تواند منجر به ریزش کاربر شود.

منابع

گفتگو

شماره ۰۵۳پنج‌شنبه‌های هوش‌محور

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت — به‌علاوه ۳ بخش جدید. بدون هیاهو، هر پنج‌شنبه صبح.

خبر کلیدی
ابزار کاربردی
پرامپت حرفه‌ای
تحلیل پژوهش
به‌زودی
زاویه‌ی ایرانی
به‌زودی
تمرین این هفته
به‌زودی
۰۰:۰۰تا شماره بعدیهفته‌ی ۵۳ بدون وقفه