اگر سیستمهای RAG خود را برای میلیونها سند مقیاس میدهید، احتمالا صورتحساب دیتابیس شما سریعتر از تعداد کاربرانتان رشد میکند. استفاده از ابعاد پیشفرض در text-embedding-3-small شروع امنی است، اما اغلب باعث هدر رفتن حافظهی گرانقیمت میشود.
مدلهای تولید بازیابیافزا (RAG) — شبیه دانشآموزی که قبل از جواب دادن، اول کتاب درسی را باز میکند تا نقلقول بیاورد — اکنون منعطفتر شدهاند. در این سیستمها، بردار معنایی (Embedding) — که مثل کارت معرفی عددی برای هر واژه است تا همسایگانش را بشناسد — نقش حیاتی دارد. همانطور که در تحلیلهای قبلی ما دربارهی بهینهسازی مدلهای زبانی اشاره کردیم، مدیریت حافظه کلید اصلی مقیاسپذیری در محیطهای عملیاتی است.
بر اساس مستندات OpenAI، از ژوئن ۲۰۲۶ امکان کوتاه کردن این بردارها فراهم شده است. این کار شبیه انتخاب رزولوشن عکس است؛ کیفیت کمی پایین میآید اما سرعت لود بیشتر و فضای کمتری اشغال میشود. به نقل از راهنمای فنی این شرکت، مدل text-embedding-3-small بهطور پیشفرض ۱۵۳۶ بُعد دارد. با تغییر پارامتر dimensions میتوان آن را به ۱۰۲۴، ۷۶۸ یا ۵۱۲ کاهش داد.
تأثیر این تغییر روی ذخیرهسازی ۱ میلیون تکه متن (با احتساب ۳۵٪ هزینه ایندکس) بسیار چشمگیر است:
- ۱۵۳۶ بُعد: ~۷.۷۲ گیگابایت
- ۱۰۲۴ بُعد: ~۵.۱۵ گیگابایت
- ۵۱۲ بُعد: ~۲.۵۷ گیگابایت

نکتهی کلیدی این است که هزینهی توکنهای ورودی API تغییری نمیکند. پسهی صرفهجویی در دیتابیسهای شما مثل Pinecone، Milvus یا pgvector اتفاق میافتد، نه در صورتحساب OpenAI.
این تحول، گلوگاه پروژه را از قیمت API به هزینهی زیرساخت منتقل کرد. توسعهدهندگانی که ابعاد را بر اساس تستهای واقعی بسنجند، میتوانند هزینهی ابر را بهطور جدی کاهش دهند. این بهینهسازی همچنین اجرای جستجوی معنایی روی دستگاههای لبه با VRAM محدود را ممکن میسازد.
گام بعدی شما
- یک ارزیابی recall@10 روی ۱۰۰ پرسوجوی واقعی کاربر اجرا کنید تا «نقطه بهینه» کیفیت و حجم را بیابید.
- اگر از دیتابیسهای برداری ابری استفاده میکنید، ابعاد را به ۵۱۲ کاهش دهید و افت دقت را پایش کنید.
- استراتژی ذخیرهسازی خود را از حالت «پیشفرض» به حالت «نیازمندی عملیاتی» تغییر دهید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ به تحلیل ما دربارهی تراشههای Blackwell برای درک هزینههای استنتاج مراجعه کنید.

گفتگو