۱۵ درخواست در دقیقه؛ این تنها بخشی از سخاوتمندی گوگل برای جذب توسعهدهگان است. اگر امروز برای اتوماسیونهای حجیم به دنبال مدلی هستید که هم سریع باشد و هم کیف پول شما را خالی نکند، بازی تغییر کرده است.
طبق گزارش ۳۰ ژوئن ۲۰۲۶ از وبسایت dev.to، مدل Gemini 3.1 Flash-Lite در لایه رایگان پیشنمایش، ۵۰۰ درخواست در روز (RPD) و ۱۵ درخواست در دقیقه (RPM) ارائه میدهد. این عدد بهطور مستقیم با محدودیت ۳ درخواست در دقیقه در لایه رایگان GPT-4o mini شرکت OpenAI مقایسه میشود و نشان میدهد گوگل برای تصاحب بازار مدلهای سبک، فشار زیادی وارد کرده است.
همانطور که در تحلیل قبلی ما دربارهی بهینهسازی جریانهای کاری کدنویسی اشاره کردیم، تمایل بازار از مدلهای غولآسا به سمت نسخههای «لایت» حرکت کرده است. این مدلها شبیه به یک ماشین شهری کوچک هستند که شاید قدرت جابهجایی بار سنگین را نداشته باشند، اما برای تردد سریع در ترافیک شهر (یا همان پردازشهای حجیم و تکراری) بسیار کارآمدترند. این رویکرد بهینه به جای متکی شدن به ابر-مدلهای ابری، با تلاشهایی نظیر توسعه کتابخانههای جایگزین و حریمخصوصیمحور برای اندروید همسو است تا قدرت پردازش در لبه (Edge) افزایش یابد.
بر اساس مستندات فنی، مشخصات Gemini 3.1 Flash-Lite به شرح زیر است:
- پنجرهٔ زمینه (Context Window) — شبیه به میز کاری بسیار بزرگ که اجازه میدهد کل یک کتاب یا مخزن کد را همزمان جلوی چشم داشته باشید — تا ۱ میلیون توکن را پشتیبانی میکند.
- سرعت استنتاج (Inference) — یعنی لحظهای که مدل جواب را تولید میکند و شبیه به خودِ پخت غذاست، نه دوره آموزش آشپز — به بیش از ۲۵۰ توکن در ثانیه میرسد.
- دسترسی: مدیریت کلیدهای API از طریق Google AI Studio انجام میشود.
به باور تحلیلگران، این قابلیتها به این معناست که کارهای ترجمه محلی و صیقل دادن متن را میتوان بدون برخورد با دیوارهای سختِ محدودیت نرخ درخواست، خودکار کرد. پنجره متنی عظیم این مدل اجازه میدهد بدون نیاز به معماریهای پیچیده تولید بازیابیافزا (RAG) — که مثل دانشآموزی است که اول کتاب را باز میکند و بعد جواب میدهد — در اسناد طولانی یکپارچگی را حفظ کنید.
توسعهدهگان میتوانند با مراجعه به Google AI Studio و اتصال آن به یک پروژه رایگان در Google Cloud، کلید API خود را دریافت کنند. طبق توصیه منبع مذکور، برای کیفیت بیشتر باید از پرامپتهای سیستمی (System Prompts) دقیق استفاده کرد؛ مثلاً مدل را دقیقاً بهعنوان یک «مترجم حرفهای» یا «ویراستار دانشگاهی» تعریف کنید تا از ترجمههای کلمه به کلمه فاصله بگیرد.
گام بعدی شما
- اگر از مدلهای mini استفاده میکنید، همین امروز یک تست مقایسهای روی سرعت پاسخدهی Flash-Lite در Google AI Studio انجام دهید.
- برای پردازش اسناد بالای ۵۰ صفحه، به جای پیادهسازی RAG، مستقیماً از پنجره متنی یک میلیون توکنی این مدل استفاده کنید.
- پرامپتهای سیستمی خود را برای تعریف نقش (Role Prompting) بازبینی کنید تا دقت خروجی مدل لایت افزایش یابد.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو