گوگل دو سطح جدید استنتاج به نامهای Flex و Priority را برای API جمینای معرفی کرده است که به توسعهدهندگان امکان میدهد از طریق یک رابط واحد، تعادل بین هزینه و اطمینانپذیری را مدیریت کنند. این اعلام به چالشی رو به رشد پرداخته است؛ همانطور که برنامههای هوش مصنوعی از چتباتهای ساده به سمت عوامل مستقل پیچیده演化 میکنند، نیاز به سطوح مختلف خدماتی برای انواع مختلف کارها افزایش یافته است.
پیش از این، توسعهدهندگانی که هم کارهای پسزمینهای—مانند غنیسازی دادهها و فرآیندهای thinking—و هم ویژگیهای تعاملی کاربرمحور مانند چتباتها و دستیارها را پشتیبانی میکردند، مجبور بودند معماری خود را بین سرویس استاندارد همزمان و API غیرهمزمان Batch تقسیم کنند. سطوح Flex و Priority این شکاف را پر کردهاند؛ توسعهدهندگان اکنون میتوانند کارهای پسزمینهای را به Flex و کارهای تعاملی را به Priority هدایت کنند، همه از طریق نقاط پایانی استاندارد همزمان، بدون نیاز به مدیریت فایلهای ورودی/خروجی یا polling برای تکمیل کار.
استنتاج Flex یک سطح بهینهشده از نظر هزینه برای کارهایی با تحمل تأخیر بالا ارائه میدهد، با قیمتی معادل ۵۰ درصد قیمت API استاندارد. مصالحه در اینجا اطمینانپذیری کمتر و تأخیر اضافی است، اما رابط همزمان به این معناست که توسعهدهندگان میتوانند از نقاط پایانی آشنا بدون overhead پردازش دستهای استفاده کنند. موارد استفاده ایدهآل شامل بهروزرسانیهای پسزمینهای CRM، شبیهسازیهای تحقیقاتی در مقیاس بزرگ، و گردشهای کاری agentic که در آن مدل در پسزمینه فعالیت میکند، میشود. Flex برای تمام سطوح پولی در دسترس است و از نقاط پایانی API مربوط به GenerateContent و Interactions پشتیبانی میکند.
استنتاج Priority برای برنامههای حیاتی طراحی شده که حتی در زمان اوج مصرف پلتفرم، به بالاترین اطمینانپذیری نیاز دارند. درخواستهای Priority بالاترین سطح criticality را دریافت میکنند، و اگر ترافیک از حد مجاز Priority فراتر رود، درخواستهای سرریز به جای شکست، به صورت خودکار به سطح استاندارد downgrade میشوند—که تداوم کسبوکار را تضمین میکند. پاسخ API بهصورت شفاف نشان میدهد که کدام سطح هر درخواست را سرویس داده است و دید کاملی از عملکرد و صورتحساب ارائه میدهد. موارد استفاده شامل چتباتهای پشتیبانی مشتری بلادرنگ، خطوط لوله moderation محتوای زنده، و سایر درخواستهای حساس به زمان میشود. Priority برای پروژههای پولی سطح ۲ و ۳ در دسترس است.
هر دو سطح با استفاده از پارامتر یکسان service_tier پیکربندی میشوند که پیادهسازی را ساده میکند. مستندات گوگل جزئیات کامل قیمتگذاری و کتاب آشپزی جمینای نمونههای کد قابل اجرا برای شروع کار را ارائه میدهد.
این توسعه نشاندهنده روند گستردهتری به سمت زیرساختهای tiered در خدمات هوش مصنوعی است و کنترل دقیقتری بر مصالحههای هزینه-عملکرد به توسعهدهندگان میدهد. با پیچیدهتر و متنوعتر شدن سیستمهای هوش مصنوعی در نیازمندیهایشان، این انعطافپذیری برای بهینهسازی استقرار در production ارزش فزایندهای دارد.

گفتگو