اگر امروز برای تولید حجم زیادی از تصاویر در اپلیکیشن خود هزینه میپردازید، صورتحساب شما با مدل جدید گوگل به شدت کاهش مییابد. تولید یک تصویر با کیفیت 1K اکنون تنها ۰.۰۳۴ دلار هزینه دارد.
این مدل که در ۳۰ ژوئن ۲۰۲۶ منتشر شد، تمرکز گوگل را از کیفیت مطلق به سمت توان عملیاتی (Throughput) — یعنی تعداد خروجی در هر ثانیه — و بهرهوری هزینه برای توسعهدهندگان تغییر داد. همانطور که در تحلیل قبلی ما دربارهی رابطهای هوش مصنوعی بیدرنگ (Real-time) مانند جستوجوی صوتی جیمیل (Gmail Live Voice Search) اشاره کردیم، این مدلها برای مرحله «ایدهپردازی سریع» در چرخه تولید ساخته شدهاند. این تغییر شبیه این است که بهجای صرف ساعتها وقت برای یک نقاشی روغن حرفهای و کند، از یک دفترچه طراحی سریع استفاده کنید که در چند ثانیه ایدهها را پیاده میکند.
زمینه و تکامل مدل
به نقل از وبسایت the-decoder.com، مدل Nano Banana 2 Lite (با نام API: gemini-3.1-flash-lite-image) تصاویر را تنها در چهار ثانیه تولید میکند. این مدل جایگزین نسخه اولیه Nano Banana شد که بر پایه Gemini 2.5 بود؛ گوگل اکنون مدل Gemini 2.5 Flash Image را قدیمی و منسوخ میداند. این گام در راستای دموکراتیزه کردن ابزارهای بصری گوگل است که پیش از این نیز دسترسی رایگان به تولید تصاویر شخصیسازیشده را برای کاربران آمریکایی فراهم کرده بود.

گوگل خانواده Nano Banana را به سه مدل عملیاتی گسترش داده است تا توسعهدهندگان بتوانند بر اساس سرعت، کیفیت یا هزینه پایین، یکی را انتخاب کنند. در حالی که نسخه Lite روی توان عملیاتی و سرعت متمرکز است، نسخه Pro (Gemini 3.1 Pro Image) کاربردهای حرفهای و پیچیده را هدف قرار داده و آنچه گوگل «قویترین کنترل و پیشرفتهترین استدلال» مینامد را ارائه میدهد. در بررسیهای ما، قابلیت اطاعت از دستورات (Prompt Reliability) و کیفیت خروجی Nano Banana Pro تمایل دارد که هم از مدل Nano Banana 2 و هم از GPT-Image-2 شرکت OpenAI برتر باشد.
جزئیات: سیستم لایهبندی Nano Banana
طبق مستندات گوگل، سلسلهمراتب هزینهها و کاربردها به این شکل است:
- Nano Banana 2 Lite: ۰.۰۳۴ دلار برای هر ۱ هزار تصویر. این مدل برای ایدهپردازی سریع و خط لولههای توسعهدهنده با حجم درخواست بالا ساخته شده است.
- Nano Banana 2: ۰.۰۶۷ دلار برای هر ۱ هزار تصویر. این مدل به عنوان یک گزینه همهکاره (All-rounder) معرفی شده که بهترین تعادل را میان کیفیت و هزینه برقرار میکند.
- Nano Banana Pro: ۰.۱۳۴ دلار برای هر ۱ هزار یا ۲ هزار تصویر. این مدل سطح ارشد برای استدلالهای بصری در سطح حرفهای است.

فراتر از API، مدل Lite در حال ادغام در ابزارهای مختلفی است؛ از جمله حالت AI جستوجوی گوگل، اپلیکیشن Gemini، NotebookLM، گوگل فوتوز (Google Photos)، استیچ (Stitch)، گوگل فلو (Google Flow) و گوگل ادز (Google Ads). گوگل ادعا میکند این مدل با وجود اولویت دادن به سرعت، همچنان در پیروی از دستورات، رندر کردن کاراکترها و تولید متنهای خوانا قابل اعتماد است.
همزمان، مدل Gemini Omni Flash قابلیتهای تولید و ویرایش ویدیو را به API جیمینای و Google AI Studio آورد. این مدل که ابتدا در Google I/O نمایش داده شد، استدلالهای چندوجهی (Multimodal) — یعنی توانایی درک همزمان متن، عکس و صدا — را با ویرایش طبیعی زبان ترکیب میکند. این مدل اجازه میدهد تا متنها و گرافیکها مستقیماً با اکشنهای ویدیویی همگام شوند و از دانش جهانی جیمینای برای تولید محتوا بهره میبرد.
هزینه خروجی ویدیو ۰.۱۰ دلار برای هر ثانیه است که با نرخ Veo 3.1 Fast برابری میکند. با این حال، این مدل در حال حاضر تنها کلیپهای ۱۰ ثانیهای تولید میکند. همچنین محدودیتهای فعلی API وجود دارد: ارجاعات صوتی (Audio References) و گسترش صحنهها (Scene Extensions) پشتیبانی نمیشوند. علاوه بر این، در حالی که اسکیمای API ارجاعات ویدیویی تا ۳ ثانیه را میپذیرد، گوگل اعتراف کرده که مدل هنوز آنها را بهدرستی پردازش نمیکند و ثبات شخصیتها هنگام حرکات دوربین محدود است.
گوگل یک گردشکار فنی خاص را توصیه میکند: ابتدا با Nano Banana 2 Lite یک تصویر مرجع بسازید و سپس آن تصویر را برای متحرکسازی به Gemini Omni Flash بفرستید. این فرآیند از طریق Interactions API مدیریت میشود که اکنون API پیشفرض هوش مصنوعی گوگل است. این رابط تاریخچه جلسه و زمینه (Context) را حفظ کرده و اجازه میدهد تا سه ویرایش متوالی روی یک خروجی انجام شود.
برای نمایش این زنجیره عملیاتی، گوگل سه اپلیکیشن نمونه ارائه کرد:
- "Anywhere": کاربران را با استفاده از یک سلفی در مکانهای دیدنی مشهور قرار میدهد و سپس نتیجه را متحرک میکند.
- "Space Lift": مفاهیم طراحی داخلی را از روی عکسهای اتاق تولید کرده و آنها را به ویدیو تبدیل میکند.
- "Omni Product Studio": تصاویر ثابت محصولات را به ویدیوهای تجاری برای تجارت الکترونیک تبدیل میکند.
تمامی خروجیها با واترمارک SynthID نشانگذاری شدهاند. کاربران میتوانند این محتواهای تولید شده توسط AI را از طریق اپلیکیشن Gemini، جیمینای در کروم یا جستوجوی گوگل تایید و شناسایی کنند.
این استراتژی قیمتگذاری نشان میدهد گوگل قصد دارد با تبدیل هزینه تولید به یک رقم ناچیز در صورتحسابها، در جنگ «ابزارهای کاربردی توسعهدهندگان» پیروز شود. آنها با کاهش شدید قیمتها، توسعهدهندگان را به فراخوانیهای حجیم API تشویق میکنند تا جیمینای به بکاند پیشفرض برای اپلیکیشنهای شخص ثالث تبدیل شود.
توسعهدهندگان اکنون میتوانند از طریق Google AI Studio, Gemini API و پلتفرم Enterprise Agent به هر دو مدل دسترسی داشته باشند.
گام بعدی شما
- اگر توسعهدهنده هستید، ترکیب Nano Banana 2 Lite و Gemini Omni Flash را برای کاهش هزینه تولید محتوای بصری تست کنید.
- برای پروژههایی که دقت حروف در تصویر حیاتی است، مدل Pro را با مدلهای OpenAI مقایسه کنید.
- از Interactions API برای ایجاد تجربههای ویرایشی چندمرحلهای در اپلیکیشنهای خود استفاده کنید.
اما داستان سختافزاری این کاهش قیمتها و بهینهسازی استنتاج حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای TPU نسل جدید مراجعه کنید.




گفتگو