«تولید و متحرک‌سازی ارزان»؛ استراتژی جدید گوگل برای توسعه‌دهندگان

منبع خبر

۱۲ دقیقه پیش·۹ تیر ۱۴۰۵۳ دقیقه مطالعه

گوگل مدل‌های Nano Banana 2 Lite برای تصویرسازی سریع با هوش مصنوعی و Gemini Omni Flash برای ویدیو از طریق API عرضه کرد.

اشتراک‌گذاری

اگر امروز برای تولید حجم زیادی از تصاویر در اپلیکیشن خود هزینه می‌پردازید، صورت‌حساب شما با مدل جدید گوگل به شدت کاهش می‌یابد. تولید یک تصویر با کیفیت 1K اکنون تنها ۰.۰۳۴ دلار هزینه دارد.

این مدل که در ۳۰ ژوئن ۲۰۲۶ منتشر شد، تمرکز گوگل را از کیفیت مطلق به سمت توان عملیاتی (Throughput) — یعنی تعداد خروجی در هر ثانیه — و بهره‌وری هزینه برای توسعه‌دهندگان تغییر داد. همان‌طور که در تحلیل قبلی ما درباره‌ی رابط‌های هوش مصنوعی بی‌درنگ (Real-time) مانند جست‌وجوی صوتی جیمیل (Gmail Live Voice Search) اشاره کردیم، این مدل‌ها برای مرحله «ایده‌پردازی سریع» در چرخه تولید ساخته شده‌اند. این تغییر شبیه این است که به‌جای صرف ساعت‌ها وقت برای یک نقاشی روغن حرفه‌ای و کند، از یک دفترچه طراحی سریع استفاده کنید که در چند ثانیه ایده‌ها را پیاده می‌کند.

زمینه و تکامل مدل

به نقل از وب‌سایت the-decoder.com، مدل Nano Banana 2 Lite (با نام API: gemini-3.1-flash-lite-image) تصاویر را تنها در چهار ثانیه تولید می‌کند. این مدل جایگزین نسخه اولیه Nano Banana شد که بر پایه Gemini 2.5 بود؛ گوگل اکنون مدل Gemini 2.5 Flash Image را قدیمی و منسوخ می‌داند. این گام در راستای دموکراتیزه کردن ابزارهای بصری گوگل است که پیش از این نیز دسترسی رایگان به تولید تصاویر شخصی‌سازی‌شده را برای کاربران آمریکایی فراهم کرده بود.

گوگل مدل‌های Nano Banana 2 Lite برای تصویرسازی سریع با هوش مصنوعی و Gemini Omni Flash برای ویدیو از طریق API عرضه کرد.

گوگل خانواده Nano Banana را به سه مدل عملیاتی گسترش داده است تا توسعه‌دهندگان بتوانند بر اساس سرعت، کیفیت یا هزینه پایین، یکی را انتخاب کنند. در حالی که نسخه Lite روی توان عملیاتی و سرعت متمرکز است، نسخه Pro (Gemini 3.1 Pro Image) کاربردهای حرفه‌ای و پیچیده را هدف قرار داده و آنچه گوگل «قوی‌ترین کنترل و پیشرفته‌ترین استدلال» می‌نامد را ارائه می‌دهد. در بررسی‌های ما، قابلیت اطاعت از دستورات (Prompt Reliability) و کیفیت خروجی Nano Banana Pro تمایل دارد که هم از مدل Nano Banana 2 و هم از GPT-Image-2 شرکت OpenAI برتر باشد.

جزئیات: سیستم لایه‎‌بندی Nano Banana

طبق مستندات گوگل، سلسله‌مراتب هزینه‌ها و کاربردها به این شکل است:

Nano Banana 2 Lite: ۰.۰۳۴ دلار برای هر ۱ هزار تصویر. این مدل برای ایده‌پردازی سریع و خط لوله‌های توسعه‌دهنده با حجم درخواست بالا ساخته شده است.
Nano Banana 2: ۰.۰۶۷ دلار برای هر ۱ هزار تصویر. این مدل به عنوان یک گزینه همه‌کاره (All-rounder) معرفی شده که بهترین تعادل را میان کیفیت و هزینه برقرار می‌کند.
Nano Banana Pro: ۰.۱۳۴ دلار برای هر ۱ هزار یا ۲ هزار تصویر. این مدل سطح ارشد برای استدلال‌های بصری در سطح حرفه‌ای است.

گوگل نانو بانانا ۲ لایت برای تصاویر سریع AI و جمینی اومی فلش برای ویدیو از طریق API عرضه کرد

فراتر از API، مدل Lite در حال ادغام در ابزارهای مختلفی است؛ از جمله حالت AI جست‌وجوی گوگل، اپلیکیشن Gemini، NotebookLM، گوگل فوتوز (Google Photos)، استیچ (Stitch)، گوگل فلو (Google Flow) و گوگل ادز (Google Ads). گوگل ادعا می‌کند این مدل با وجود اولویت دادن به سرعت، همچنان در پیروی از دستورات، رندر کردن کاراکترها و تولید متن‌های خوانا قابل اعتماد است.

هم‌زمان، مدل Gemini Omni Flash قابلیت‌های تولید و ویرایش ویدیو را به API جیمینای و Google AI Studio آورد. این مدل که ابتدا در Google I/O نمایش داده شد، استدلال‌های چندوجهی (Multimodal) — یعنی توانایی درک هم‌زمان متن، عکس و صدا — را با ویرایش طبیعی زبان ترکیب می‌کند. این مدل اجازه می‌دهد تا متن‌ها و گرافیک‌ها مستقیماً با اکشن‌های ویدیویی همگام شوند و از دانش جهانی جیمینای برای تولید محتوا بهره می‌برد.

هزینه خروجی ویدیو ۰.۱۰ دلار برای هر ثانیه است که با نرخ Veo 3.1 Fast برابری می‌کند. با این حال، این مدل در حال حاضر تنها کلیپ‌های ۱۰ ثانیه‌ای تولید می‌کند. همچنین محدودیت‌های فعلی API وجود دارد: ارجاعات صوتی (Audio References) و گسترش صحنه‌ها (Scene Extensions) پشتیبانی نمی‌شوند. علاوه بر این، در حالی که اسکیمای API ارجاعات ویدیویی تا ۳ ثانیه را می‌پذیرد، گوگل اعتراف کرده که مدل هنوز آن‌ها را به‌درستی پردازش نمی‌کند و ثبات شخصیت‌ها هنگام حرکات دوربین محدود است.

گوگل یک گردش‌کار فنی خاص را توصیه می‌کند: ابتدا با Nano Banana 2 Lite یک تصویر مرجع بسازید و سپس آن تصویر را برای متحرک‌سازی به Gemini Omni Flash بفرستید. این فرآیند از طریق Interactions API مدیریت می‌شود که اکنون API پیش‌فرض هوش مصنوعی گوگل است. این رابط تاریخچه جلسه و زمینه (Context) را حفظ کرده و اجازه می‌دهد تا سه ویرایش متوالی روی یک خروجی انجام شود.

برای نمایش این زنجیره عملیاتی، گوگل سه اپلیکیشن نمونه ارائه کرد:

"Anywhere": کاربران را با استفاده از یک سلفی در مکان‌های دیدنی مشهور قرار می‌دهد و سپس نتیجه را متحرک می‌کند.
"Space Lift": مفاهیم طراحی داخلی را از روی عکس‌های اتاق تولید کرده و آن‌ها را به ویدیو تبدیل می‌کند.
"Omni Product Studio": تصاویر ثابت محصولات را به ویدیوهای تجاری برای تجارت الکترونیک تبدیل می‌کند.

تمامی خروجی‌ها با واترمارک SynthID نشان‌گذاری شده‌اند. کاربران می‌توانند این محتواهای تولید شده توسط AI را از طریق اپلیکیشن Gemini، جیمینای در کروم یا جست‌وجوی گوگل تایید و شناسایی کنند.

این استراتژی قیمت‌گذاری نشان می‌دهد گوگل قصد دارد با تبدیل هزینه تولید به یک رقم ناچیز در صورت‌حساب‌ها، در جنگ «ابزارهای کاربردی توسعه‌دهندگان» پیروز شود. آن‌ها با کاهش شدید قیمت‌ها، توسعه‌دهندگان را به فراخوانی‌های حجیم API تشویق می‌کنند تا جیمینای به بک‌اند پیش‌فرض برای اپلیکیشن‌های شخص ثالث تبدیل شود.

توسعه‌دهندگان اکنون می‌توانند از طریق Google AI Studio, Gemini API و پلتفرم Enterprise Agent به هر دو مدل دسترسی داشته باشند.

گام بعدی شما

اگر توسعه‌دهنده هستید، ترکیب Nano Banana 2 Lite و Gemini Omni Flash را برای کاهش هزینه تولید محتوای بصری تست کنید.
برای پروژه‌هایی که دقت حروف در تصویر حیاتی است، مدل Pro را با مدل‌های OpenAI مقایسه کنید.
از Interactions API برای ایجاد تجربه‌های ویرایشی چندمرحله‌ای در اپلیکیشن‌های خود استفاده کنید.

اما داستان سخت‌افزاری این کاهش قیمت‌ها و بهینه‌سازی استنتاج حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های TPU نسل جدید مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

«تولید و متحرک‌سازی ارزان»؛ استراتژی جدید گوگل برای توسعه‌دهندگان

The Decoder

منبع خبر

۱۲ دقیقه پیش·۹ تیر ۱۴۰۵۳ دقیقه مطالعه

گوگل مدل‌های Nano Banana 2 Lite برای تصویرسازی سریع با هوش مصنوعی و Gemini Omni Flash برای ویدیو از طریق API عرضه کرد.

اشتراک‌گذاری