مدل Krea 2 فاصلهٔ کیفی با GPT Image 2 را به ۰.۱۴ امتیاز رساند

تصور کنید یک طراح گرافیک باشید که می‌خواهد کیفیت تصاویر GPT Image 2 را داشته باشد، اما نمی‌خواهد هر بار هزینه اشتراک بپردازد یا منتظر پاسخ سرورهای ابری بماند. حالا این امکان فراهم شده است؛ فاصلهٔ کیفی بین مدل‌های بسته و وزن‌های باز در تولید تصویر تقریباً به صفر رسیده است. در واقع، شکاف فعلی در وفاداری به سبک (Style Fidelity) بین GPT Image 2 و مدل جدید ۱۲.۹ میلیارد پارامتری یک آزمایشگاه مستقل، تنها ۰.۱۴ امتیاز است.

در ۲۲ ژوئن ۲۰۲۶، شرکت Krea وزن‌های مدل Krea 2 را منتشر کرد. این مدل با ۱۲.۹ میلیارد پارامتر، شکاف میان مدل‌های وزن-باز و غول‌های پیشرو در تولید تصویر را به‌شدت کم کرد. این عرضه بلافاصله مورد توجه قرار گرفت و رشته گفتگوهای مربوط به آن در Hacker News تنها در عرض چند ساعت به ۳۴۸ امتیاز رسید.

سال‌ها بود که باکیفیت‌ترین مدل‌های تصویرساز پشت APIهای محدود و سخت‌گیرانه بودند. اگرچه مدل‌های جامعه‌محور مثل Stable Diffusion راه را باز کردند، اما اغلب در درک دقیق دستورات (Prompt Adherence) و پایداری ساختاری ضعیف‌تر از غول‌های اختصاصی بودند. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی تکامل مدل‌های مولد اشاره کردیم، دسترسی به وزن‌های مدل‌ها همیشه کلید دموکراتیزه کردن فناوری بوده است. این روند مشابه آنچه در مدل‌های زبانی دیدیم، جایی که مدل‌های متن‌باز مانند Nemotron 3 Ultra توانستند در استدلال با مدل‌های بسته برابری کنند و سد انحصار شرکت‌های بزرگ را شکستند. Krea 2 اکنون به‌عنوان چالشی مستقیم برای این سلطه آمده است و عملکردی نزدیک به مدل‌های پیشرو (Frontier) ارائه می‌دهد که می‌تواند روی یک کامپیوتر خانگی اجرا شود. در حال حاضر، این مدل در وب‌سایت Artificial Analysis رتبه‌ی اول مدل‌های تبدیل متن به تصویر (Text-to-Image) در میان آزمایشگاه‌های مستقل را دارد.

به نقل از گزارش فنی Krea 2، این سامانه از یک ساختار ترنسفورمر انتشار (Diffusion Transformer یا DiT) تک-جریانی استفاده می‌کند. معماری این سیستم شامل یک DiT متراکم با ۱۲.۹ میلیارد پارامتر و ۲۸ بلوک ترنسفورمر با عرض ۶۱۴۴ است. این مدل از مکانیزم‌های پیشرفته‌ای نظیر Grouped-Query Attention همراه با Gated Sigmoid Attention، لایه‌های SwiGLU MLP با گسترش ۴ برابر (4x expansion) و رمزگذاری موقعیت 3D axial RoPE بهره می‌برد.

این عرضه دو نسخه‌ی متمایز را بر اساس نیاز کاربر ارائه می‌دهد:

Krea 2 Raw: یک نقطه‌ی بازرسی (Checkpoint) میان‌آموزشی که تقطیر نشده است. این نسخه متنوع و انعطاف‌پذیر است و به‌طور خاص برای پژوهشگرانی طراحی شده است که می‌خواهند تنظیم دقیق (Fine-tuning) — مثل وقتی به یک پزشک عمومی، تخصص پوست می‌دهیم تا روی یک حوزه دقیق شود — یا آموزش لورا (LoRA) را انجام دهند.
Krea 2 Turbo: یک موتور تقطیرشده با ۸ گام که بدون هیچ‌گونه سربار Classifier-Free Guidance اجرا می‌شود. این مدل قادر است تصاویر 2K را در حدود دو ثانیه روی GPUهای معمولی مصرف‌کننده تولید کند.

مدل تصویر Krea 2 با وزن‌های باز که به مرزهای پیشرو صنعت نزدیک شده است

بر اساس مستندات این شرکت، فلسفه آموزش Krea یک خروج قابل توجه از روندهای فعلی است. تیم Krea به‌طور صریح استفاده از داده‌های مصنوعی (Synthetic Data) را رد کرد؛ آن‌ها استدلال کردند که «حتی مقدار کمی از تصاویر ساخته‌شده توسط AI، سوگیری‌هایی را معرفی می‌کند» که باعث تخریب تنوع خروجی می‌شود. در عوض، آن‌ها یک خط لوله شش‌مرحله‌ای را برای پردازش میلیاردها تصویر واقعی از طریق فیلترهای گزینشی ساختند:

پیش‌آموزش: افزایش تدریجی رزولوشن از ۲۵۶ تا ۱۰۲۴ پیکسل. آموزش ۸ بیتی در رزولوشن‌های پایین‌تر منجر به افزایش سرعت ۱۵ تا ۲۰ درصدی شد.
میان‌آموزش: ایجاد پلی برای پر کردن شکاف بین مرحله پیش‌آموزش و SFT.
تنظیم نظارت‌شده (SFT): استفاده از مجموعه‌داده‌های کوچک که به‌صورت دستی دست‌چین شده‌اند.
بهینه‌سازی ترجیح: بهره‌گیری از روش STPO (بهینه‌سازی ترجیح زمانی تثبیت‌شده).
یادگیری تقویتی: استفاده از Multi-reward GRPO با چهار سیگنال مستقل. این روش از پاداش‌های مبتنی بر دستورالعمل (Rubric-based) استفاده می‌کند که دستورات را به الزامات قابل تأیید تجزیه می‌کند تا از پدیده Reward Hacking (تقلب در پاداش) جلوگیری شود. همچنین یک مدل پاداش مخصوس برای شناسایی خطاهای ساختاری (Artifact Reward Model) در آن تعبیه شده است.
تقطیر گام زمانی: ایجاد نسخه‌ی Turbo از طریق متد TDM.

برای استقرار محلی، کاربران می‌توانند از ComfyUI (نسخه ۰.۲۵.۰ به بالا) با وزن‌های کوانتیده FP8 استفاده کنند. این کار نیاز به حافظه ترنسفورمر را از ۲۴.۷۶ گیگابایت به ۱۲.۰۱ گیگابایت کاهش می‌دهد. بنابراین مدل روی کارت گرافیک‌هایی با ۱۶ گیگابایت VRAM مثل RTX 4060 Ti 16GB، RTX 5080 یا RTX 4090 به‌راحتی اجرا می‌شود.

حداقل سخت‌افزار مورد نیاز:

GPU: ۱۶ گیگابایت VRAM
رم سیستم: حداقل ۱۶ گیگابایت (۳۲ گیگابایت توصیه می‌شود)
حافظه: حدود ۱۸ گیگابایت برای فایل‌های مدل

برای استقرارهای حرفه‌ای، ادغام‌های این مدل هم‌اکنون در پلتفرم‌هایی مانند fal، Replicate، Together AI، Cloudflare و SGLang فعال است.

این عرضه این فرض را می‌شکند که کیفیت سطح پیشرو (Frontier) حتماً به ابرهای عظیم شرکتی نیاز دارد. Krea با انتشار کامل گزارش فنی — شامل جزئیات پاک‌سازی داده‌ها و اسرار آموزش توزیع‌شده که معمولاً مخفی نگه داشته می‌شوند — نقشه‌ای را برای آزمایشگاه‌های مستقل فراهم کرد تا با OpenAI رقابت کنند. برای کاربر نهایی، این یعنی کنترل سبک‌های حرفه‌ای دیگر یک سرویس اشتراکی پولی نیست. انتقال بین نقاط بازرسی به‌طور خاص مهندسی شده است؛ لوراهای آموزش‌دیده روی مدل Raw «به‌شدت به مدل Turbo منتقل می‌شوند» تا در استنتاج‌های تولیدی استفاده شوند. این امر به خلق‌کنندگان سرعتی در تکرار و اصلاح می‌دهد که APIهای بسته هرگز نمی‌توانند با آن رقابت کنند.

توسعه‌دهندگان باید مجوز جامعه‌ی Hugging Face را بررسی کنند که استفاده تجاری رایگان را برای افراد و تیم‌های کوچک (با درآمد سالانه زیر ۱ میلیون دلار و کمتر از ۵۰ کاربر) مجاز می‌داند. البته اعمال فیلترینگ محتوا اجباری است. در نقشه راه آینده، انتقال به معماری ترکیب خبره‌ها (MoE)، پشتیبانی بومی از رزولوشن 2K تا 4K از طریق Sparse Attention و آموزش NVFP4 برای بهره‌وری بیشتر دیده می‌شود.

گام بعدی شما

اگر کارت گرافیک ۱۶ گیگابایتی دارید، مدل Krea 2 را از طریق ComfyUI با کوانتایزیشن FP8 تست کنید.
برای پروژه‌های تجاری کوچک، از لایسنس رایگان Hugging Face برای استقرار مدل بهره ببرید.
مدل Raw را برای آموزش LoRAهای اختصاصی خود به کار بگیرید و سپس آن‌ها را روی نسخه Turbo اجرا کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

این عرضه دو نسخه‌ی متمایز را بر اساس نیاز کاربر ارائه می‌دهد:

Krea 2 Raw: یک نقطه‌ی بازرسی (Checkpoint) میان‌آموزشی که تقطیر نشده است. این نسخه متنوع و انعطاف‌پذیر است و به‌طور خاص برای پژوهشگرانی طراحی شده است که می‌خواهند تنظیم دقیق (Fine-tuning) — مثل وقتی به یک پزشک عمومی، تخصص پوست می‌دهیم تا روی یک حوزه دقیق شود — یا آموزش لورا (LoRA) را انجام دهند.
Krea 2 Turbo: یک موتور تقطیرشده با ۸ گام که بدون هیچ‌گونه سربار Classifier-Free Guidance اجرا می‌شود. این مدل قادر است تصاویر 2K را در حدود دو ثانیه روی GPUهای معمولی مصرف‌کننده تولید کند.

مدل تصویر Krea 2 با وزن‌های باز که به مرزهای پیشرو صنعت نزدیک شده است

پیش‌آموزش: افزایش تدریجی رزولوشن از ۲۵۶ تا ۱۰۲۴ پیکسل. آموزش ۸ بیتی در رزولوشن‌های پایین‌تر منجر به افزایش سرعت ۱۵ تا ۲۰ درصدی شد.
میان‌آموزش: ایجاد پلی برای پر کردن شکاف بین مرحله پیش‌آموزش و SFT.
تنظیم نظارت‌شده (SFT): استفاده از مجموعه‌داده‌های کوچک که به‌صورت دستی دست‌چین شده‌اند.
بهینه‌سازی ترجیح: بهره‌گیری از روش STPO (بهینه‌سازی ترجیح زمانی تثبیت‌شده).
یادگیری تقویتی: استفاده از Multi-reward GRPO با چهار سیگنال مستقل. این روش از پاداش‌های مبتنی بر دستورالعمل (Rubric-based) استفاده می‌کند که دستورات را به الزامات قابل تأیید تجزیه می‌کند تا از پدیده Reward Hacking (تقلب در پاداش) جلوگیری شود. همچنین یک مدل پاداش مخصوس برای شناسایی خطاهای ساختاری (Artifact Reward Model) در آن تعبیه شده است.
تقطیر گام زمانی: ایجاد نسخه‌ی Turbo از طریق متد TDM.

حداقل سخت‌افزار مورد نیاز:

GPU: ۱۶ گیگابایت VRAM
رم سیستم: حداقل ۱۶ گیگابایت (۳۲ گیگابایت توصیه می‌شود)
حافظه: حدود ۱۸ گیگابایت برای فایل‌های مدل

گام بعدی شما

اگر کارت گرافیک ۱۶ گیگابایتی دارید، مدل Krea 2 را از طریق ComfyUI با کوانتایزیشن FP8 تست کنید.
برای پروژه‌های تجاری کوچک، از لایسنس رایگان Hugging Face برای استقرار مدل بهره ببرید.
مدل Raw را برای آموزش LoRAهای اختصاصی خود به کار بگیرید و سپس آن‌ها را روی نسخه Turbo اجرا کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Krea 2 فاصلهٔ کیفی با GPT Image 2 را به ۰.۱۴ امتیاز رساند

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Krea 2 فاصلهٔ کیفی با GPT Image 2 را به ۰.۱۴ امتیاز رساند

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Krea 2 فاصلهٔ کیفی با GPT Image 2 را به ۰.۱۴ امتیاز رساند

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Krea 2 فاصلهٔ کیفی با GPT Image 2 را به ۰.۱۴ امتیاز رساند

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران