تصور کنید یک طراح گرافیک باشید که میخواهد کیفیت تصاویر GPT Image 2 را داشته باشد، اما نمیخواهد هر بار هزینه اشتراک بپردازد یا منتظر پاسخ سرورهای ابری بماند. حالا این امکان فراهم شده است؛ فاصلهٔ کیفی بین مدلهای بسته و وزنهای باز در تولید تصویر تقریباً به صفر رسیده است. در واقع، شکاف فعلی در وفاداری به سبک (Style Fidelity) بین GPT Image 2 و مدل جدید ۱۲.۹ میلیارد پارامتری یک آزمایشگاه مستقل، تنها ۰.۱۴ امتیاز است.
در ۲۲ ژوئن ۲۰۲۶، شرکت Krea وزنهای مدل Krea 2 را منتشر کرد. این مدل با ۱۲.۹ میلیارد پارامتر، شکاف میان مدلهای وزن-باز و غولهای پیشرو در تولید تصویر را بهشدت کم کرد. این عرضه بلافاصله مورد توجه قرار گرفت و رشته گفتگوهای مربوط به آن در Hacker News تنها در عرض چند ساعت به ۳۴۸ امتیاز رسید.
سالها بود که باکیفیتترین مدلهای تصویرساز پشت APIهای محدود و سختگیرانه بودند. اگرچه مدلهای جامعهمحور مثل Stable Diffusion راه را باز کردند، اما اغلب در درک دقیق دستورات (Prompt Adherence) و پایداری ساختاری ضعیفتر از غولهای اختصاصی بودند. همانطور که در تحلیلهای قبلی ما دربارهی تکامل مدلهای مولد اشاره کردیم، دسترسی به وزنهای مدلها همیشه کلید دموکراتیزه کردن فناوری بوده است. این روند مشابه آنچه در مدلهای زبانی دیدیم، جایی که مدلهای متنباز مانند Nemotron 3 Ultra توانستند در استدلال با مدلهای بسته برابری کنند و سد انحصار شرکتهای بزرگ را شکستند. Krea 2 اکنون بهعنوان چالشی مستقیم برای این سلطه آمده است و عملکردی نزدیک به مدلهای پیشرو (Frontier) ارائه میدهد که میتواند روی یک کامپیوتر خانگی اجرا شود. در حال حاضر، این مدل در وبسایت Artificial Analysis رتبهی اول مدلهای تبدیل متن به تصویر (Text-to-Image) در میان آزمایشگاههای مستقل را دارد.
به نقل از گزارش فنی Krea 2، این سامانه از یک ساختار ترنسفورمر انتشار (Diffusion Transformer یا DiT) تک-جریانی استفاده میکند. معماری این سیستم شامل یک DiT متراکم با ۱۲.۹ میلیارد پارامتر و ۲۸ بلوک ترنسفورمر با عرض ۶۱۴۴ است. این مدل از مکانیزمهای پیشرفتهای نظیر Grouped-Query Attention همراه با Gated Sigmoid Attention، لایههای SwiGLU MLP با گسترش ۴ برابر (4x expansion) و رمزگذاری موقعیت 3D axial RoPE بهره میبرد.
این عرضه دو نسخهی متمایز را بر اساس نیاز کاربر ارائه میدهد:
- Krea 2 Raw: یک نقطهی بازرسی (Checkpoint) میانآموزشی که تقطیر نشده است. این نسخه متنوع و انعطافپذیر است و بهطور خاص برای پژوهشگرانی طراحی شده است که میخواهند تنظیم دقیق (Fine-tuning) — مثل وقتی به یک پزشک عمومی، تخصص پوست میدهیم تا روی یک حوزه دقیق شود — یا آموزش لورا (LoRA) را انجام دهند.
- Krea 2 Turbo: یک موتور تقطیرشده با ۸ گام که بدون هیچگونه سربار Classifier-Free Guidance اجرا میشود. این مدل قادر است تصاویر 2K را در حدود دو ثانیه روی GPUهای معمولی مصرفکننده تولید کند.

بر اساس مستندات این شرکت، فلسفه آموزش Krea یک خروج قابل توجه از روندهای فعلی است. تیم Krea بهطور صریح استفاده از دادههای مصنوعی (Synthetic Data) را رد کرد؛ آنها استدلال کردند که «حتی مقدار کمی از تصاویر ساختهشده توسط AI، سوگیریهایی را معرفی میکند» که باعث تخریب تنوع خروجی میشود. در عوض، آنها یک خط لوله ششمرحلهای را برای پردازش میلیاردها تصویر واقعی از طریق فیلترهای گزینشی ساختند:
- پیشآموزش: افزایش تدریجی رزولوشن از ۲۵۶ تا ۱۰۲۴ پیکسل. آموزش ۸ بیتی در رزولوشنهای پایینتر منجر به افزایش سرعت ۱۵ تا ۲۰ درصدی شد.
- میانآموزش: ایجاد پلی برای پر کردن شکاف بین مرحله پیشآموزش و SFT.
- تنظیم نظارتشده (SFT): استفاده از مجموعهدادههای کوچک که بهصورت دستی دستچین شدهاند.
- بهینهسازی ترجیح: بهرهگیری از روش STPO (بهینهسازی ترجیح زمانی تثبیتشده).
- یادگیری تقویتی: استفاده از Multi-reward GRPO با چهار سیگنال مستقل. این روش از پاداشهای مبتنی بر دستورالعمل (Rubric-based) استفاده میکند که دستورات را به الزامات قابل تأیید تجزیه میکند تا از پدیده Reward Hacking (تقلب در پاداش) جلوگیری شود. همچنین یک مدل پاداش مخصوس برای شناسایی خطاهای ساختاری (Artifact Reward Model) در آن تعبیه شده است.
- تقطیر گام زمانی: ایجاد نسخهی Turbo از طریق متد TDM.
برای استقرار محلی، کاربران میتوانند از ComfyUI (نسخه ۰.۲۵.۰ به بالا) با وزنهای کوانتیده FP8 استفاده کنند. این کار نیاز به حافظه ترنسفورمر را از ۲۴.۷۶ گیگابایت به ۱۲.۰۱ گیگابایت کاهش میدهد. بنابراین مدل روی کارت گرافیکهایی با ۱۶ گیگابایت VRAM مثل RTX 4060 Ti 16GB، RTX 5080 یا RTX 4090 بهراحتی اجرا میشود.
حداقل سختافزار مورد نیاز:
- GPU: ۱۶ گیگابایت VRAM
- رم سیستم: حداقل ۱۶ گیگابایت (۳۲ گیگابایت توصیه میشود)
- حافظه: حدود ۱۸ گیگابایت برای فایلهای مدل
برای استقرارهای حرفهای، ادغامهای این مدل هماکنون در پلتفرمهایی مانند fal، Replicate، Together AI، Cloudflare و SGLang فعال است.
این عرضه این فرض را میشکند که کیفیت سطح پیشرو (Frontier) حتماً به ابرهای عظیم شرکتی نیاز دارد. Krea با انتشار کامل گزارش فنی — شامل جزئیات پاکسازی دادهها و اسرار آموزش توزیعشده که معمولاً مخفی نگه داشته میشوند — نقشهای را برای آزمایشگاههای مستقل فراهم کرد تا با OpenAI رقابت کنند. برای کاربر نهایی، این یعنی کنترل سبکهای حرفهای دیگر یک سرویس اشتراکی پولی نیست. انتقال بین نقاط بازرسی بهطور خاص مهندسی شده است؛ لوراهای آموزشدیده روی مدل Raw «بهشدت به مدل Turbo منتقل میشوند» تا در استنتاجهای تولیدی استفاده شوند. این امر به خلقکنندگان سرعتی در تکرار و اصلاح میدهد که APIهای بسته هرگز نمیتوانند با آن رقابت کنند.
توسعهدهندگان باید مجوز جامعهی Hugging Face را بررسی کنند که استفاده تجاری رایگان را برای افراد و تیمهای کوچک (با درآمد سالانه زیر ۱ میلیون دلار و کمتر از ۵۰ کاربر) مجاز میداند. البته اعمال فیلترینگ محتوا اجباری است. در نقشه راه آینده، انتقال به معماری ترکیب خبرهها (MoE)، پشتیبانی بومی از رزولوشن 2K تا 4K از طریق Sparse Attention و آموزش NVFP4 برای بهرهوری بیشتر دیده میشود.
گام بعدی شما
- اگر کارت گرافیک ۱۶ گیگابایتی دارید، مدل Krea 2 را از طریق ComfyUI با کوانتایزیشن FP8 تست کنید.
- برای پروژههای تجاری کوچک، از لایسنس رایگان Hugging Face برای استقرار مدل بهره ببرید.
- مدل Raw را برای آموزش LoRAهای اختصاصی خود به کار بگیرید و سپس آنها را روی نسخه Turbo اجرا کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو