اگر توسعهدهندهای هستید که از مدیریت چندین مدل مجزا برای کارهای تصویری خسته شدهاید، بایتدنس راهکار جدیدی دارد. مدل Lance با تنها ۳ میلیارد پارامتر فعال، توانسته است در بنچمارک VBench به امتیاز ۸۵.۱۱ برسد.
امروزه اکثر سیستمهای هوش مصنوعی برای هر وظیفه به یک مدل جدا نیاز دارند. شما احتمالاً برای توصیف یک ویدیو از یک مدل و برای ساخت آن از مدلی دیگر استفاده میکنید. Lance اینها را در یک چارچوب چندوجهی (Multimodal) — مثل انسانی که همزمان متن، عکس و صدا را میفهمد — جمع کرده است. همانطور که در تحلیلهای قبلی ما دربارهی مدلهای زبانی کوچک اشاره کردیم، تمرکز صنعت از مقیاس خام به سمت بهرهوری حرکت میکند.
این مدل در ۲۰ مه ۲۰۲۶ منتشر شد. بایتدنس (ByteDance) طبق مستندات منتشر شده، این مدل را از ابتدا با استفاده از ۱۲۸ پردازنده A100 آموزش داده است. Lance شش وظیفه اصلی را پشتیبانی میکند: تبدیل متن به تصویر (t2i)، متن به ویدیو (t2v)، ویرایش تصویر، ویرایش ویدیو و درک تصویر و ویدیو (x2t).

بر اساس گزارش گیتهاب، این مدل در GenEval امتیاز ۰.۹۰ و در GEdit-Bench امتیاز ۷.۳۰ را کسب کرده است. برای استنتاج (Inference) — یعنی لحظهای که مدل واقعاً جواب تولید میکند، شبیه خودِ آشپزی و نه دورهی آموزش آشپز — به پردازندهای با حداقل ۴۰ گیگابایت VRAM نیاز دارید.
این برای جیب و کار شما به این معناست که دیگر نیازی به مدیریت «باغچه مدلهای» پراکنده ندارید. یک مدل ۳ میلیارد پارامتری که عملکرد مدلهای ۲۰ میلیارد پارامتری را دارد، هزینههای محاسباتی را بهشدت کاهش میدهد. این نتیجه ثابت میکند که دستور پخت آموزشی چندوظیفهای میتواند جایگزین مقیاسهای عظیم شود.
گام بعدی شما
- وزنهای مدل را از Hugging Face دانلود کنید.
- رابط خط فرمان (CLI) یکپارچه را برای اتوماسیون تست کنید.
- اثر این بهینهسازی بر ویرایشگرهای ویدئویی داخلی دستگاهها را دنبال کنید.
اما تأثیر این بهینهسازی بر سختافزارهای موبایل حتی جذابتر است — به بررسی ما دربارهی پردازندههای NPU مراجعه کنید.
گفتگو