اگر امروز برای پردازشهای ویدئویی هزینه سرور میپردازید، باید بدانید که دوران آپلود دادهها برای تبدیل ویدیو به انیمیشن به پایان رسیده است. تصور کنید بتوانید یک ویدیوی رقص را به انیمیشن تبدیل کنید، بدون اینکه حتی یک بایت از اطلاعات شما از سیستم خارج شود.
اکثر ابزارهای ویدیو با هوش مصنوعی زاینده (Generative AI) به خوشههای گرانقیمت GPU وابسته هستند — شبیه به کرایهٔ یک آشپزخانهٔ صنعتی که هرچه دستور پخت سنگینتر باشد، هزینه آن بیشتر میشود. این مدل ابری باعث کندی در مقیاسپذیر شدن و هزینههای بالای عملیاتی میشود. stikshot با انتقال کل خط لوله به مرورگر، محیط وب را به یک ایستگاه کاری محلی تبدیل کرده است. این رویکرد، حریم خصوصی مطلق کاربر را تضمین میکند و هزینه سرور برای توسعهدهنده را به صفر میرساند.
همانطور که در تحلیلهای پیشین ما دربارهی رایانش لبه (Edge Computing) اشاره کردیم، انتقال پردازش به نزدیکی کاربر، کلید اصلی بهینهسازی تجربه کاربری است. طبق اعلام گزارش dev.to، این اپلیکیشن در ۷ ژوئن ۲۰۲۶ عرضه شد و برای تشخیص مفاصل بدن از مدل MoveNet Multipose روی بستر TensorFlow.js استفاده میکند. برای جلوگیری از لگ زدن رابط کاربری، این سیستم از یک معماری دو-رشتهای شامل یک «هماهنگکننده رشته اصلی» و یک «پردازنده Web Worker» بهره میبرد.
جزئیات فنی این پیادهسازی شامل موارد زیر است:
- WebCodecs API: استفاده از رمزگذارهای بومی ویدیو و صدا برای حفظ حداکثر کارایی.
- webm-muxer: ابزاری برای تبدیل جریانهای خروجی به فایلهای قابل پخش WebM.
- رفع باگ Safari: تیم توسعه با کپی کردن اشیاء متادیتای منجمد به اشیاء پاک، مشکل کرشهای iOS را حل کرد.
- رفع باگ Android: یک مهلت ۸ ثانیهای برای رمزگشای صدا اضافه شد تا از توقف کروم در مواجهه با تراکهای خراب جلوگیری شود.
برای توسعهدهندگان، این پروژه ثابت میکند که پردازشهای سنگین ویدئویی در حال حرکت از ابر به سمت لبه هستند. stikshot نشان داد که «هوش مصنوعی بدون سرور» اکنون بیشتر با مهندسیِ دور زدن باگهای مرورگر گره خورده است تا محدودیتهای سختافزاری.
گام بعدی شما
- بررسی stikshot.com برای تست خط لولهی محلی روی ویدیوهای خودتان.
- مطالعه مستندات WebCodecs API برای یادگیری نحوه پردازش ویدیو در مرورگر.
- دنبال کردن پیشرفتهای این پروژه در زمینه خروجیهای ۳ بعدی برای موتورهای Unity و Unreal.
اما انتقال پردازش به مرورگر تنها بخشی از معماست؛ برای درک چگونگی بهینهسازی مدلهای بزرگ برای سختافزار لبه، گزارش ما دربارهی مدلهای زبانی کوچک را بخوانید.
گفتگو