حذف فریم‌های تکراری؛ راهکار claude-real-video برای تماشای ویدیو توسط مدل‌های

منبع خبر

همین حالا·۱۲ تیر ۱۴۰۵۴ دقیقه مطالعه

راهنما

گیت‌هاب - ابزار محلی برای تحلیل ویدیو با کلود: استخراج فریم‌های کلیدی و رونوشت، از URL یا فایل محلی، مجوز MIT.

اشتراک‌گذاری

اگر امروز ویدیوهای طولانی یا سریع را به مدل‌های هوش مصنوعی می‌دهید، احتمالاً متوجه شده‌اید که آن‌ها بخش‌های زیادی از جزئیات بصری را نادیده می‌گیرند. ابزار claude-real-video که در ۲ جولای ۲۰۲۶ منتشر شد، دقیقاً همین نقطه کور حیاتی در هوش مصنوعی چندوجهی را هدف گرفته است: ناتوانی اکثر مدل‌های زبانی بزرگ (LLM) در «دیدن» واقعی محتوای ویدیو. هدف این ابزار این است که مدل‌ها واقعاً محتوا را «ببینند» نه اینکه فقط متن‌ها را بخوانند.

بسیاری از پردازش‌های ویدیویی فعلی در AI ناکارآمد هستند. نمونه‌برداری استاندارد باعث می‌شود صفحات استاتیک بیش از حد ثبت شوند و در مقابل، کلیپ‌های سریع (fast-cut reels) به‌طور کامل نادیده گرفته شوند. با تمرکز بر تشخیص تغییر صحنه و حذف تکراری‌های سطح پیکسل، این ابزار تضمین می‌کند که مدل LLM یک خلاصه بصری فشرده و معنادار دریافت کند، بدون اینکه پنجره متنی (Context Window) مدل بیش از حد اشباع شود. همان‌طور که در تحلیل قبلی ما درباره‌ی بهینه‌سازی پرامپت‌های سیستمی Claude Code برای کاهش سربار اشاره کردیم، در اینجا نیز فلسفه اصلی «بهره‌وری در ورودی» است تا مدل با حجم زیاد داده‌های بی‌ارزش خسته نشود.

زمینه و فلسفه «دیدن» ویدیو

بسیاری از ابزارهای تحلیل ویدیو مبتنی بر LLM از «میان‌برها» استفاده می‌کنند. برای مثال، وقتی لینک یوتیوب را در ChatGPT می‌گذارید، مدل معمولاً فقط متن تبدیل‌شده به نوشتار (Transcript) را می‌خواند و اصلاً به تصاویر واقعی نگاه نمی‌کند. حتی Gemini که ویدیو را به‌صورت بومی (Native) پردازش می‌کند، به‌طور پیش‌فرض فریم‌ها را با نرخ ثابت ۱ فریم در ثانیه نمونه‌برداری می‌کند. این یعنی اگر یک برش سریع در ویدیو وجود داشته باشد، آن لحظه احتمالاً به‌طور کامل از دید AI پنهان می‌ماند. این چالش در مدل‌های پیشرفته‌تر نیز دیده می‌شود، هرچند مدل‌های بنیادی مانند V-JEPA تلاش کرده‌اند تا با کدگذاری قوانین فیزیکی درک بصری عمیق‌تری از ویدیوها به دست آورند.

در مقابل، claude-real-video به‌صورت محلی (Local) عمل می‌کند. این ابزار یک URL یا یک فایل ویدیویی را به یک پوشه مرتب تبدیل می‌کند که شامل تصاویر JPEG، متن پیوست و یک فایل MANIFEST.txt است. کاربران سپس می‌توانند این دارایی‌ها را مستقیماً در Claude، ChatGPT یا Gemini قرار دهند. این رویکرد نیاز به آپلود فایل‌های خام و حجیم ویدیو در فضای ابری را از بین می‌برد و باعث می‌شود داده‌ها در دستگاه کاربر باقی بمانند.

جزئیات فنی و مکانیسم‌ها

طبق مستندات این پروژه در GitHub، این سامانه در چهار مرحله مجزا عمل می‌کند:

دریافت (Fetch): این مرحله از yt-dlp برای استخراج ویدیو از URLها (شامل اینستاگرام و تیک‌تاک) یا کپی فایل‌های محلی استفاده می‌کند. این ابزار از flag مربوط به --cookies پشتیبانی می‌کند تا بتوان از طریق فایل‌های کوکی Netscape به محتواهای محدودشده با ورود (Login-gated) دسترسی پیدا کرد.
استخراج (Extract): بهره‌گیری از ffmpeg و ffprobe برای شکار تک‌تک تغییرات صحنه. برای اینکه در ویدیوهای بسیار کند یا اسکرین‌کست‌ها هیچ‌چیزی گم نشود، یک کفِ نرخ فریم یا --fps-floor (به‌صورت پیش‌فرض ۱.۰ ثانیه) تعریف شده است تا تضمین شود حداقل هر N ثانیه یک فریم ثبت شود و هم برش‌های سریع و هم صحنه‌های طولانی پوشش داده شوند.
حذف تکراری‌ها (Dedup): به‌جای استفاده از اثرانگشت‌های بصری (Perceptual Hashes) که ممکن است در رنگ‌های تخت دچار خطا شوند، این ابزار از بررسی تفاوت پیکسل‌ها در یک پنجره لغزان (با RGB کاهش‌یافته) استفاده می‌کند. با مقایسه فریم جاری با آخرین --dedup-window (به‌طور پیش‌فرض ۴ فریم)، ابزار از ارسال مجدد یک نمای تکراری در برش‌های نوع A-B-A جلوگیری می‌کند تا مدل یک تصویر را دوبار نبیند.
متن (Text): اولویت با دقت بالا است؛ بنابراین ابزار ابتدا از ترک‌های زیرنویس داخلی یا فایل‌های sidecar مانند .srt و .vtt استفاده می‌کند. اگر هیچ زیرنویسی وجود نداشته باشد، ابزار به سراغ OpenAI Whisper می‌رود تا با قابلیت تشخیص خودکار زبان، گفتار را به متن تبدیل کند.

پیکربندی و کنترل‌ها

کاربران می‌توانند فرآیند استخراج را با فلگ‌های خاص تنظیم کنند:

دقت (Precision): پارامتر --scene 0.30 حساسیت شناسایی تغییر صحنه را تنظیم می‌کند (مقادیر کمتر باعث افزایش تعداد فریم‌ها می‌شود)، در حالی که --dedup-threshold 8 درصد تغییر پیکسل‌های لازم برای «جدید» شناخته شدن یک فریم را تعیین می‌کند.
محدودیت‌ها (Constraints): گزینه --max-frames 150 یک سقف سخت برای تعداد کل فریم‌ها تعیین می‌کند تا هزینه‌های مربوط به پنجره متنی به حداقل برسد.
صدا (Audio): گزینه --keep-audio صدای اصلی را به‌صورت lossless در قالب فایل .m4a ذخیره می‌کند. این امکان به مدل‌هایی مثل GPT-4o یا Gemini اجازه می‌دهد تا موسیقی و لحن صدا را تحلیل کنند، در حالی که متن زیرنویس فقط کلمات را منتقل می‌کند.
بازرسی (Auditing): فلگ --report یک فایل report.html ایجاد می‌کند که به کاربر اجازه می‌دهد تمام تصمیمات «نگه داشتن یا حذف» (keep/drop) فریم‌ها و درصد تفاوت (diff percentage) آن‌ها را به‌صورت بصری مشاهده کند.

برای کاربر عملیاتی، این تغییر، تحلیل ویدیو را از ابر به دستگاه محلی منتقل می‌کند. شما دیگر نیازی به آپلود فایل‌های حساس به ارائه‌دهندگان ابری ندارید؛ بلکه صرفاً یک پوشه JPEG و یک فایل MANIFEST.txt تولید می‌کنید تا در رابط چت مورد نظرتان قرار دهید. این موضوع به‌طور بنیادی نحوه تعامل با ویدیوهای آموزشی طولانی یا ریلزهای سریع شبکه‌های اجتماعی را تغییر می‌دهد، زیرا مدرک بصری دقیق مورد نیاز برای پاسخ صحیح را در اختیار مدل قرار می‌دهد. در حالی که این ابزار بر تحلیل متمرکز است، برای کسانی که در ساخت محتوا فعال‌اند، بهینه‌سازی‌های جدید در رندرینگ ویدیوهای سینماتیک نیز می‌تواند مکمل مفیدی در زنجیره تولید باشد.

اثر درجه‌ دوم این ابزار، کاهش «توهمات» (Hallucinations) در توصیفات بصری است. وقتی یک مدل ۶۰۰ فریم یکسان از یک اسلاید ثابت دریافت می‌کند، اغلب رشته افکارش را گم می‌کند؛ اما وقتی تنها یک فریم و یک متن دریافت کند، کیفیت استدلال او به‌شدت بالا می‌رود. این ثابت می‌کند که پیش‌پردازش هوشمند در حال حاضر بسیار ارزشمندتر از افزایش پنجره متنی (Context Window) — یعنی میز کاری مدل که تعیین می‌کند چه مقدار اطلاعات را هم‌زمان در ذهن نگه دارد — است.

برای شروع، ابتدا باید ffmpeg را نصب کنید (از طریق brew install ffmpeg در macOS، sudo apt install ffmpeg در لینوکس، یا winget install Gyan.FFmpeg در ویندوز) و سپس دستور pip install claude-real-video را اجرا نمایید. برای دسترسی به قابلیت‌های صوتی، نسخه pip install "claude-real-video[whisper]" را نصب کنید. این ابزار به پایتون ۳.۱۰ یا نسخه‌های جدیدتر نیاز دارد.

گام بعدی شما

ویدیوهای آموزشی طولانی خود را با این ابزار پیش‌پردازش کنید و تفاوت دقت پاسخ مدل را بسنجید.
از قابلیت --report برای درک نحوه «دیدن» مدل‌ها از جهان بصری استفاده کنید.
اگر با داده‌های حساس کار می‌کنید، تمام مراحل را در محیط محلی اجرا کنید تا هیچ فریم تصویری به سرورهای خارجی ارسال نشود.

اما داستان سخت‌افزاری این تحول و نحوه پردازش این فریم‌ها در GPUها حتی شگفت‌انگیزتر است؛ به تحلیل ما درباره‌ی بهینه‌سازی حافظه VRAM مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.