اگر امروز ویدیوهای طولانی یا سریع را به مدلهای هوش مصنوعی میدهید، احتمالاً متوجه شدهاید که آنها بخشهای زیادی از جزئیات بصری را نادیده میگیرند. ابزار claude-real-video که در ۲ جولای ۲۰۲۶ منتشر شد، دقیقاً همین نقطه کور حیاتی در هوش مصنوعی چندوجهی را هدف گرفته است: ناتوانی اکثر مدلهای زبانی بزرگ (LLM) در «دیدن» واقعی محتوای ویدیو. هدف این ابزار این است که مدلها واقعاً محتوا را «ببینند» نه اینکه فقط متنها را بخوانند.
بسیاری از پردازشهای ویدیویی فعلی در AI ناکارآمد هستند. نمونهبرداری استاندارد باعث میشود صفحات استاتیک بیش از حد ثبت شوند و در مقابل، کلیپهای سریع (fast-cut reels) بهطور کامل نادیده گرفته شوند. با تمرکز بر تشخیص تغییر صحنه و حذف تکراریهای سطح پیکسل، این ابزار تضمین میکند که مدل LLM یک خلاصه بصری فشرده و معنادار دریافت کند، بدون اینکه پنجره متنی (Context Window) مدل بیش از حد اشباع شود. همانطور که در تحلیل قبلی ما دربارهی بهینهسازی پرامپتهای سیستمی Claude Code برای کاهش سربار اشاره کردیم، در اینجا نیز فلسفه اصلی «بهرهوری در ورودی» است تا مدل با حجم زیاد دادههای بیارزش خسته نشود.
زمینه و فلسفه «دیدن» ویدیو
بسیاری از ابزارهای تحلیل ویدیو مبتنی بر LLM از «میانبرها» استفاده میکنند. برای مثال، وقتی لینک یوتیوب را در ChatGPT میگذارید، مدل معمولاً فقط متن تبدیلشده به نوشتار (Transcript) را میخواند و اصلاً به تصاویر واقعی نگاه نمیکند. حتی Gemini که ویدیو را بهصورت بومی (Native) پردازش میکند، بهطور پیشفرض فریمها را با نرخ ثابت ۱ فریم در ثانیه نمونهبرداری میکند. این یعنی اگر یک برش سریع در ویدیو وجود داشته باشد، آن لحظه احتمالاً بهطور کامل از دید AI پنهان میماند. این چالش در مدلهای پیشرفتهتر نیز دیده میشود، هرچند مدلهای بنیادی مانند V-JEPA تلاش کردهاند تا با کدگذاری قوانین فیزیکی درک بصری عمیقتری از ویدیوها به دست آورند.
در مقابل، claude-real-video بهصورت محلی (Local) عمل میکند. این ابزار یک URL یا یک فایل ویدیویی را به یک پوشه مرتب تبدیل میکند که شامل تصاویر JPEG، متن پیوست و یک فایل MANIFEST.txt است. کاربران سپس میتوانند این داراییها را مستقیماً در Claude، ChatGPT یا Gemini قرار دهند. این رویکرد نیاز به آپلود فایلهای خام و حجیم ویدیو در فضای ابری را از بین میبرد و باعث میشود دادهها در دستگاه کاربر باقی بمانند.
جزئیات فنی و مکانیسمها
طبق مستندات این پروژه در GitHub، این سامانه در چهار مرحله مجزا عمل میکند:
- دریافت (Fetch): این مرحله از yt-dlp برای استخراج ویدیو از URLها (شامل اینستاگرام و تیکتاک) یا کپی فایلهای محلی استفاده میکند. این ابزار از flag مربوط به
--cookiesپشتیبانی میکند تا بتوان از طریق فایلهای کوکی Netscape به محتواهای محدودشده با ورود (Login-gated) دسترسی پیدا کرد. - استخراج (Extract): بهرهگیری از ffmpeg و ffprobe برای شکار تکتک تغییرات صحنه. برای اینکه در ویدیوهای بسیار کند یا اسکرینکستها هیچچیزی گم نشود، یک کفِ نرخ فریم یا
--fps-floor(بهصورت پیشفرض ۱.۰ ثانیه) تعریف شده است تا تضمین شود حداقل هر N ثانیه یک فریم ثبت شود و هم برشهای سریع و هم صحنههای طولانی پوشش داده شوند. - حذف تکراریها (Dedup): بهجای استفاده از اثرانگشتهای بصری (Perceptual Hashes) که ممکن است در رنگهای تخت دچار خطا شوند، این ابزار از بررسی تفاوت پیکسلها در یک پنجره لغزان (با RGB کاهشیافته) استفاده میکند. با مقایسه فریم جاری با آخرین
--dedup-window(بهطور پیشفرض ۴ فریم)، ابزار از ارسال مجدد یک نمای تکراری در برشهای نوع A-B-A جلوگیری میکند تا مدل یک تصویر را دوبار نبیند. - متن (Text): اولویت با دقت بالا است؛ بنابراین ابزار ابتدا از ترکهای زیرنویس داخلی یا فایلهای sidecar مانند
.srtو.vttاستفاده میکند. اگر هیچ زیرنویسی وجود نداشته باشد، ابزار به سراغ OpenAI Whisper میرود تا با قابلیت تشخیص خودکار زبان، گفتار را به متن تبدیل کند.
پیکربندی و کنترلها
کاربران میتوانند فرآیند استخراج را با فلگهای خاص تنظیم کنند:
- دقت (Precision): پارامتر
--scene 0.30حساسیت شناسایی تغییر صحنه را تنظیم میکند (مقادیر کمتر باعث افزایش تعداد فریمها میشود)، در حالی که--dedup-threshold 8درصد تغییر پیکسلهای لازم برای «جدید» شناخته شدن یک فریم را تعیین میکند. - محدودیتها (Constraints): گزینه
--max-frames 150یک سقف سخت برای تعداد کل فریمها تعیین میکند تا هزینههای مربوط به پنجره متنی به حداقل برسد. - صدا (Audio): گزینه
--keep-audioصدای اصلی را بهصورت lossless در قالب فایل.m4aذخیره میکند. این امکان به مدلهایی مثل GPT-4o یا Gemini اجازه میدهد تا موسیقی و لحن صدا را تحلیل کنند، در حالی که متن زیرنویس فقط کلمات را منتقل میکند. - بازرسی (Auditing): فلگ
--reportیک فایلreport.htmlایجاد میکند که به کاربر اجازه میدهد تمام تصمیمات «نگه داشتن یا حذف» (keep/drop) فریمها و درصد تفاوت (diff percentage) آنها را بهصورت بصری مشاهده کند.
برای کاربر عملیاتی، این تغییر، تحلیل ویدیو را از ابر به دستگاه محلی منتقل میکند. شما دیگر نیازی به آپلود فایلهای حساس به ارائهدهندگان ابری ندارید؛ بلکه صرفاً یک پوشه JPEG و یک فایل MANIFEST.txt تولید میکنید تا در رابط چت مورد نظرتان قرار دهید. این موضوع بهطور بنیادی نحوه تعامل با ویدیوهای آموزشی طولانی یا ریلزهای سریع شبکههای اجتماعی را تغییر میدهد، زیرا مدرک بصری دقیق مورد نیاز برای پاسخ صحیح را در اختیار مدل قرار میدهد. در حالی که این ابزار بر تحلیل متمرکز است، برای کسانی که در ساخت محتوا فعالاند، بهینهسازیهای جدید در رندرینگ ویدیوهای سینماتیک نیز میتواند مکمل مفیدی در زنجیره تولید باشد.
اثر درجه دوم این ابزار، کاهش «توهمات» (Hallucinations) در توصیفات بصری است. وقتی یک مدل ۶۰۰ فریم یکسان از یک اسلاید ثابت دریافت میکند، اغلب رشته افکارش را گم میکند؛ اما وقتی تنها یک فریم و یک متن دریافت کند، کیفیت استدلال او بهشدت بالا میرود. این ثابت میکند که پیشپردازش هوشمند در حال حاضر بسیار ارزشمندتر از افزایش پنجره متنی (Context Window) — یعنی میز کاری مدل که تعیین میکند چه مقدار اطلاعات را همزمان در ذهن نگه دارد — است.
برای شروع، ابتدا باید ffmpeg را نصب کنید (از طریق brew install ffmpeg در macOS، sudo apt install ffmpeg در لینوکس، یا winget install Gyan.FFmpeg در ویندوز) و سپس دستور pip install claude-real-video را اجرا نمایید. برای دسترسی به قابلیتهای صوتی، نسخه pip install "claude-real-video[whisper]" را نصب کنید. این ابزار به پایتون ۳.۱۰ یا نسخههای جدیدتر نیاز دارد.
گام بعدی شما
- ویدیوهای آموزشی طولانی خود را با این ابزار پیشپردازش کنید و تفاوت دقت پاسخ مدل را بسنجید.
- از قابلیت
--reportبرای درک نحوه «دیدن» مدلها از جهان بصری استفاده کنید. - اگر با دادههای حساس کار میکنید، تمام مراحل را در محیط محلی اجرا کنید تا هیچ فریم تصویری به سرورهای خارجی ارسال نشود.
اما داستان سختافزاری این تحول و نحوه پردازش این فریمها در GPUها حتی شگفتانگیزتر است؛ به تحلیل ما دربارهی بهینهسازی حافظه VRAM مراجعه کنید.




گفتگو