تصور کنید سیستم مدیریت ترافیک شهر شما، یک تابلوی راهنمایی ثابت را با یک ترافیک سنگین اشتباه بگیرد. اگر هنوز به مدلهای بینایی ساده اعتماد میکنید، باید بدانید که این «توهمات بصری» بزرگترین مانع در مسیر اتوماسیون شهری بودهاند.
به نقل از مقالهای که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، چارچوب جدیدی به نام FLO-EMD توانسته است با دستیابی به دقت خیرهکننده ۹۷.۵ درصد، شکاف میان درک محیطی و تحلیل حرکت را پر کند. این مدل برخلاف روشهای سنتی، فریب زیرساختهای ثابت جادهای را نمیخورد.
بر اساس مستندات این پژوهش، FLO-EMD از دو مکانیسم موازی برای تحلیل دادهها استفاده میکند:
- توجه هدایتشده با حرکت (Motion-Guided Attention): در این بخش، جریان نوری (Optical Flow) متراکم، توجه مدل را به مناطق دارای حرکت سوق میدهد تا ویژگیهای RGB فقط روی نقاط متحرک متمرکز شوند.
- تجزیه زمانی (Temporal Decomposition): آمارهای تجمیعی جریان نوری از طریق تجزیه تجربی حالت (Empirical Mode Decomposition - EMD) پردازش میشوند تا مؤلفههای زمانی ذاتی استخراج شوند.
این بردار معنایی (Embedding) حاصل از EMD سپس با بازنماییهای زمانی-مکانی ترکیب میشود تا ترافیک را در سه سطح «کم»، «متوسط» و «سنگین» طبقهبندی کند. برای اعتبارسنجی این مدل، از ۱,۰۵۰ کلیپ ۵ ثانیهای از چهار شبکه نظارتی مختلف استفاده شده است.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای بینایی ماشین در محیطهای پویا اشاره کردیم، جداسازی «سیگنال» از «نویز محیطی» سختترین بخش کار است. FLO-EMD با ثبت امتیاز F1 برابر با ۰.۹۷۴۲، ثابت کرد که در شرایط محیطی متنوع، پایداری و حساسیت بسیار بالاتری نسبت به مدلهای پایه دارد.
این دستاورد، نقشهای راه برای نظارت شهری قابلاعتمادتر ارائه میدهد. اما چالش واقعی، اجرای این مدلهای پیچیده روی سختافزارهای کممصرف است — به بررسی ما دربارهی رایانش لبه (Edge Computing) مراجعه کنید.
گام بعدی شما
- بررسی متدولوژی EMD برای تحلیل دادههای سری زمانی در پروژههای هوش مصنوعی خود.
- مطالعه مقایسهای بین مدلهای Attention-based و روشهای تجزیه سیگنال.
- دنبال کردن پیشرفتهای سختافزاری برای استقرار مدلهای سنگین در لبه شبکه.




گفتگو