چگونه OmniVoice با ۳ ثانیه صدا، سیستم‌های تأیید هویت صوتی را منسوخ کرد؟

اگر هنوز برای تأیید هویت مشتریان به تماس تلفنی یا اثر صوتی تکیه می‌کنید، در واقع یک حفره امنیتی باز دارید که خرید کلید آن کمتر از ۳۰ دلار هزینه دارد. طبق گزارش‌های میدانی، بازداشت‌های اخیر در غنا که در آن کلاهبرداران با تقلید صدای رئیس‌جمهور برای سرقت مالی اقدام کردند، ثابت می‌کند که رسانه‌های جعلی دیگر یک تهدید تئوری نیستند.

سال‌ها بود که بیومتریک صوتی (Voice Biometrics) — که مثل اثر انگشتی است ساخته شده از لرزش تارهای صوتی — به عنوان سندی معتبر برای اثبات هویت شناخته می‌شد. اما اکنون صنعتی‌شدن کدگذاری فضای نهان (Latent Space Encoding) — شبیه نقشه‌ای است که صداهای مشابه را در یک محله قرار می‌دهد تا مدل راحت‌تر آن‌ها را پیدا کند — این کانال امن را به یک سطح حمله فعال تبدیل کرده است. همان‌طور که در تحلیل‌های قبلی ما درباره تکامل مدل‌های زاینده اشاره کردیم، مرز میان واقعیت و شبیه‌سازی در حال تحلیل رفتن است. طبق گزارش‌های صنعتی، نرخ کلاهبرداری‌های مبتنی بر جعل عمیق (Deepfake) — مثل ماسک‌های دیجیتالی که هر کسی را به هر کسی تبدیل می‌کنند — در نیمه نخست ۲۰۲۶ میلادی ۵۸ درصد رشد کرده است.

عامل اصلی این بحران، مدل OmniVoice است. این مدل متن‌باز از شرکت شیائومی (Xiaomi) می‌تواند صدای انسان را در ۶۴۶ زبان مختلف و تنها با ۳ ثانیه نمونه صوتی شبیه‌سازی کند. این قابلیت، آزمون‌های «زنده بودن» (Liveness checks) مانند درخواست برای پلک زدن یا چرخاندن سر را عملاً بی‌فایده می‌کند. در واکنش به این تهدید، محققان اکنون به سراغ ابزارهایی مثل CaraComp رفته‌اند که از «فاصله اقلیدسی» برای اندازه‌گیری ریاضی فاصله بین نقاط کلیدی چهره استفاده می‌کند. این گذار به تحلیل‌های ریاضی، دقیقاً همان منطق امنیتی است که در تحلیل ما پیرامون برتری فاصله اقلیدسی نسبت به تشخیص‌های زنده مورد بررسی قرار گرفت.

چند داده کلیدی برای درک ابعاد این بحران:

۴۵ میلیون مسافر در نیمه نخست ۲۰۲۶ از سیستم ورود/خروج اتحادیه اروپا (EES) استفاده کردند، در حالی که نرخ جعل بیومتریک در این سیستم در حال افزایش است.
یک تبلیغ جعلی از MrBeast اخیراً باعث ضرر ۱۴,۰۰۰ دلاری برای یکی از ساکنان انتاریو شد.
معاون نخست‌وزیر ایرلند اعلام کرد برای تشخیص یک ویدئوی جعلی از خودش، مجبور شده آن را دو بار با دقت تماشا کند.

این تغییر مسیر، توسعه‌دهندگان را مجبور می‌کند تا معیار «به نظر درست می‌رسد» را کنار بگذارند و به «ریاضیاتی تطبیق می‌یابد» روی آورند. ما از دوران «شناسایی بیومتریک» (اسکن جمعیتی) به دوران «مقایسه بیومتریک» (تطبیق یک شناسه مشخص با پرونده) نقل مکان می‌کنیم. برای متخصصان، این یعنی خط لوله تأیید هویت باید به‌جای امتیازات احتمالی، گزارش‌های هندسی قابل استناد در دادگاه ارائه دهد.

با توجه به قانون TAKE IT DOWN که اکنون بررسی‌های جنائی را طی ۴۸ ساعت اجباری کرده و جریمه‌های ۵۳,۰۰۰ دلاری تعیین نموده است، رقابت برای ساخت تشخیص‌دهنده‌های شفاف شدت گرفته است.

گام بعدی شما

بررسی کنید که آیا ارائه‌دهنده خدمات امنیتی شما تحلیلی «جعبه‌سفید» (White-box) مشابه TruthLens ارائه می‌دهد که دلیل دقیق رد یا پذیرش یک سیگنال را توضیح دهد.
زیرساخت‌های تأیید هویت خود را از تحلیل‌های صوتی به سمت مقایسه هندسی نقاط چهره منتقل کنید.
برای هرگونه تأیید تراکنش‌های حساس، لایه‌ای از تأییدهای خارج از باند (Out-of-band) را اضافه کنید.

اما هزینه سخت‌افزاری این انتقال به تحلیل‌های هندسی حتی شگفت‌انگیزتر است؛ برای درک این موضوع به تحلیل ما درباره تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

چند داده کلیدی برای درک ابعاد این بحران:

۴۵ میلیون مسافر در نیمه نخست ۲۰۲۶ از سیستم ورود/خروج اتحادیه اروپا (EES) استفاده کردند، در حالی که نرخ جعل بیومتریک در این سیستم در حال افزایش است.
یک تبلیغ جعلی از MrBeast اخیراً باعث ضرر ۱۴,۰۰۰ دلاری برای یکی از ساکنان انتاریو شد.
معاون نخست‌وزیر ایرلند اعلام کرد برای تشخیص یک ویدئوی جعلی از خودش، مجبور شده آن را دو بار با دقت تماشا کند.

گام بعدی شما

بررسی کنید که آیا ارائه‌دهنده خدمات امنیتی شما تحلیلی «جعبه‌سفید» (White-box) مشابه TruthLens ارائه می‌دهد که دلیل دقیق رد یا پذیرش یک سیگنال را توضیح دهد.
زیرساخت‌های تأیید هویت خود را از تحلیل‌های صوتی به سمت مقایسه هندسی نقاط چهره منتقل کنید.
برای هرگونه تأیید تراکنش‌های حساس، لایه‌ای از تأییدهای خارج از باند (Out-of-band) را اضافه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه OmniVoice با ۳ ثانیه صدا، سیستم‌های تأیید هویت صوتی را منسوخ کرد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه OmniVoice با ۳ ثانیه صدا، سیستم‌های تأیید هویت صوتی را منسوخ کرد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه OmniVoice با ۳ ثانیه صدا، سیستم‌های تأیید هویت صوتی را منسوخ کرد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه OmniVoice با ۳ ثانیه صدا، سیستم‌های تأیید هویت صوتی را منسوخ کرد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران