ضربه‌ی Phi-4 به Whisper؛ انقلاب مدل‌های چندوجهی کوچک

تصور کنید یک مدل زبانی کوچک بتواند همزمان بشنود، ببیند و تحلیل کند، بدون اینکه نیاز به چندین سیستم مجزا داشته باشد. اگر هنوز برای تبدیل گفتار به متن از مدل‌های قدیمی استفاده می‌کنید، باید بدانید که قواعد بازی تغییر کرده است.

مایکروسافت (Microsoft) مدل Phi-4-multimodal-instruct را معرفی کرد که با ۵.۶ میلیارد پارامتر، جایگاه نخست جدول OpenASR در هاگینگ فیس (Hugging Face) را تصاحب کرد. به نقل از مستندات این مدل، نرخ خطای کلمات (Word Error Rate) در این مدل به ۶.۱۴٪ رسیده است که از رکورد ۶.۵٪ مدل WhisperV3 شرکت OpenAI پیشی گرفته است.

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین (alt text) تصویر در مقاله‌ای با عنوان "microsoft/Phi-4-multimodal-instru

این مدل برخلاف سیستم‌های قدیمی که از زنجیره‌ای از مدل‌های مختلف استفاده می‌کردند، تمام داده‌های متنی، تصویری و صوتی را در یک شبکه عصبی واحد پردازش می‌کند. طبق اعلام مایکروسافت، این مدل بین دسامبر ۲۰۲۴ و ژانویه ۲۰۲۵ روی ۵۱۲ پردازنده‌ی NVIDIA A100-80G آموزش دیده است.

[PAD] SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

در وظایف شناسایی و ترجمه گفتار، Phi-4 نه تنها WhisperV3، بلکه مدل SeamlessM4T-v2-Large شرکت متا (Meta) را نیز شکست داده است. همچنین در درک اسناد و نمودارها، عملکردی بهتر از Gemini-2.0-Flash-Lite گوگل داشته است.

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین (alt text) تصویر در مقاله‌ای با عنوان "microsoft/Phi-4-multimodal-instru

همان‌طور که در تحلیل قبلی ما درباره‌ی مدل‌های زبانی کوچک (Small Language Models - SLM) اشاره کردیم، روند فعلی صنعت به سمت بهینه‌سازی پارامترها به جای افزایش کورکورانه‌ی اندازه است.

[PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]

مشخصات فنی این مدل عبارتند از:

تعداد پارامترها: ۵.۶ میلیارد
طول بافتار (Context Length): ۱۲۸,۰۰۰ توکن
مجوز: MIT (تجاری و باز)
قابلیت‌ها: متن در ۲۳ زبان، صوت در ۸ زبان و بینایی به زبان انگلیسی

توسعه‌دهندگان می‌توانند از کتابخانه‌ی transformers (نسخه ۴.۴۸.۲) یا vLLM برای استنتاج (Inference) استفاده کنند. مایکروسافت این مدل را به‌طور خاص برای محیط‌هایی با حافظه محدود و سناریوهای حساس به تأخیر طراحی کرده است.

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین (alt text) تصویر در مقاله‌ای با عنوان "microsoft/Phi-4-multimodal-instru

برای ایمنی، از روش‌های SFT، DPO و RLHF استفاده شده است. با این حال، مایکروسافت هشدار داده که مدل در برابر حملات متقاعدکننده در زبان‌های فرانسوی و ایتالیایی آسیب‌پذیر است و باید لایه‌های حفاظتی اضافی اضافه شود.

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین تصویر (alt text) در مقاله‌ای با عنوان "microsoft/Phi-4-multimodal-instru

برای بهره‌گیری از قابلیت Flash-Attention، داشتن پردازنده‌های نسل Ampere مانند A100 یا H100 ضروری است؛ در غیر این صورت سرعت استنتاج کاهش می‌یابد.

The user wants a concise Persian (Farsi) translation for an image alt text in an article titled: "microsoft/Phi-4-multimodal-

جامعه‌ی متن‌باز سریعاً واکنش نشان داده است. یک محقق نشان داد که با تنها ۳۵,۰۰۰ نمونه داده، می‌توان مدل را برای زبان کره‌ای تنظیم دقیق (Fine-tuning) کرد و نرخ خطای نویسه‌ها را از ۷.۰۲٪ به ۱.۶۱٪ رساند.

The user wants a concise Persian (Farsi) translation for an image alt text in an article titled: "microsoft/Phi-4-multimodal-

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

تست مدل Phi-4 در Azure AI Studio برای سناریوهای کم‌تاخیر.
بررسی مستندات Hugging Face برای پیاده‌سازی استنتاج محلی.
مطالعه‌ی متدهای SFT برای بهبود ایمنی مدل در زبان‌های غیرانگلیسی.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین (alt text) تصویر در مقاله‌ای با عنوان "microsoft/Phi-4-multimodal-instru

[PAD] SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین (alt text) تصویر در مقاله‌ای با عنوان "microsoft/Phi-4-multimodal-instru

[PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]

مشخصات فنی این مدل عبارتند از:

تعداد پارامترها: ۵.۶ میلیارد
طول بافتار (Context Length): ۱۲۸,۰۰۰ توکن
مجوز: MIT (تجاری و باز)
قابلیت‌ها: متن در ۲۳ زبان، صوت در ۸ زبان و بینایی به زبان انگلیسی

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین (alt text) تصویر در مقاله‌ای با عنوان "microsoft/Phi-4-multimodal-instru

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین تصویر (alt text) در مقاله‌ای با عنوان "microsoft/Phi-4-multimodal-instru

The user wants a concise Persian (Farsi) translation for an image alt text in an article titled: "microsoft/Phi-4-multimodal-

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

تست مدل Phi-4 در Azure AI Studio برای سناریوهای کم‌تاخیر.
بررسی مستندات Hugging Face برای پیاده‌سازی استنتاج محلی.
مطالعه‌ی متدهای SFT برای بهبود ایمنی مدل در زبان‌های غیرانگلیسی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ضربه‌ی Phi-4 به Whisper؛ انقلاب مدل‌های چندوجهی کوچک

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ضربه‌ی Phi-4 به Whisper؛ انقلاب مدل‌های چندوجهی کوچک

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ضربه‌ی Phi-4 به Whisper؛ انقلاب مدل‌های چندوجهی کوچک

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ضربه‌ی Phi-4 به Whisper؛ انقلاب مدل‌های چندوجهی کوچک

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران