تصور کنید یک مدل زبانی کوچک بتواند همزمان بشنود، ببیند و تحلیل کند، بدون اینکه نیاز به چندین سیستم مجزا داشته باشد. اگر هنوز برای تبدیل گفتار به متن از مدلهای قدیمی استفاده میکنید، باید بدانید که قواعد بازی تغییر کرده است.
مایکروسافت (Microsoft) مدل Phi-4-multimodal-instruct را معرفی کرد که با ۵.۶ میلیارد پارامتر، جایگاه نخست جدول OpenASR در هاگینگ فیس (Hugging Face) را تصاحب کرد. به نقل از مستندات این مدل، نرخ خطای کلمات (Word Error Rate) در این مدل به ۶.۱۴٪ رسیده است که از رکورد ۶.۵٪ مدل WhisperV3 شرکت OpenAI پیشی گرفته است.

این مدل برخلاف سیستمهای قدیمی که از زنجیرهای از مدلهای مختلف استفاده میکردند، تمام دادههای متنی، تصویری و صوتی را در یک شبکه عصبی واحد پردازش میکند. طبق اعلام مایکروسافت، این مدل بین دسامبر ۲۰۲۴ و ژانویه ۲۰۲۵ روی ۵۱۲ پردازندهی NVIDIA A100-80G آموزش دیده است.
![[PAD] SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS](https://media.dothoosh.com/e39bdd55-5a24-4158-8709-061286acfe09-2-microsoft-phi-4-multimodal-instruct-hugging-face.webp)
در وظایف شناسایی و ترجمه گفتار، Phi-4 نه تنها WhisperV3، بلکه مدل SeamlessM4T-v2-Large شرکت متا (Meta) را نیز شکست داده است. همچنین در درک اسناد و نمودارها، عملکردی بهتر از Gemini-2.0-Flash-Lite گوگل داشته است.

همانطور که در تحلیل قبلی ما دربارهی مدلهای زبانی کوچک (Small Language Models - SLM) اشاره کردیم، روند فعلی صنعت به سمت بهینهسازی پارامترها به جای افزایش کورکورانهی اندازه است.
![[PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]](https://media.dothoosh.com/e39bdd55-5a24-4158-8709-061286acfe09-4-microsoft-phi-4-multimodal-instruct-hugging-face.webp)
مشخصات فنی این مدل عبارتند از:
- تعداد پارامترها: ۵.۶ میلیارد
- طول بافتار (Context Length): ۱۲۸,۰۰۰ توکن
- مجوز: MIT (تجاری و باز)
- قابلیتها: متن در ۲۳ زبان، صوت در ۸ زبان و بینایی به زبان انگلیسی
توسعهدهندگان میتوانند از کتابخانهی transformers (نسخه ۴.۴۸.۲) یا vLLM برای استنتاج (Inference) استفاده کنند. مایکروسافت این مدل را بهطور خاص برای محیطهایی با حافظه محدود و سناریوهای حساس به تأخیر طراحی کرده است.

برای ایمنی، از روشهای SFT، DPO و RLHF استفاده شده است. با این حال، مایکروسافت هشدار داده که مدل در برابر حملات متقاعدکننده در زبانهای فرانسوی و ایتالیایی آسیبپذیر است و باید لایههای حفاظتی اضافی اضافه شود.

برای بهرهگیری از قابلیت Flash-Attention، داشتن پردازندههای نسل Ampere مانند A100 یا H100 ضروری است؛ در غیر این صورت سرعت استنتاج کاهش مییابد.

جامعهی متنباز سریعاً واکنش نشان داده است. یک محقق نشان داد که با تنها ۳۵,۰۰۰ نمونه داده، میتوان مدل را برای زبان کرهای تنظیم دقیق (Fine-tuning) کرد و نرخ خطای نویسهها را از ۷.۰۲٪ به ۱.۶۱٪ رساند.

اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- تست مدل Phi-4 در Azure AI Studio برای سناریوهای کمتاخیر.
- بررسی مستندات Hugging Face برای پیادهسازی استنتاج محلی.
- مطالعهی متدهای SFT برای بهبود ایمنی مدل در زبانهای غیرانگلیسی.
گفتگو