پردازش محلی در برابر سرورهای ابری در تبدیل صوت به متن

تصور کنید تمام یادداشت‌های صوتی شما، بدون اینکه حتی یک بایت داده از رایانه خارج شود، با دقت میلی‌متری به متن تبدیل شوند. اگر از ابزارهای ابری برای تایپ صوتی استفاده می‌کنید، احتمالاً می‌دانید که در واقع دارید حریم خصوصی خود را با بهره‌وری معاوضه می‌کنید.

Off Grid AI Desktop که صراحتاً به عنوان یک ابزار متن‌باز تحت مجوز AGPL-3.0 منتشر شده است، از مدل Whisper برای تبدیل صدا به متن به‌صورت محلی (On-device) بهره می‌برد. OpenAI مدل Whisper را بر روی ۶۸۰,۰۰۰ ساعت داده‌های صوتی آموزش داده است. این مجموعه آموزشی عظیم به نسخه‌های کوچک‌تر مدل اجازه می‌دهد تا روی CPU یک لپ‌تاپ به‌صورت آنی (Real-time) اجرا شوند. برای بسیاری از کاربران، این قدرت سخت‌افزاری در حالی بلااستفاده می‌ماند که آن‌ها هر ماه هزینه‌ی اشتراک پرداخت می‌کنند تا یادداشت‌های صوتی خود را برای تبدیل به متن به سرورهای خارجی ارسال کنند. Off Grid AI Desktop این نیاز را کاملاً از بین می‌برد؛ این ابزار رایگان است، متن‌باز است و به‌طور کامل آفلاین عمل می‌کند. در اینجا هیچ حسابی برای ایجاد وجود ندارد و نیازی به مدیریت کلید API (API Key) نیست.

این تغییر رویکرد به سمت پردازش محلی، یک نقطه اصطکاک حیاتی در بهره‌وری را حل می‌کند: شکاف سرعت میان صحبت کردن (حدود ۱۵۰ کلمه در دقیقه) و تایپ کردن (شاید ۴۰ کلمه در دقیقه). در حالی که اکثر ابزارهای دیکته این شکاف را از طریق فضای ابری پر می‌کنند، اما این کار را با ضبط صداهای خام انجام می‌دهند که ممکن است شامل رمزهای عبوری باشد که به‌طور تصادفی بلند خوانده شده‌اند، یا نام مشتریان و ایده‌هایی که هنوز کامل نشده‌اند. همان‌طور که در پوشش پیشین ما از MiniCPM-Desk-Pet و موج رایانه‌های شخصیِ هوشمند دیدیم، این ابزار لایه‌ی تبدیل گفتار به متن را از ابر به لبه (Edge) منتقل می‌کند. با استفاده از Whisper محلی، صدا در همان ماشینی که پشت آن نشسته‌اید ضبط، تبدیل و به متن تبدیل می‌شود. این رویکرد مشابه استراتژی‌هایی است که در بررسی OpenWhispr و برتری پردازش محلی در کدنویسی مشاهده کردیم، جایی که سرعت و امنیت داده‌ها اولویت اصلی بود.

بر اساس راهنمای فنی منتشر شده در ۲۵ ژوئن ۲۰۲۶ در وب‌سایت dev.to، این اپلیکیشن از whisper.cpp استفاده می‌کند؛ یک پورت به زبان C++ که اجازه می‌دهد مدل بدون نیاز به پایتون یا یک سرور مقیم (Resident Server) اجرا شود. این معماری امکان چندین گردش کار خاص را فراهم می‌کند:

قابلیت‌های کلیدی

ترکیب‌کننده‌ی داخلی (Integrated Composer): کاربران روی میکروفون کلیک کرده و صحبت می‌کنند و کلمات به‌صورت متن در باکس چت قرار می‌گیرند تا پیش از ارسال، ویرایش شوند.
پرامپت‌نویسی بدون دست (Hands-Free Prompting): پرامپت‌های طولانی و پیچیده برای مدل‌های زبانی محلی (LLM) را می‌توان در حالی که کاربر دور از کیبورد است دیکته کرد؛ مثلاً هنگام قدم زدن در اتاق یا شستن ظرف‌ها. این قابلیت زمانی که در کنار استقرار محلی مدل‌هایی مانند Qwen3-Coder با Ollama استفاده شود، یک محیط کاملاً خصوصی و بدون هزینه توکن برای برنامه‌نویسی ایجاد می‌کند.
یادداشت‌های اولویت‌دار بر حریم خصوصی: یادداشت‌های پزشکی، حقوقی یا شخصی محلی می‌مانند. تبدیل متن روی دستگاه تضمین می‌کند که صداهای حساس هرگز به داده‌های آموزشی شرکت‌های دیگر یا یک ورودی در لاگ‌های شرکتی تبدیل نشوند.
حلقه‌ی بسته هوش مصنوعی (Local AI Loop): کاربران می‌توانند یک سوال خام را دیکته کنند، اجازه دهند یک LLM محلی روی دستگاه پاسخ دهد و سپس سوالات تکمیلی را باز هم دیکته کنند. تمام این حلقه‌ی ارتباطی روی سخت‌افزار کاربر باقی می‌ماند.

اجرای تبدیل گفتار به متن به صورت محلی روی دسکتاپ با Whisper بدون نیاز به اینترنت

نیازمندی‌های سخت‌افزاری و فنی

مدل‌های Whisper به‌قدری سبک هستند که اکثر آن‌ها روی سخت‌افزارهای موجود به‌خوبی اجرا می‌شوند. خودِ مدل‌های تبدیل متن تنها چند صد مگابایت حجم دارند که بسیار کمتر از یک مدل کامل چت LLM است. برای حفظ سرعت آنی، اپلیکیشن از شتاب‌دهنده‌های سخت‌افزاری استفاده می‌کند.

در سیستم‌های macOS، برنامه از Metal برای بهره‌گیری از حافظه‌ی یکپارچه‌ی تراشه‌های اپل سیلیکون استفاده می‌کند؛ این بدان معناست که CPU و GPU از یک استخر حافظه مشترک استفاده می‌کنند و نیازی به کپی کردن داده‌ها به عقب و جلو نیست. این قابلیت به لپ‌تاپ‌های سری M بدون فن اجازه می‌دهد تا تبدیل متن را به‌طور بی‌صدا مدیریت کنند. کاربران ویندوز شتاب‌دهی را از طریق CUDA برای کارت‌های گرافیک NVIDIA یا Vulkan برای طیف گسترده‌تری از GPUها دریافت می‌کنند. اگر هیچ GPU سازگاری پیدا نشود، مسیر CPU همچنان کار می‌کند، هرچند برای مدل‌های بزرگتر کندتر است.

حداقل نیازمندی‌ها عبارتند از:

macOS: تراشه اپل سیلیکون (M1) یا اینتل‌های جدید، ۸ گیگابایت رم، نسخه macOS 13 به بالا.
Windows: هر پردازنده‌ی ۶۴ بیتی، ۸ گیگابایت رم، ویندوز ۱۰ به بالا.
فضای دیسک: حدود ۲ گیگابایت برای اپلیکیشن و یک مدل کوچک.

سخت‌افزار پیشنهادی برای عملکرد بهتر شامل مک‌های M2 یا جدیدتر با ۱۶ گیگابایت حافظه یکپارچه، یا ماشین‌های ویندوزی با GPU انویدیا (CUDA) و ۱۶ گیگابایت رم است. همچنین یک میکروفون USB یا داخلی با سیگنال پاک مورد نیاز است.

موازنه در انتخاب مدل

کاربران مدل را بر اساس توازن بین سرعت و دقت انتخاب می‌کنند. راهنما اشاره می‌کند که مدل‌ها «کوانتایز» (Quantized) شده‌اند؛ یعنی در یک فرمت عددی فشرده ذخیره شده‌اند تا در رم‌های استاندارد مصرف‌کننده جای بگیرند و سریع بارگذاری شوند. این کوانتایزاسیون دلیل اصلی اجرای نرم‌افزار روی سخت‌افزارهای معمولی است:

مدل Tiny / Base (حدود ۷۵ تا ۱۵۰ مگابایت): بسیار سریع؛ بهترین گزینه برای یادداشت‌های سریع روی ماشین‌های قدیمی، هرچند در تشخیص لهجه‌ها و اسامی خاص انعطاف کمتری دارد.
مدل Small (حدود ۵۰۰ مگابایت): خط پایه پیشنهادی برای دیکته روزمره و تعادلی مناسب برای اکثر کاربران.
مدل Medium (حدود ۱.۵ گیگابایت): کندتر اما به‌طور قابل‌توجهی دقیق‌تر برای اصطلاحات تخصصی و لهجه‌های متنوع.

به کاربران توصیه می‌شود با مدل 'small' شروع کنند و تنها در صورتی که سیستم نام‌های خاص یا اصطلاحات حرفه‌ای را اشتباه می‌شنود، به مدل بالاتر بروند.

نکاتی برای بهینه‌سازی

دقت تبدیل بیشتر به عادت‌های استفاده وابسته است تا اندازه مدل. راهنمای مذکور چند عادت خاص را برای افزایش دقت پیشنهاد می‌کند:

کیفیت سیگنال: به میکروفون نزدیک شوید؛ در حالی که Whisper در برابر نویز مقاوم است، اما یک سیگنال پاک همیشه برنده است.
ساختار جملات: به‌جای تکه‌های پراکنده، در قالب جملات کامل صحبت کنید؛ زیرا مدل از بافت کلمات اطراف برای تشخیص درست آنچه شنیده است استفاده می‌کند.
سرعت بیان (Pacing): برای دیکته‌های طولانی، بین افکار خود مکث‌های طبیعی داشته باشید. این مکث‌ها مرزهای پاکی را برای رمزگشا (Decoder) فراهم می‌کنند و خطاهای ادغام جملات را کاهش می‌دهند.
تطبیق مدل: اگر سرعت تبدیل از سرعت صحبت کردن شما عقب می‌ماند، به مدل کوچک‌تر بروید. اگر اپلیکیشن نام‌ها را به هم می‌ریزد، یک سایز بالاتر بروید.

این رویکرد محلی، مدل اعتماد در ابزارهای هوش مصنوعی را به‌طور بنیادی تغییر می‌دهد. یک سرویس ابری صدای خام را دریافت می‌کند و ممکن است آن را ذخیره، لاگ یا برای بهبود محصولاتش بر اساس سیاست حریمی که کاربر کنترلی روی آن ندارد، استفاده کند. در مقابل، Off Grid AI Desktop هیچ چیز دریافت نمی‌کند زیرا سروری وجود ندارد. به‌دلیل متن‌باز بودن تحت AGPL-3.0، کاربران می‌توانند تأیید کنند که صدا روی دستگاه پردازش شده و سپس دور ریخته می‌شود. هیچ تلمتری (Telemetry)، هیچ حسابی و هیچ آپلودی وجود ندارد. اگر کابل شبکه را بکشید، دیکته همچنان کار می‌کند.

برای کاربر عادی، این یعنی پایان «مالیات اشتراکی» برای تبدیل ساده‌ی صدا به متن. توانایی دیکته کردن ایده‌های خام و پالایش آن‌ها به‌صورت محلی، سد روانی «ضبط کردن» چیزی که ممکن است توسط یک ارائه‌دهنده لاگ شود را از بین می‌برد.

نقشه راه و پرسش‌های متداول

انتظار می‌رود به‌روزرسانی‌های آینده برای این پلتفرم شامل موارد زیر باشد:

قابلیت Push-to-talk و کلیدهای میان‌بر برای استفاده در خارج از ترکیب‌کننده (Composer).
یکپارچگی تنگ‌تر با ضبط‌کننده جلسات برای زیرنویس‌های زنده.
همگام‌سازی میان‌دستگاهی تا یک عبارت دیکته شده در یک ماشین به ماشین دیگر برسد.
زبان‌های تبدیل بیشتر و اندازه‌های مدل متنوع‌تر در داخل برنامه.

پاسخ به سوالات متداول تایید می‌کند که این ابزار کاملاً رایگان است و هیچ پرداخت یا دوره آزمایشی ندارد. ۸ گیگابایت رم برای مدل‌های کوچک کافی است، در حالی که ۱۶ گیگابایت اجازه می‌دهد مدل‌های بزرگتر در کنار یک Chat LLM محلی اجرا شوند.

برای شروع، کاربران می‌توانند آخرین نسخه را از GitHub دانلود کرده، اپلیکیشن را نصب نموده و مدل 'small' ویسپر را به عنوان نقطه شروع انتخاب کنند. یک چت را باز کنید، روی میکروفون کلیک کنید، دسترسی به میکروفون را تایید کنید و صحبت کنید. متن فوراً برای ویرایش و ارسال ظاهر می‌شود، بدون هیچ دیواره‌ی ثبت‌نام و بدون نیازی به چسباندن کلید API.

گام بعدی شما

اگر با داده‌های حساس (پزشکی یا مالی) سروکار دارید، همین امروز جایگزین ابزارهای ابری را با مدل 'Small' آزمایش کنید.
برای افزایش سرعت در سخت‌افزارهای قدیمی، مدل 'Tiny' را امتحان کنید تا توازن سرعت و دقت را بسنجید.
در صورت استفاده از ویندوز، مطمئن شوید درایورهای CUDA به‌روز هستند تا از شتاب گرافیکی بهره ببرید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.