چگونه استریم لحظه‌ای مدل‌های زبانی را با کمتر از ۱۵۰ خط کد در Next.js بسازیم؟

اگر در حال ساخت یک اپلیکیشن محلی با هوش مصنوعی هستید، نباید کاربرتان ۸ ثانیه به یک صفحه سفید خیره شود تا ناگهان کوهی از متن ظاهر شود. یک رابط کاربری استریم‌شده، مدل زبانی محلی شما را از یک API کند به یک دستیار طبیعی تبدیل می‌کند.

بسیاری از برنامه‌نویسان به‌طور پیش‌فرض از یک فراخوان ساده fetch استفاده می‌کنند که باعث ایجاد تجربه‌ای تکان‌دهنده و قطع‌شده برای کاربر می‌شود. طبق گزارش dev.to در ۱۸ آوریل ۲۰۲۶، استفاده از رویدادهای ارسالی سرور (SSE) — که شبیه به یک پخش رادیویی یک‌طرفه از سرور به کاربر است — این مشکل را حل می‌کند. SSE از HTTP ساده استفاده می‌کند و برخلاف WebSocket، نیازی به دست‌اندازی (Handshake) پیچیده ندارد.

همان‌طور که در تحلیل قبلی ما درباره‌ی بهینه‌سازی رابط کاربری برای مدل‌های زبانی اشاره کردیم، کاهش زمان پاسخ اولیه (TTFT) کلید رضایت کاربر است. در این پیاده‌سازی از Next.js 15 App Router و ابزار Ollama برای اجرای مدل qwen2.5:7b استفاده شده است. در این ساختار، مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — باید در سه لایه مدیریت شود: یک هندلر در مسیر سرور، یک هوک در سمت کلاینت و یک لایه رابط کاربری.

بر اساس مستندات فنی این روش، رعایت نکات زیر حیاتی است:

فعال کردن پرچم stream: true در درخواست Ollama برای ارسال توکن به توکن.
افزودن هدر X-Accel-Buffering: no برای جلوگیری از بافر شدن پاسخ توسط Nginx یا CDNها.
کل منطق کدنویسی در قالب حدود ۱۵۰ خط TypeScript قرار می‌گیرد.

این تغییر، نگاه ما به هوش مصنوعی محلی را عوض می‌کند. حس کاربر از «آیا برنامه هنگ کرده؟» به «مدل دارد فکر می‌کند» تغییر می‌یابد. برای یک توسعه‌دهنده، این یعنی استقرار مدل‌های محلی در سطح تولید (Production) بدون نیاز به زیرساخت‌های سنگین WebSocket، اکنون یک واقعیت است.

گام بعدی شما

برای انتقال این کد به محیط تولید، لایه‌های احراز هویت و تاریخچه گفتگو را اضافه کنید.
حتماً از AbortController استفاده کنید تا در صورت خروج کاربر از صفحه، استریم متوقف شود.
مدل‌های کوچک‌تر را برای کاهش هزینه استنتاج در محیط‌های لبه آزمایش کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات فنی این روش، رعایت نکات زیر حیاتی است:

فعال کردن پرچم stream: true در درخواست Ollama برای ارسال توکن به توکن.
افزودن هدر X-Accel-Buffering: no برای جلوگیری از بافر شدن پاسخ توسط Nginx یا CDNها.
کل منطق کدنویسی در قالب حدود ۱۵۰ خط TypeScript قرار می‌گیرد.

گام بعدی شما

برای انتقال این کد به محیط تولید، لایه‌های احراز هویت و تاریخچه گفتگو را اضافه کنید.
حتماً از AbortController استفاده کنید تا در صورت خروج کاربر از صفحه، استریم متوقف شود.
مدل‌های کوچک‌تر را برای کاهش هزینه استنتاج در محیط‌های لبه آزمایش کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه استریم لحظه‌ای مدل‌های زبانی را با کمتر از ۱۵۰ خط کد در Next.js بسازیم؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه استریم لحظه‌ای مدل‌های زبانی را با کمتر از ۱۵۰ خط کد در Next.js بسازیم؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه استریم لحظه‌ای مدل‌های زبانی را با کمتر از ۱۵۰ خط کد در Next.js بسازیم؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه استریم لحظه‌ای مدل‌های زبانی را با کمتر از ۱۵۰ خط کد در Next.js بسازیم؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران