موضوع

مدل‌های بازوزن

Open-source models, open weights, local hosting, licensing

۴۸۸ مقاله منتشر شده

گزارش Ramp: Deepseek محبوب‌ترین تأمین‌کننده هوش مصنوعی در ژوئن ۲۰۲۶ شد

شرکت‌های آمریکایی به دلیل نسبت بهینه قیمت به عملکرد، به‌طور گسترده به مدل‌های Deepseek روی آورده‌اند. این روند آغاز «اقتصاد توکنی» است؛ جایی که کاهش هزینه بر عملکرد مطلق مدل…

۲ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

چگونه ابزار Her لاگ‌های پیچیده‌ی Claude Code را به گزارش‌های متنی تبدیل می‌کند؟

ابزار Her لاگ‌های متراکم Claude Code را به گزارش‌های متنی خوانا تبدیل می‌کند. این ابزار با ترکیب یک موتور تحلیل قطعی و یک مدل زبانی کوچک، ریسک‌های عملیاتی را شناسایی و بازرسی‌های…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

استخراج آرگومان‌های ریاضی از فعال‌سازهای Llama بدون تحلیل متن

پژوهشگران ثابت کردند که عملیات و اعداد ریاضی را می‌توان مستقیماً از فعال‌سازهای داخلی مدل‌های Llama استخراج کرد. این دستاورد اجازه می‌دهد ابزارهای خارجی به‌جای تحلیل متنی پرامپت،…

۹ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

حد ۴,۰۰۰ توکنی در macOS 0.30.6: چرا مدل Qwen3 باعث کرش Metal GPU می‌شود؟

یک پس‌رفت فنی در macOS 0.30.6 باعث کرش مدل qwen3-embedding هنگام پردازش متن‌های طولانی می‌شود. برای رفع این مشکل، کاربران باید به نسخه 0.24.0 بازگردند یا ورودی‌ها را تکه‌تکه کنند.

۱ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

چرا مدل‌های بزرگ در Ollama 0.30 روی کارت‌های ۴ گیگابایتی کرش می‌کنند؟

نسخه ۰.۳۰.x ابزار Ollama به دلیل مدیریت تهاجمی حافظه Vulkan، باعث خطای کمبود حافظه (OOM) در کارت‌های گرافیکی ۴ گیگابایتی شده است. این مشکل دسترسی به مدل‌های کوانتیزه شده را مختل…

۱ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

NVIDIA Garak: تبدیل حفره‌های امنیتی LLM به نمرات عددی و قابل اندازه‌گیری

ابزار Garak از شرکت NVIDIA فرآیند تست نفوذ یا همان Red-teaming را برای مدل‌های زبانی خودکار می‌کند. این چارچوب با جایگزینی تست‌های دستی با معیارهای عددی، به توسعه‌دهندگان اجازه…

۶ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

درون oproxy: وقتی هوش مصنوعی جایگزین نوشتن دستی اسکریپت‌های Lua می‌شود

ابزار متن‌باز oproxy با ادغام یک دستیار هوشمند، فرآیند رهگیری و تغییر ترافیک شبکه را برای توسعه‌دهندگان متحول کرده است. این ابزار امکان مدیریت حالت‌های پروکسی و آماده‌سازی تغییرات…

۳ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

چگونه ۱۴ مدل هوش مصنوعی را تنها با یک کلید API متصل کنیم؟

پلتفرم AIBridge امکان دسترسی به مدل‌های پیشرو از جمله DeepSeek و Qwen را تنها با یک کلید API فراهم کرده است. این ابزار با سازگاری کامل با SDK شرکت OpenAI، هزینه‌های عملیاتی…

۱ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

چرا Yumii برای اجرای دستیار صوتی AI به کارت گرافیک نیاز ندارد؟

پروژه Yumii یک دستیار هوشمند متن‌باز و محلی است که برخلاف مدل‌های رایج، تماماً روی CPU اجرا می‌شود. این ابزار با ترکیب آواتارهای Live2D و حافظه بلندمدت، نیاز به سخت‌افزارهای…

۴ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

کاهش هزینه توکن به صفر: راهنمای استقرار محلی Qwen3-Coder با Ollama

برنامه‌نویسان اکنون می‌توانند به جای APIهای ابری، از سرور محلی Ollama برای اجرای عامل‌های کدنویسی استفاده کنند. این ترکیب با مدل Qwen3-Coder:30B، نشت داده‌ها را متوقف و هزینه‌های…

۸ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

رمزگشایی از مکانیسم توجه: چرا پرامپت‌های شما گاهی با توهم پاسخ می‌دهند؟

مدل‌های زبانی واقعاً حقایق را نمی‌شناسند، بلکه موتورهای آماری برای پیش‌بینی توکن بعدی هستند. درک معماری ترنسفورمر و فرآیند RLHF به کاربران کمک می‌کند تا توهمات را کاهش داده و…

۱۰ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

چرا ترکیب مدل‌های کوچک، رفتارهای انسانی‌تر از مدل‌های غول‌پیکر می‌سازد؟

گزارش فنی جدیدی نشان می‌دهد که ترکیب چهار مدل زبانی کوچک از آزمایشگاه‌های مختلف، رفتارهای ارگانیک‌تر و استراتژی‌های اقتصادی پیچیده‌تری را نسبت به یک مدل واحد ایجاد می‌کند. این…

۶ دقیقه خواندن