موضوع

مدل‌های بازوزن

Open-source models, open weights, local hosting, licensing

۴۸۶ مقاله منتشر شده

OpenData Vector: جستجوی ۱۰۰ میلیون بردار با هزینه ۳۵۰ دلار در ماه

یک موتور جستجوی جدید با مجوز MIT معرفی شد که کاملاً روی حافظه ابری اجرا می‌شود. این سیستم هزینه میزبانی ۱۰۰ میلیون بردار را به حدود ۳۵۰ دلار در ماه کاهش می‌دهد.

۲ دقیقه خواندن

$گوگل: مدل Gemma 4 با دقت ۸۹.۲ درصدی در بنچمارک AIME، استدلال ریاضی را محلی کرد$

آموزش کاربردیماه گذشته

گوگل: مدل Gemma 4 با دقت ۸۹.۲ درصدی در بنچمارک AIME، استدلال ریاضی را محلی کرد

گوگل دیپ‌مایند خانواده مدل‌های Gemma 4 را با وزن‌های باز عرضه کرد تا استدلال سطح پیشرو را به سخت‌افزارهای محلی بیاورد. مدل ۳۱ میلیارد پارامتری این خانواده، جهشی خیره‌کننده در…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

IBM: مدل ۹۷ میلیون پارامتری در بازیابی چندزبانه از رقبای ۳۰۰ میلیونی پیشی گرفت

IBM دو مدل بردار معنایی چندزبانه بر پایه ModernBERT عرضه کرد. مدل کوچک ۹۷ میلیون پارامتری این مجموعه، در بنچمارک‌های MTEB از رقبای بسیار بزرگ‌تر خود پیشی گرفته است.

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چگونه نقص‌های متادیتای GGUF سرعت استقرار مدل‌های محلی را کاهش می‌دهد؟

فرمت GGUF با یکپارچه‌سازی وزن‌ها و متادیتا، استقرار مدل‌های محلی را ساده کرده است. با این حال، نبود استانداردی برای فراخوانی ابزارها و توکن‌های استدلالی، توسعه‌دهندگان را مجبور به…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

چگونه Qwen-Image-2.0 مراحل استنتاج را از ۴۰ به ۴ گام کاهش داد؟

مدل Qwen-Image-2.0 شرکت علی‌بابا با دوبرابر کردن فشرده‌سازی VAE و تقطیر استنتاج، تعداد گام‌های تولید تصویر را از ۴۰ به ۴ کاهش داده است. این مدل با استفاده از بلوک‌های SwiGLU و یک…

۳ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

دیپ‌سیک-V4: هزینه استنتاج یک میلیون توکن به ۲۷ درصد نسخه V3.2 رسید

مدل DeepSeek-V4 با معرفی معماری Hybrid Attention، هزینه محاسباتی استنتاج در پنجره‌های متنی یک میلیون توکنی را به‌شدت کاهش داد. این مدل با تمرکز بر بهینه‌سازی عامل‌های خودکار،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

Nous Research: کاهش ۲.۵ برابری زمان پیش‌آموزش LLM بدون تغییر در معماری

پژوهشکده Nous Research روشی به نام آموزش برهم‌نهی توکن‌ها (TST) را معرفی کرده که سرعت پیش‌آموزش مدل‌های زبانی بزرگ را تا ۲.۵ برابر افزایش می‌دهد. این متد با پردازش دسته‌ای توکن‌ها…

۳ دقیقه خواندن

آموزش کاربردیماه گذشته

OpenHuman: کاهش ۸۰ درصدی هزینه‌های LLM با لایه‌ی فشرده‌سازی TokenJuice

OpenHuman یک عامل هوش مصنوعی متن‌باز و محلی است که با استفاده از «درخت حافظه» و لایه‌ی فشرده‌سازی، هزینه‌های API را تا ۸۰٪ کاهش می‌دهد. این ابزار با اولویت دادن به حریم خصوصی،…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چگونه Managed Deep Agents پیچیدگی استقرار عامل‌های هوش مصنوعی را حل می‌کند؟

لنگ‌چین (LangChain) سرویس Managed Deep Agents را در بتای خصوصی عرضه کرد تا مدیریت زیرساختی عامل‌ها را بر عهده بگیرد. این محیط اجرایی، مواردی چون حافظه پایدار و محیط‌های ایزوله را…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

DeepSeek V4 در برابر GPT-5.5: نبرد بهره‌وری در برابر استقلال عامل‌محور

مدل DeepSeek V4-Pro عملکردی نزدیک به مدل‌های پیشرو و پنجره متنی ۱ میلیون توکنی را با کسری از هزینه GPT-5.5 ارائه می‌دهد. در حالی که OpenAI در گردش‌های کاری عامل‌محور پیشتاز است،…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

کاهش ۳۲ درصدی زمان رفع خرابی در امریکن اکسپرس با استفاده از عامل‌های هوش مصنوعی

تیم‌های SRE در حال گذار از تحلیل ساده‌ی هشدارها به «بررسی عامل‌محور» هستند؛ سیستمی که در آن هوش مصنوعی برای یافتن علت ریشه‌ای خطا، مستقیماً ابزارهای زیرساختی را اجرا می‌کند. این…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

بهینه‌سازی Gemma 4 در لبه: جایگزینی تنظیم دقیق با سیستم امتیازدهی خودکار

توسعه‌دهندگان می‌توانند به‌جای تنظیم دقیق هزینه‌بر، از یک مدل بزرگ‌تر برای تولید و امتیازدهی به پرامپت‌های مدل‌های لبه استفاده کنند. این روش «ارتقای مهارت پرامپت» پایداری سیستم را…

۲ دقیقه خواندن