موضوع

هوش لبه

SLMs, on-device inference, mobile AI, AI PCs

۴۷۸ مقاله منتشر شده

افزایش ۳ تا ۶ برابری سرعت استنتاج مدل‌های PyTorch در مک‌های اپل سیلیکون

پایتورچ یک ابزار آزمایشی به نام MLX Delegate را برای ExecuTorch منتشر کرد که سرعت اجرای مدل‌های هوش مصنوعی زاینده را در مک‌های اپل سیلیکون تا ۶ برابر افزایش می‌دهد. این ابزار با…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

چگونه فناوری PinTILT مشکل باتری و وزن عینک‌های هوش مصنوعی را حل می‌کند؟

استارتاپ کره‌ای LetinAR با جذب ۱۸.۵ میلیون دلار، فناوری اپتیکی PinTILT را برای تولید عینک‌های هوشمند سبک و کم‌مصرف توسعه می‌دهد. این نوآوری توازن بین روشنایی تصویر و عمر باتری را…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چرا برای کنترل مدل‌های محلی دیگر نیازی به مهندسی پرامپت ندارید؟

مهندسان اکنون می‌توانند با تغییر فعال‌سازهای داخلی مدل‌های زبانی، خروجی‌ها را هدایت کنند. انتشار DeepSeek-V4-Flash و ابزار DwarfStar 4 این روش را برای کدنویسی عامل‌محور کاربردی…

۳ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

چرا دیگر نیازی نیست برای رفع یک باگ حیاتی پشت میز کار بنشینید؟

OpenAI با ادغام Codex در اپلیکیشن موبایل ChatGPT، امکان مدیریت محیط‌های توسعه محلی و ابری را فراهم کرد. این به‌روزرسانی با معرفی ابزارهایی مثل SSH از راه دور، کنترل کدها را از میز…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

مدل EMO و معماری MoE؛ حفظ عملکرد کامل با حذف ۸۷.۵٪ از متخصصان

پژوهشگران مؤسسه Allen و دانشگاه برکلی مدلی به نام EMO را معرفی کردند که با سازمان‌دهی متخصصان بر اساس دامنه‌های معنایی، عملکرد خود را حتی با حذف ۸۷.۵٪ از ظرفیت متخصصان حفظ می‌کند.

۳ دقیقه خواندن

آموزش کاربردیماه گذشته

چرا برای اجرای عامل‌های هوش مصنوعی دیگر نیازی به سرورهای ابری ندارید؟

توسعه‌دهندگان با استفاده از Hermes Agent و Termux، گوشی‌های اندرویدی را به ایستگاه‌های کاری هوش مصنوعی تبدیل می‌کنند. این عامل‌های خودگردان بدون نیاز به ابر، مخازن گیت‌هاب را…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

کاهش ۹۵ درصدی هزینه استنتاج با ترکیب Mistral Nemo و vLLM روی GPUهای ارزان

یک استراتژی جدید با ترکیب مدل Mistral Nemo و ابزار vLLM، هزینه استنتاج را تا ۹۵٪ کاهش می‌دهد. این پیکربندی روی GPUهای ارزان‌قیمت، سرعت پاسخ‌دهی را ۳ برابر کرده و نیاز به پرداخت…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

گزارش ofox.ai: فاصله کدنویسی Qwen 3.6 و Claude Opus به ۳.۶٪ رسید

مدل محلی Qwen 3.6 27B اکنون در بنچمارک SWE-bench Verified تنها ۳.۶ درصد با Claude Opus 4.6 فاصله دارد. برای توسعه‌دهندگانی که هزینه‌های بالای API دارند، خرید یک GPU RTX 4090 در…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

درون معماری Osaurus: تبدیل مک به سروری برای مدیریت مدل‌های محلی و ابری

پروژه متن‌باز Osaurus به کاربران مک اجازه می‌دهد تا مدل‌های محلی و ابری را در یک محیط امن و ایزوله مدیریت کنند. این ابزار با انتقال کنترل داده‌ها از مراکز داده به سخت‌افزار شخصی،…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چگونه whichllm انتخاب مدل‌های محلی را از حدس و گمان به داده تبدیل کرد؟

ابزار جدید whichllm با اولویت دادن به بنچمارک‌های واقعی به‌جای تعداد پارامترها، بهترین مدل محلی را برای سخت‌افزار شما پیشنهاد می‌دهد. این ابزار مشخصات GPU و CPU را شناسایی کرده و…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

GlycemicGPT: اتوماسیون تحلیل دیابت با معماری «هوش مصنوعی شخصی» (BYOAI)

پلتفرم متن‌باز GlycemicGPT با استفاده از مدل «هوش مصنوعی شخصی» (BYOAI)، تحلیل داده‌های گلوکز و پمپ انسولین را خودکار می‌کند. این ابزار با اولویت دادن به حریم خصوصی، اجازه می‌دهد…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

کاهش هزینه API به صفر؛ تجربه ۶ ماهه یک توسعه‌دهنده با مدل‌های محلی

یک توسعه‌دهنده با انتقال به سخت‌افزار محلی و استفاده از مدل‌های Qwen و Ollama، هزینه‌های API خود را کاملاً حذف کرد. این تغییر، هزینه ماهانه را از پرداخت به شرکت‌های ابری به قبض…

۲ دقیقه خواندن