پرش به محتوای اصلی

موضوع

مدل‌های بازوزن

Open-source models, open weights, local hosting, licensing

۴۸۸ مقاله منتشر شده

گزارش Ramp: Deepseek محبوب‌ترین تأمین‌کننده هوش مصنوعی در ژوئن ۲۰۲۶ شد

شرکت‌های آمریکایی به دلیل نسبت بهینه قیمت به عملکرد، به‌طور گسترده به مدل‌های Deepseek روی آورده‌اند. این روند آغاز «اقتصاد توکنی» است؛ جایی که کاهش هزینه بر عملکرد مطلق مدل…

۲ دقیقه خواندن
آموزش کاربردی

چگونه ابزار Her لاگ‌های پیچیده‌ی Claude Code را به گزارش‌های متنی تبدیل می‌کند؟

ابزار Her لاگ‌های متراکم Claude Code را به گزارش‌های متنی خوانا تبدیل می‌کند. این ابزار با ترکیب یک موتور تحلیل قطعی و یک مدل زبانی کوچک، ریسک‌های عملیاتی را شناسایی و بازرسی‌های…

۳ دقیقه خواندن

استخراج آرگومان‌های ریاضی از فعال‌سازهای Llama بدون تحلیل متن

پژوهشگران ثابت کردند که عملیات و اعداد ریاضی را می‌توان مستقیماً از فعال‌سازهای داخلی مدل‌های Llama استخراج کرد. این دستاورد اجازه می‌دهد ابزارهای خارجی به‌جای تحلیل متنی پرامپت،…

۹ دقیقه خواندن
آموزش کاربردی

درون oproxy: وقتی هوش مصنوعی جایگزین نوشتن دستی اسکریپت‌های Lua می‌شود

ابزار متن‌باز oproxy با ادغام یک دستیار هوشمند، فرآیند رهگیری و تغییر ترافیک شبکه را برای توسعه‌دهندگان متحول کرده است. این ابزار امکان مدیریت حالت‌های پروکسی و آماده‌سازی تغییرات…

۳ دقیقه خواندن
رمزگشایی از مکانیسم توجه: چرا پرامپت‌های شما گاهی با توهم پاسخ می‌دهند؟
آموزش کاربردی

رمزگشایی از مکانیسم توجه: چرا پرامپت‌های شما گاهی با توهم پاسخ می‌دهند؟

مدل‌های زبانی واقعاً حقایق را نمی‌شناسند، بلکه موتورهای آماری برای پیش‌بینی توکن بعدی هستند. درک معماری ترنسفورمر و فرآیند RLHF به کاربران کمک می‌کند تا توهمات را کاهش داده و…

۱۰ دقیقه خواندن
چرا ترکیب مدل‌های کوچک، رفتارهای انسانی‌تر از مدل‌های غول‌پیکر می‌سازد؟
آموزش کاربردی

چرا ترکیب مدل‌های کوچک، رفتارهای انسانی‌تر از مدل‌های غول‌پیکر می‌سازد؟

گزارش فنی جدیدی نشان می‌دهد که ترکیب چهار مدل زبانی کوچک از آزمایشگاه‌های مختلف، رفتارهای ارگانیک‌تر و استراتژی‌های اقتصادی پیچیده‌تری را نسبت به یک مدل واحد ایجاد می‌کند. این…

۶ دقیقه خواندن