
جادوی ۴۴۰ مگابایتی تنسنت برای شکست دادن گوگل ترنسلیت
تنسنت یک مدل ترجمه فوقفشرده و آفلاین را معرفی کرد که با حجم تنها ۴۴۰ مگابایت، کیفیتی در سطح سیستمهای تجاری بزرگ دارد. این مدل ۳۳ زبان را پشتیبانی میکند و نیاز به اتصال ابری را…
موضوع
Open-source models, open weights, local hosting, licensing
۴۸۳ مقاله منتشر شده

تنسنت یک مدل ترجمه فوقفشرده و آفلاین را معرفی کرد که با حجم تنها ۴۴۰ مگابایت، کیفیتی در سطح سیستمهای تجاری بزرگ دارد. این مدل ۳۳ زبان را پشتیبانی میکند و نیاز به اتصال ابری را…

IBM با معرفی خانوادهی Granite 4.1 ثابت کرد که مدلهای کوچکتر با دادههای باکیفیت میتوانند مدلهای غولپیکر را شکست دهند. نسخهی ۸ میلیاردی این مدل در بنچمارکهای کلیدی، عملکرد…

پژوهشگران ابزار متنباز HalluCiteChecker را برای شناسایی ارجاعات جعلی در مقالات علمی معرفی کردند. این ابزار سبک، بدون نیاز به GPU و بهصورت آفلاین روی CPUهای معمولی اجرا میشود تا…

یک مدل تخصصی Qwen2.5-7B در تریاژ پزشکی از GPT-4o پیشی گرفت. این نتیجه ثابت میکند تنظیم دقیق روی دادههای بالینی بسیار موثرتر از تکیه بر مدلهای عمومی عظیم است.

پژوهشگران محیط FutureWorld را برای آموزش عاملهای هوش مصنوعی زاینده به پیشبینی رویدادهای واقعی طراحی کردهاند. این سیستم با بستن حلقهی یادگیری بین پیشبینی و نتیجه، امکان تکامل…

یک مطالعه جدید نشان میدهد که برای تصحیح دقیق تکالیف ریاضی، همراستاسازی معماری با دستورالعملها بسیار حیاتیتر از تعداد پارامترها است. در حالی که مدلهای مبتنی بر Gemini عملکرد…

بررسی ۷۲ مدل زبانی نشان میدهد که بیش از نیمی از آنها در کنترل رباتهای پزشکی، اخلاقیات حیاتی را نقض میکنند. این شکاف ایمنی، بهویژه در مدلهای وزنباز، استقرار این فناوری در…

پلتفرم متنباز Mike با جایگزینی لایسنسهای گرانقیمت با مدل استفاده از API، کنترل زیرساختهای هوش مصنوعی را به دفاتر حقوقی بازمیگرداند. این ابزار اجازه میدهد مدلهای قدرتمندی…

چارچوب OpenKB با بهرهگیری از مدل Llama 3.3 70B، فایلهای Markdown بدون ساختار را به یک ویکی متصل و سازمانیافته تبدیل میکند. این روش با عبور از محدودیتهای RAG، امکان سنتز عمیق…

دیپسیک با معرفی مدلهای V4-Pro و V4-Flash، معماری جدیدی را برای کاهش چشمگیر هزینههای استنتاج ارائه کرد. این مدلها با پنجره بافتی ۱ میلیون توکنی، مسیر را برای ظهور عاملهای…

زنکو (Zenku) یک موتور بدونکد (No-code) متنباز است که با استفاده از معماری عاملمحور، اپلیکیشنها را بهصورت پویا و از طریق گفتگو میسازد. این ابزار با جایگزینی کدهای استاتیک با…

مدل AlphaMaze ثابت کرد که برای درک فضای سهبعدی و حل هزارتوها، نیازی به پردازش تصویر نیست. این مدل ۱.۵ میلیارد پارامتری با استفاده از توکنهای متنی، نقشهای ذهنی از محیط میسازد و…