موضوع

مدل‌های بازوزن

Open-source models, open weights, local hosting, licensing

۴۸۳ مقاله منتشر شده

جادوی ۴۴۰ مگابایتی تنسنت برای شکست دادن گوگل ترنسلیت

تنسنت یک مدل ترجمه فوق‌فشرده و آفلاین را معرفی کرد که با حجم تنها ۴۴۰ مگابایت، کیفیتی در سطح سیستم‌های تجاری بزرگ دارد. این مدل ۳۳ زبان را پشتیبانی می‌کند و نیاز به اتصال ابری را…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

پایان سلطه‌ی مدل‌های حجیم: چگونه Granite 4.1 قواعد بازی را تغییر داد

IBM با معرفی خانواده‌ی Granite 4.1 ثابت کرد که مدل‌های کوچک‌تر با داده‌های باکیفیت می‌توانند مدل‌های غول‌پیکر را شکست دهند. نسخه‌ی ۸ میلیاردی این مدل در بنچمارک‌های کلیدی، عملکرد…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چگونه HalluCiteChecker توهمات ارجاعات علمی را در چند ثانیه شکار می‌کند

پژوهشگران ابزار متن‌باز HalluCiteChecker را برای شناسایی ارجاعات جعلی در مقالات علمی معرفی کردند. این ابزار سبک، بدون نیاز به GPU و به‌صورت آفلاین روی CPUهای معمولی اجرا می‌شود تا…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

مدل ۷ میلیاردی که GPT-4o را در اورژانس شکست داد

یک مدل تخصصی Qwen2.5-7B در تریاژ پزشکی از GPT-4o پیشی گرفت. این نتیجه ثابت می‌کند تنظیم دقیق روی داده‌های بالینی بسیار موثرتر از تکیه بر مدل‌های عمومی عظیم است.

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از FutureWorld: یادگیری از اتفاقاتی که هنوز نیفتاده‌اند

پژوهشگران محیط FutureWorld را برای آموزش عامل‌های هوش مصنوعی زاینده به پیش‌بینی رویدادهای واقعی طراحی کرده‌اند. این سیستم با بستن حلقه‌ی یادگیری بین پیش‌بینی و نتیجه، امکان تکامل…

۲ دقیقه خواندن

$چرا تعداد پارامترها در تصحیح تکالیف ریاضی هیچ اهمیتی ندارد$

تحلیل و بررسی تخصصی۲ ماه پیش

چرا تعداد پارامترها در تصحیح تکالیف ریاضی هیچ اهمیتی ندارد

یک مطالعه جدید نشان می‌دهد که برای تصحیح دقیق تکالیف ریاضی، همراستاسازی معماری با دستورالعمل‌ها بسیار حیاتی‌تر از تعداد پارامترها است. در حالی که مدل‌های مبتنی بر Gemini عملکرد…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا تنظیم دقیق مدل‌های زبانی، ایمنی ربات‌های پزشکی را تضمین نمی‌کند؟

بررسی ۷۲ مدل زبانی نشان می‌دهد که بیش از نیمی از آن‌ها در کنترل ربات‌های پزشکی، اخلاقیات حیاتی را نقض می‌کنند. این شکاف ایمنی، به‌ویژه در مدل‌های وزن‌باز، استقرار این فناوری در…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

پایان عصر لایسنس‌های گران‌قیمت: Mike انحصار هوش مصنوعی حقوقی را می‌شکند

پلتفرم متن‌باز Mike با جایگزینی لایسنس‌های گران‌قیمت با مدل استفاده از API، کنترل زیرساخت‌های هوش مصنوعی را به دفاتر حقوقی بازمی‌گرداند. این ابزار اجازه می‌دهد مدل‌های قدرتمندی…

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چگونه OpenKB مستندات پراکنده را به یک گراف دانش زنده تبدیل می‌کند

چارچوب OpenKB با بهره‌گیری از مدل Llama 3.3 70B، فایل‌های Markdown بدون ساختار را به یک ویکی متصل و سازمان‌یافته تبدیل می‌کند. این روش با عبور از محدودیت‌های RAG، امکان سنتز عمیق…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از DeepSeek V4: وقتی حافظه استنتاج ۹۰ درصد سبک‌تر می‌شود

دیپ‌سیک با معرفی مدل‌های V4-Pro و V4-Flash، معماری جدیدی را برای کاهش چشمگیر هزینه‌های استنتاج ارائه کرد. این مدل‌ها با پنجره بافتی ۱ میلیون توکنی، مسیر را برای ظهور عامل‌های…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

درون معماری Zenku: وقتی اپلیکیشن‌ها به جای کد، با متادیتا زنده می‌شوند

زنکو (Zenku) یک موتور بدون‌کد (No-code) متن‌باز است که با استفاده از معماری عامل‌محور، اپلیکیشن‌ها را به‌صورت پویا و از طریق گفتگو می‌سازد. این ابزار با جایگزینی کدهای استاتیک با…

۳ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

رمزگشایی از AlphaMaze: استدلال بصری بدون نیاز به تصویر

مدل AlphaMaze ثابت کرد که برای درک فضای سه‌بعدی و حل هزارتوها، نیازی به پردازش تصویر نیست. این مدل ۱.۵ میلیارد پارامتری با استفاده از توکن‌های متنی، نقشه‌ای ذهنی از محیط می‌سازد و…

۳ دقیقه خواندن