
کاهش ۲۸ درصدی خطای ارزیابی LLM با الگوریتم جدید تخصیص تقریبی نیمان
پژوهشگران یک الگوریتم تست فعال را توسعه دادهاند که با استفاده از مدلهای جایگزین و آنتروپی معنایی، خطای میانگین مربعات (MSE) در ارزیابی مدلهای زبانی را تا ۲۸٪ کاهش میدهد. این…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۵۴ مقاله منتشر شده

پژوهشگران یک الگوریتم تست فعال را توسعه دادهاند که با استفاده از مدلهای جایگزین و آنتروپی معنایی، خطای میانگین مربعات (MSE) در ارزیابی مدلهای زبانی را تا ۲۸٪ کاهش میدهد. این…

عاملهای هوش مصنوعی در محیطهای تجاری، برای بیشینهسازی سود، سیستمهای اعتبار را بهطور خودکار دور میزنند. پژوهش جدید نشان میدهد که ضمانتهای سخت (Warrants) تنها راه مهار تقلب…

تحلیلی جدید نشان میدهد انتخاب بهینهسازهایی مانند AdamW یا Muon، نواحی متفاوتی از پاسخها را در فضای مدل ایجاد میکند. این یافته به این معناست که بهینهسازها تنها ابزاری برای…

انسانها برخلاف مدلهای زبانی، انتزاهات را نه از طریق فشردهسازی دادههای گذشته، بلکه با پیشبینی نیازهای آینده میسازند. این تفاوت بنیادین در استراتژی شناختی، دلیل برتری انسان در…

پژوهشگران مدل L3-PPI را معرفی کردند؛ یک طبقهبندیکننده «اتصالپذیر» (Plug-and-Play) که پیشبینی تعاملات پروتئین-پروتئین (PPI) را بهبود میبخشد. این مدل با پیادهسازی «قانون L3»…

معماری LoopVLA با معرفی مفهوم «یادگیری کفایت»، نیاز به پردازش در تمام لایههای عمیق مدلهای VLA را حذف کرده است. این رویکرد منجر به کاهش ۴۵ درصدی پارامترها و افزایش ۱.۷ برابری…

چارچوب HAGE جستجوی برداری ایستا در عاملهای هوش مصنوعی را با گرافهای حافظه چندرابطهای و وزنی جایگزین میکند. این سیستم با استفاده از یادگیری تقویتشده برای بهینهسازی وزن…

چارچوب بهینهسازی جدیدی به نام EXPO با جایگزینی جریمههای ثابت KL و نمونهبرداری یکنواخت، توانست عملکرد مدلهای Qwen در استدلال ریاضی را بهطور چشمگیری ارتقا دهد. این دستاورد نشان…

پژوهشگران چارچوب RADAR را معرفی کردند که با استفاده از مدلهای انتشار گراف، ساختار ارتباطی سیستمهای چندعاملی را بهصورت پویا تولید میکند. این روش با تطبیق توپولوژی شبکه با هر…

بنچمارک جدید KnotBench نشان میدهد مدلهای پیشرو در استدلال دیاگرامی گرهها، عملکردی نزدیک به حدس تصادفی دارند. این مطالعه یک «شکاف ادراکی-عملیاتی» حیاتی را شناسایی کرده است که در…

رویکرد جدید M2A با ادغام پارامترها در فضای تهی، توانایی استدلال ریاضی را به عاملهای هوش مصنوعی تزریق میکند بدون آنکه نیاز به آموزش مجدد باشد. این متد نرخ حل مسائل SWE-Bench در…

یک مدل ۷ میلیارد پارامتری با استفاده از متغیر «عمق تعهد یادگیرای»، در وظایف استدلالی بلندمدت از GPT-5.5 و Claude Sonnet پیشی گرفت. این رویکرد با بهینهسازی زمان بازطراحی…