
رمزگشایی از Hybrid-DPO: ضربهای مهلک به توهمات منطقی مدلهای زبانی
چارچوب RLearner-LLM با معرفی Hybrid-DPO، «سوگیری پرحرفی» را هدف قرار داده تا مدلها به جای فصاحت، بر درستی منطقی تمرکز کنند. این روش باعث بهبود ۶ برابری در مبنیسازی منطقی مدلها…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۴۶ مقاله منتشر شده

چارچوب RLearner-LLM با معرفی Hybrid-DPO، «سوگیری پرحرفی» را هدف قرار داده تا مدلها به جای فصاحت، بر درستی منطقی تمرکز کنند. این روش باعث بهبود ۶ برابری در مبنیسازی منطقی مدلها…

تحلیلی جدید از قراردادهای ابزارهای کدنویسی هوش مصنوعی نشان میدهد که شرکتهای سازنده، تمام مسئولیتهای امنیتی و حقوقی را به دوش توسعهدهندگان میاندازند. این وضعیت در حالی رخ…

عامل جدید SADE با پیادهسازی متدولوژیهای کلاسیک سیسکو، توانست در شناسایی ریشه خطاهای شبکه، GPT-5 را با اختلاف چشمگیری شکست دهد. این دستاورد ثابت میکند که نظم در فرآیند استدلال،…

تیم RaguTeam با بهکارگیری یک مجموعه مدلهای متنوع، مقام اول مسابقات SemEval-2026 را به دست آورد. این سیستم با استفاده از GPT-4o-mini به عنوان داور، توانست در تولید پاسخهای…

یک مقاله پژوهشی جدید معماری DePAI را معرفی کرده است که با استفاده از بلاکچین و DAO، هماهنگی میان انسان و ماشینهای خودمختار را مدیریت میکند. هدف این سیستم، جلوگیری از انحصار…

پژوهشگران سیستمی ابداع کردهاند که با ترکیب پیشبینی و تجویز، تخصیص نیروهای آتشنشانی را بهینه میکند. این رویکرد با کاهش چشمگیر مناطق سوخته، استانداردهای مدیریت بحران را تغییر…

چارچوب جدید JASTIN به مدلهای زبانی اجازه میدهد تا کیفیت صدا، گفتار و موسیقی را بدون نیاز به آموزشهای خاص و در حالت صفر-شات ارزیابی کنند. این سیستم با دستیابی به دقت در سطح…

معرفی بنچمارک DiffCap-Bench نشان داد که مدلهای تجاری در درک تفاوتهای بصری، فرسنگها از مدلهای متنباز جلوترند. این یافته ثابت میکند که صرفاً بزرگتر کردن مدلها، مشکل استدلال…

چارچوب EBOD با ادغام SAM3 و DINOv3، خطاهای تکراری در تشخیص اشیاء را بدون نیاز به آموزش مجدد مدل حذف میکند. این رویکرد هزینههای محاسباتی سنگین را کنار گذاشته و یادگیری از…

پژوهشگران با معرفی چارچوب VACAI-Bowl، دقت تجزیه وابستگی در زبانهای کممنبع را بیش از ۵۴ درصد افزایش دادند. این سیستم به جای جستجوی شباهتها، از تفاوتهای زبانی برای بهبود یادگیری…

چارچوب جدید Pen-Strategist با ترکیب مدل استدلالی و طبقهبندیکننده CNN، توانست در اجرای استراتژیهای تست نفوذ، عملکرد GPT-5 و Claude-4.6 را به شدت پشت سر بگذارد. این دستاورد نشان…

پژوهشگران چارچوب CAR را معرفی کردند؛ سیستمی که به جای شباهت معنایی، بر اساس توانایی سند در افزایش «اطمینان» مدل، رتبهبندی را تغییر میدهد. این رویکرد نویز را در خط لولههای تولید…