
معیار CocoaBench ضعفهای عوامل هوش مصنوعی یکپارچه را آشکار کرد
پژوهشگران معیار ارزیابی جدیدی به نام CocoaBench معرفی کردهاند که عوامل دیجیتال یکپارچه را در وظایف طولانیمدت و چندوجهی آزمایش میکند. نتایج نشان میدهد حتی بهترین سیستمهای…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۳۳ مقاله منتشر شده

پژوهشگران معیار ارزیابی جدیدی به نام CocoaBench معرفی کردهاند که عوامل دیجیتال یکپارچه را در وظایف طولانیمدت و چندوجهی آزمایش میکند. نتایج نشان میدهد حتی بهترین سیستمهای…

روش جدیدی موسوم به «طبقهبندی ابتکاری افکار» (اچسیاوتی) با ادغام الگوریتمهای سیستمهای خبره در فرایند هدایت مدلهای زبانی، محدودیتهای کلیدی در استدلال و حل مسئله را هدف قرار…

پژوهشی گسترده روی ۵۵۶۸ شرایط مختلف نشان داده است که آزمایش مدلهای زبانی تنها با یک روش، بسیاری از آسیبپذیریهای مهم را از قلم میاندازد. معماریهای مختلف این مدلها پروفایلهای…

سایکلونامایئی از یک رمزگذار خودکار آگاه از ساختار استفاده میکند تا نمایشهای قابل انتقال توفانهای حارهای را از دادههای چندوجهی بیاموزد و همزمان پیشبینیهای قطعی و احتمالی…

پژوهشگران چارچوبی به نام DiT-ST توسعه دادهاند که کپشنهای پیچیده را به واحدهای معنایی سلسلهمراتبی تجزیه میکند. این رویکرد درک مدلهای منتشر را در تولید تصویر از روی متن بهبود…

چارچوب Safe-SAIL با استفاده از کدگذارهای خودکار پراکنده، ویژگیهای ایمنی را در مدلهای زبانی بزرگ شناسایی و تفسیر میکند. این روش هزینه تحلیل را ۵۵ درصد کاهش میدهد و ۱۷۵۸ ویژگی…

پژوهشگران چارچوب «گریس» را معرفی کردهاند که با استفاده از گراف و انتخاب تطبیقی، زیرمجموعههای نمایندهای از دادههای آموزشی را شناسایی میکند تا آموزش مدلهای زبانی بزرگ را تسریع…

پژوهشگران BID-LoRA را معرفی کردند؛ چارچوبی نوین که یادگیری مداوم و فراموشی ماشینی را با تنها ۵٪ بهروزرسانی پارامترها ترکیب میکند و از مکانیسمهای تطبیق دوسویه برای جلوگیری از…

چارچوب اکو (ECHO) یک رویکرد همتکاملی معرفی میکند که در آن مدلهای ناقد همراه با سیاست یادگیری تطبیق مییابند. این روش از راکد شدن بازخوردها جلوگیری کرده و پایداری آموزش را در…

پژوهشگران روشی به نام «صفحهبندی مشارکتی» معرفی کردهاند که با استفاده از نشانکهای کلمات کلیدی، مکالمات طولانی با مدلهای زبانی را مدیریت میکند. این روش به مدل اجازه میدهد…

پژوهش تازهای نشان داده که GPT-4o در نمرهدهی پاسخهای تشریحی فیزیک دانشگاهی به قابلیت اطمینان انسانی دست یافته است. این مطالعه تأکید میکند که راهنمای نمرهدهی دقیق و ساختارمند،…

وبفکتوری یک سیستم یادگیری تقویتی کاملاً خودکار و بسته معرفی کرده که دانش مدلهای زبانی بزرگ را به رفتارهای عملی عاملهای رابط کاربری تبدیل میکند. این سیستم با استفاده از حداقل…