
گزارش arXiv: ارتقای نرخ حل مسائل SWE-bench به ۳۲.۲٪ با روش SRFT
روش جدید SRFT با فیلتر کردن گامهای اشتباه به جای حذف کل مسیرهای ناموفق، نرخ حل مسائل در بنچمارک SWE-bench Verified را به ۳۲.۲٪ رسانده است. این رویکرد به مدلها میآموزد که چگونه…
دستهبندی
راهنماهای گامبهگام، دورهها و آموزشهای کاربردی استفاده از هوش مصنوعی — از مهندسی پرامپت تا فاینتیون و RAG.
۱٬۸۵۳ مقاله منتشر شده

روش جدید SRFT با فیلتر کردن گامهای اشتباه به جای حذف کل مسیرهای ناموفق، نرخ حل مسائل در بنچمارک SWE-bench Verified را به ۳۲.۲٪ رسانده است. این رویکرد به مدلها میآموزد که چگونه…

چارچوب MAGE با معرفی گرافهای دانش تکاملی، به عاملهای هوش مصنوعی اجازه میدهد بدون تغییر در وزنهای مدل، از شکستها و موفقیتهای خود بیاموزند. این سیستم در ۹ بنچمارک مختلف، از…

چارچوب PAL هزینه برچسبگذاری کادرهای محدودکننده را با انتخاب دادههای اثرگذار تنها از طریق خروجیهای استنتاج کاهش میدهد. این سیستم مستقل از معماری مدل است و نیاز به تغییر در خط…

پژوهشگران مکانیزم توجه جدیدی به نام KVM معرفی کردهاند که شکاف میان ترنسفورمرها و RNNهای خطی را پر میکند. این روش با ایجاد رشد زیرخطی در وضعیت حافظه، هزینههای پردازش متون بلند…

بنچمارک جدید PrimeKG-CL نشان میدهد که استفاده از ویژگیهای چندوجهی میتواند دقت وظایف هوش مصنوعی در حوزه زیستپزشکی را تا ۶۰٪ افزایش دهد. این مطالعه همچنین شکستهای جدی در…

یک مدل تخصصی با نام Fashion Florence با تنها ۰.۷۷ میلیارد پارامتر، در استخراج دادههای ساختاریافتهی مد از تصاویر، مدلهای پیشرویی چون GPT-4o-mini را شکست داد. این دستاورد نشان…

پلتفرم Shepherd با معرفی زیرساختی مبتنی بر برنامهنویسی تابعی، تعاملات عاملها را به عنوان رویدادهای کنترلشده مدیریت میکند. این رویکرد سرعت بازتولید وضعیتها را ۵ برابر بیشتر از…

بنچمارک جدید BenchCAD نشان میدهد مدلهای پیشرو در عین توانایی در تقلید بصری، در تولید کدهای پارامتریک دقیق برای تولید صنعتی شکست میخورند. این مطالعه شکاف عمیق میان استدلال فضایی…

NanoResearch یک چارچوب چند-عاملی جدید است که با شخصیسازی خطلوله پژوهش، خروجیهای یکسان مدلهای زبانی را کنار میگذارد. این سیستم از طریق تکامل همزمان بانک مهارت و حافظه،…

چارچوب جدید MATRA روشی سیستماتیک برای تبدیل آسیبپذیریهای مدلهای زبانی به ریسکهای عملیاتی در عاملهای خودمختار ارائه میدهد. این پژوهش نشان میدهد که کنترلهای معماری مانند…

پلتفرم بازمتن LLARS با یکپارچهسازی مهندسی پرامپت و ارزیابی، شکاف ارتباطی میان متخصصان دامنه و توسعهدهندگان را پر میکند. این سیستم یک گردشکار سرتاسری برای ساخت مدلهای زبانی…

یک پارادایم جدید در طراحی APIهای معنایی، رابطهای سنتی CRUD را با پروتکلی ششفعل برای عاملهای هوش مصنوعی جایگزین کرده است. این رویکرد در محیطهای عملیاتی SaaS، نرخ موفقیت در…