آموزش کاربردی | دات‌هوش

گزارش arXiv: ارتقای نرخ حل مسائل SWE-bench به ۳۲.۲٪ با روش SRFT

روش جدید SRFT با فیلتر کردن گام‌های اشتباه به جای حذف کل مسیرهای ناموفق، نرخ حل مسائل در بنچمارک SWE-bench Verified را به ۳۲.۲٪ رسانده است. این رویکرد به مدل‌ها می‌آموزد که چگونه…

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار MAGE: تکامل عامل‌های هوش مصنوعی بدون به‌روزرسانی وزن‌های مدل

چارچوب MAGE با معرفی گراف‌های دانش تکاملی، به عامل‌های هوش مصنوعی اجازه می‌دهد بدون تغییر در وزن‌های مدل، از شکست‌ها و موفقیت‌های خود بیاموزند. این سیستم در ۹ بنچمارک مختلف، از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

کاهش هزینه برچسب‌گذاری اشیاء با رویکرد استنتاج-محور در چارچوب PAL

چارچوب PAL هزینه برچسب‌گذاری کادرهای محدودکننده را با انتخاب داده‌های اثرگذار تنها از طریق خروجی‌های استنتاج کاهش می‌دهد. این سیستم مستقل از معماری مدل است و نیاز به تغییر در خط…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار KVM: کاهش بار حافظه ترنسفورمرها با رشد زیرخطی وضعیت

پژوهشگران مکانیزم توجه جدیدی به نام KVM معرفی کرده‌اند که شکاف میان ترنسفورمرها و RNNهای خطی را پر می‌کند. این روش با ایجاد رشد زیرخطی در وضعیت حافظه، هزینه‌های پردازش متون بلند…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش PrimeKG-CL: اثر ۶۰ درصدی ویژگی‌های چندوجهی بر دقت مدل‌های زیست‌پزشکی

بنچمارک جدید PrimeKG-CL نشان می‌دهد که استفاده از ویژگی‌های چندوجهی می‌تواند دقت وظایف هوش مصنوعی در حوزه زیست‌پزشکی را تا ۶۰٪ افزایش دهد. این مطالعه همچنین شکست‌های جدی در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا مدل ۰.۷۷ میلیارد پارامتری Fashion Florence از GPT-4o-mini دقیق‌تر است؟

یک مدل تخصصی با نام Fashion Florence با تنها ۰.۷۷ میلیارد پارامتر، در استخراج داده‌های ساختاریافته‌ی مد از تصاویر، مدل‌های پیشرویی چون GPT-4o-mini را شکست داد. این دستاورد نشان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: نرخ موفقیت عامل‌های کدنویس با متد Shepherd به ۵۴.۷٪ رسید

پلتفرم Shepherd با معرفی زیرساختی مبتنی بر برنامه‌نویسی تابعی، تعاملات عامل‌ها را به عنوان رویدادهای کنترل‌شده مدیریت می‌کند. این رویکرد سرعت بازتولید وضعیت‌ها را ۵ برابر بیشتر از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش BenchCAD: ناتوانی مدل‌های پیشرو در تولید کدهای اجرایی برای طراحی صنعتی

بنچمارک جدید BenchCAD نشان می‌دهد مدل‌های پیشرو در عین توانایی در تقلید بصری، در تولید کدهای پارامتریک دقیق برای تولید صنعتی شکست می‌خورند. این مطالعه شکاف عمیق میان استدلال فضایی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

عبور از خروجی‌های یکسان؛ NanoResearch چگونه متدولوژی شخصی پژوهشگر را می‌آموزد؟

NanoResearch یک چارچوب چند-عاملی جدید است که با شخصی‌سازی خط‌لوله پژوهش، خروجی‌های یکسان مدل‌های زبانی را کنار می‌گذارد. این سیستم از طریق تکامل هم‌زمان بانک مهارت و حافظه،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار MATRA: سنجش شعاع تخریب حملات تزریق در عامل‌های هوش مصنوعی

چارچوب جدید MATRA روشی سیستماتیک برای تبدیل آسیب‌پذیری‌های مدل‌های زبانی به ریسک‌های عملیاتی در عامل‌های خودمختار ارائه می‌دهد. این پژوهش نشان می‌دهد که کنترل‌های معماری مانند…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

درون LLARS: سیستمی برای تبدیل شهود متخصصان به بنچمارک‌های دقیق هوش مصنوعی

پلتفرم بازمتن LLARS با یکپارچه‌سازی مهندسی پرامپت و ارزیابی، شکاف ارتباطی میان متخصصان دامنه و توسعه‌دهندگان را پر می‌کند. این سیستم یک گردش‌کار سرتاسری برای ساخت مدل‌های زبانی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا گلوگاه عامل‌های هوش مصنوعی در استدلال نیست، بلکه در طراحی APIهاست؟

یک پارادایم جدید در طراحی APIهای معنایی، رابط‌های سنتی CRUD را با پروتکلی شش‌فعل برای عامل‌های هوش مصنوعی جایگزین کرده است. این رویکرد در محیط‌های عملیاتی SaaS، نرخ موفقیت در…

۲ دقیقه خواندن