تحلیل و بررسی تخصصی

چرا کالیبراسیون مبتنی بر مسیریابی در ترنسفورمرها یک توهم ظرفیتی است؟

تحلیل فنی ترنسفورمرهای Attention-Residual نشان می‌دهد که ردپاهای مسیریابی داخلی، شواهد پایداری برای کالیبراسیون پس‌ینی فراهم نمی‌کنند. این مطالعه هشدار می‌دهد که بهبودهای ظاهری در…

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار FEM: رفع خطای Mode-Bridge در شبکه‌های بیزی ترکیبی با تنظیم دره‌های داده

پژوهشگران مدل FEM را برای حذف «مصنوعات پل-مود» در شبکه‌های بیزی ترکیبی معرفی کردند. این مدل با استفاده از تکنیک تنظیم دره، توهمات احتمالی در نقاط خالی بین خوشه‌های داده را از بین…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا مدل ۰.۷۷ میلیارد پارامتری Fashion Florence از GPT-4o-mini دقیق‌تر است؟

یک مدل تخصصی با نام Fashion Florence با تنها ۰.۷۷ میلیارد پارامتر، در استخراج داده‌های ساختاریافته‌ی مد از تصاویر، مدل‌های پیشرویی چون GPT-4o-mini را شکست داد. این دستاورد نشان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از علت واگرایی آموزش FP4 و نقش چرخش‌های قطعی هادامار

پژوهشگران دریافتند که کوانتیزاسیون گرادینت‌های وزن (Wgrad) عامل اصلی ناپایداری در آموزش مدل‌های زبانی با دقت FP4 است. استفاده از چرخش‌های قطعی هادامار، برخلاف روش‌های تصادفی،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: نرخ موفقیت عامل‌های کدنویس با متد Shepherd به ۵۴.۷٪ رسید

پلتفرم Shepherd با معرفی زیرساختی مبتنی بر برنامه‌نویسی تابعی، تعاملات عامل‌ها را به عنوان رویدادهای کنترل‌شده مدیریت می‌کند. این رویکرد سرعت بازتولید وضعیت‌ها را ۵ برابر بیشتر از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش BenchCAD: ناتوانی مدل‌های پیشرو در تولید کدهای اجرایی برای طراحی صنعتی

بنچمارک جدید BenchCAD نشان می‌دهد مدل‌های پیشرو در عین توانایی در تقلید بصری، در تولید کدهای پارامتریک دقیق برای تولید صنعتی شکست می‌خورند. این مطالعه شکاف عمیق میان استدلال فضایی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا حذف کامل «سندهای مزاحم» حیاتی‌تر از کاهش حجم پنجره متنی است؟

حضور مقدار اندکی اطلاعات گمراه‌کننده در متون طولانی، باعث سقوط غیرخطی عملکرد مدل‌های زبانی می‌شود. این یافته نشان می‌دهد که دقت در بازیابی داده‌ها بسیار حیاتی‌تر از کاهش کلی حجم…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

چارچوب استدلالی جدیدی به نام SFFL با تفکیک مسیرهای استدلال برای هر مودالیته، توهمات در مدل‌های زبانی چندوجهی را به‌طور چشم‌گیری کاهش داده است. این متد دقت کلی را ۵.۱۶٪ و نرخ کاهش…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

عبور از خروجی‌های یکسان؛ NanoResearch چگونه متدولوژی شخصی پژوهشگر را می‌آموزد؟

NanoResearch یک چارچوب چند-عاملی جدید است که با شخصی‌سازی خط‌لوله پژوهش، خروجی‌های یکسان مدل‌های زبانی را کنار می‌گذارد. این سیستم از طریق تکامل هم‌زمان بانک مهارت و حافظه،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار RACER: بهینه‌سازی هزینه داوران LLM از طریق مسیریابی مقاوم

مدل‌های استدلالی در ارزیابی‌های ساده، قدرت محاسباتی را هدر می‌دهند. چارچوب RACER با مسیریابی پویا، وظایف را به مقرون‌به‌صرفه‌ترین داور می‌سپارد و دقت را حتی در صورت تغییر توزیع…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا برترین عامل‌های هوش مصنوعی در محیط‌های پیچیده از سد ۶۰ درصد عبور نمی‌کنند؟

بنچمارک جدید ComplexMCP نشان می‌دهد برترین عامل‌های هوش مصنوعی در محیط‌های ابزاری پیچیده تنها ۶۰ درصد موفقیت دارند، در حالی که این رقم برای انسان‌ها ۹۰ درصد است. این مطالعه…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار MATRA: سنجش شعاع تخریب حملات تزریق در عامل‌های هوش مصنوعی

چارچوب جدید MATRA روشی سیستماتیک برای تبدیل آسیب‌پذیری‌های مدل‌های زبانی به ریسک‌های عملیاتی در عامل‌های خودمختار ارائه می‌دهد. این پژوهش نشان می‌دهد که کنترل‌های معماری مانند…

۲ دقیقه خواندن