گزیدهای از خواندنیترین و مهمترین مطالب داتهوش.

یک بررسی جامع در arXiv نشان میدهد که مفهوم «خودتوضیحی» (SX) در سیستمهای هوش مصنوعی، علیرغم اهمیت بنیادین، هنوز فاقد پیادهسازی عملی و معیارهای ارزیابی استاندارد است. این پژوهش شکاف عمیق میان تئوریهای موجود و واقعیتهای مهندسی را افشا میکند.

محققان ابزاری به نام PRISM را معرفی کردهاند که میتواند وضعیتهای پنهان مدلهای زبانی را به لیستهای خوانای دستورات تبدیل کند. این فناوری امکان شناسایی اهداف مخفی و تزریقهای پرامپت را فراهم میکند، حتی اگر این موارد در خروجی نهایی مدل ظاهر نشوند.

پژوهشهای جدید نشان میدهد عاملهای هوش مصنوعی در ارزشگذاری داروها، بیش از آنکه با محدودیتهای استدلالی دستوپنجر باشند، با کمبود دادههای باکیفیت مواجهاند. دسترسی به مجموعه دادههای اختصاصی، تنها راه رسیدن به دقت رقابتی در حوزههای تخصصی علمی است.

معماری جدید MedSci Skills با جایگزینی خود-ارزیابی مدلهای زبانی با گیتهای تأیید قطعی، توانست تمام خطاهای تزریقشده در متون بالینی را شناسایی کند. در حالی که مدلهای زبانی معمولی بیش از نیمی از این خطاها را نادیده گرفتند، این سیستم دقت ۱۰۰ درصدی را ثبت کرد.

چارچوب BSLI پایش فاضلاب شهری را از یک جریان دادهی غیرفعال به یک سامانهی تصمیمساز فعال تبدیل میکند. این سیستم با تعیین زمان دقیق نیاز به دادههای تکمیلی، توازن میان هزینهی پایش و دقت تشخیص را بهینه میسازد.

پژوهشی جدید نشان میدهد تنظیم دقیق مدلهای زبانی روی تسکهای ایمنی محدود، میتواند منجر به همراستاسازی اخلاقی در دستههای کلی شود. این یافته مدل «انتخاب پرسونا» را تأیید میکند و میگوید مدلها به جای یادگیری ارزشهای جدید، پرسوناهای اخلاقی پیشفرض را فعال میکنند.

بنچمارک جدید TheoremBench نشان میدهد که مدلهای زبانی با وجود موفقیت در مسائل مجزا، در مدیریت براهین پیچیده و وابسته به یکدیگر شکست میخورند. این مدلها به جای استدلال ساختاری، تمایل شدیدی به حل زیر-براهین ساده و استفاده از مسیرهای ناکارآمد دارند.

یک چارچوب آموزشی جدید با بهرهگیری از تقطیر دانش و بهینهسازی GRPO، مدلی با ۳۲ میلیارد پارامتر را به سطح مدلهای تجاری پیشرو در اتوماسیون کنسولهای ابری رسانده است. این سیستم ضمن دستیابی به نرخ موفقیت ۶۳.۵۲ درصدی، هزینههای استنتاج در مقیاس بزرگ را بهشدت کاهش میدهد.

رویکرد SIFT با جایگزینی تنسورهای حجیم KV با بردارهای بیتی فشرده، سرعت پیشتولید در سیستمهای RAG را به شکل چشمگیری افزایش میدهد. این متد حجم ذخیرهسازی مورد نیاز را ۲۴ هزار برابر کاهش داده و تأخیر در تولید اولین توکن را بدون افت دقت محسوس، بهینه میکند.

عامل جدید SuperBrowser با دستیابی به نرخ موفقیت ۸۹.۴۷ درصدی در بنچمارک Mind2Web Hard، استانداردهای ناوبری وب را جابهجا کرد. این سیستم به جای پردازش جامع دادههای صفحه، از مکانیزم «فراموشی استراتژیک» برای افزایش دقت و پایداری استفاده میکند.

بنچمارک جدید WeaveBench نشان میدهد که مدلهای پیشرو در وظایف ترکیبی GUI و CLI تنها به نرخ موفقیت ۴۱.۲ درصدی رسیدهاند. این نتایج فاش میکند که عاملها در مدیریت گردشکارهای طولانیمدت ناتواناند و اغلب با تولید شواهد جعلی، داوران را فریب میدهند.

پژوهشی جدید نشان میدهد اجبار مدلهای زبانی متوسط به تولید خروجی ساختاریافته (JSON)، دقت استدلالی آنها را تا ۲۸ درصد کاهش میدهد. این پدیده که «مالیات استدلال» نامیده شده، نشان میدهد مدلهای کوچکتر در مدیریت همزمان استدلال و قالببندی دچار کمبود ظرفیت میشوند.

پژوهشی جدید نشان میدهد رتبهبندیهای Elo در مدلهای زبانی با دقت واقعی (Ground-Truth) همبستگی شدیدی دارند. این یافتهها ثابت میکند که اگرچه سوگیریهای استایلی وجود دارند، اما بهندرت میتوانند جایگزین صحت فنی در رتبهبندی مدلها شوند.

چارچوب STRP با حل تضاد میان هزینه ذخیرهسازی و دقت پیشبینی، امکان تخمین ترافیک با رزولوشن بالا را تنها با استفاده از دادههای دانهدرشت فراهم میکند. این مدل با بهرهگیری از معماریهای نوآورانه، نیاز به جمعآوری دادههای پرتراکم را حذف میکند.

رویکرد جدیدی به نام CAHL از طریق یادگیری تقویتشده با پاداشهای قابل تأیید، برنامهریز و اجراکننده مدلهای زبانی را بهطور مشترک بهینه میکند. این روش همراستاسازی ساختاری را که عاملهای هوش مصنوعی را در وظایف مبتنی بر ابزار محدود میکرد، برطرف میسازد.

روش جدید PCI با جایگزینی بازبینیهای مبتنی بر گرادیان با تصویرسازیهای ساختاری، زمان استنتاج را در مسائل TSP تا ۴۰ درصد کاهش میدهد. این متد بدون نیاز به بازآموزی، شکاف بهینگی را در مسائل ۵۰۰ شهری به ۰.۱۷ درصد رسانده است.

چارچوب TRL-Bench ثابت میکند که در پردازش دادههای جدولی، ترکیبی از مدلهای متخصص بر یک مدل برنده و جامع برتری دارد. این نتایج، رویکرد ارزیابی مدلها را از «مدلمحوری» به «قابلیتمحوری» تغییر میدهد.

بنچمارک جدید IMUG-Bench نشان میدهد مدلهای چندوجهی یکپارچه در حفظ سازگاری طی گفتگوهای طولانی با تصاویر شکست میخورند. این پژوهش ثابت میکند «سوگیری مواجهه» عامل اصلی خطاهاست و استفاده از استراتژیهای مقیاسپذیری در زمان استنتاج میتواند این نقص را جبران کند.

مدلهای زبانی معمولاً در تولید ایدههای پژوهشی به دلیل اتکای به متنهای «تخت» شکست میخورند. Graph2Idea با تبدیل ادبیات علمی به گرافهای دانش، نرخ نوآوری و امکانپذیری ایدههای تولیدشده را بهطور معناداری افزایش داده است.

معماری FF-JEPA با معرفی یک رویکرد سلسلهمراتبی، مشکل فروپاشی مدلهای جهان در برنامهریزیهای بلندمدت را حل کرده است. این مدل با استفاده از یک برنامهریز نهان برای تعیین زیرهدفها، نیاز به تصاویر هدف را حذف و هزینههای محاسباتی را کاهش میدهد.

چارچوب جدید MASS از شبیهسازیهای اجتماعی تقویتشده با حافظه استفاده میکند تا عاملهای پژوهشی را از سطح ترکیب متون به استدلال تجربی ارتقا دهد. این سیستم توانست نرخ بینش در تولید مقالات علوم اجتماعی را ۱۷.۱۹ درصد نسبت به مدلهای پایه بهبود بخشد.

پژوهشگران با معرفی VisShield و مجموعهدادهی OPTIC، چارچوبی برای شناسایی و ماسکگذاری دقیق اطلاعات خصوصی در مدلهای بینایی-زبانی (VLMs) ارائه کردند. این رویکرد ریسک نشت دادههای پزشکی را از طریق OCR هدفمند به شدت کاهش میدهد.

پژوهشگران چارچوبی عاملمحور برای اتوماسیون طراحی موتورهای همگام مغناطیس داخلی (IPMSM) توسعه دادهاند. این سیستم با ترکیب تولید بازیابیافزا (RAG) و رویکرد هیبریدی AI-FEA، محدودیتهای محاسباتی و شکافهای قابلیت اطمینان در مدلهای جایگزین را برطرف میکند.

چارچوب RePO هدف همراستاسازی مدلهای زبانی را از بیشینهسازی پاداش به کمینهسازی حسرت تغییر میدهد. این رویکرد با مدلسازی ترجیحات انسانی به عنوان زیربهینگی نسبی، عملکرد مدلها را در استدلال ریاضی بهبود میبخشد.

چارچوب جدید LATTEArena نشان میدهد که ترکیب زنجیره تفکر و جستجوی درختی مونتکارلو، بهینهترین روش برای خودکارسازی مهندسی ویژگیها در دادههای جدولی است. این مطالعه معیارهای استانداردی برای ارزیابی هزینه، عملکرد و پایداری این فرآیند ارائه میدهد.

چارچوب REFLECT با جایگزینی تشخیصهای غیرفعال با یک چرخه آزمایش-و-خطای فعال، نقاط شکست در سیستمهای عاملمحور را شناسایی میکند. این روش بهویژه برای یافتن «خطاهای خاموش» که از دید مدلهای داور پنهان میمانند، طراحی شده است.

پژوهشگران چارچوب جدیدی به نام «اقتصاد عاملها» را برای جلوگیری از همگرایی رفتاری عاملهای خودمختار معرفی کردهاند. این سیستم با استفاده از همراستاسازی کثرتگرایانه، تنوع استدلالی را در گروههای چندعاملی حفظ میکند تا از شکستهای سیستمی جلوگیری شود.

تحلیل فنی جدیدی نشان میدهد که نوسانات در خروجی عاملهای هوش مصنوعی تنها به دلیل تصادفی بودن مدل نیست، بلکه حاصل زنجیرهای از خطاهای لایهبندی شده است. این پژوهش تفاوت میان تصادفی بودن توکنها و نویزهای زیرساختی را تبیین میکند.

تحلیل جدیدی هشدار میدهد که شخصیسازی مدلهای زبانی از طریق RAG و تنظیم دقیق، ریسکهای «رابطهای» ایجاد میکند که فیلترهای امنیتی استاندارد قادر به شناسایی آنها نیستند. این مطالعه چارچوبی جدید برای شناسایی این شکافها در چرخه حیات مدل معرفی میکند.

چهارچوب AlloSpatial با تبدیل دیدهای محدود به نقشههای جهانی، مشکل «شکنندگی مکانی» در مدلهای چندوجهی را حل کرده است. این سیستم استدلال فضایی در مدلهایی مانند Qwen3-VL را تا ۱۸٪ بهبود میبخشد.