گزیدهای از خواندنیترین و مهمترین مطالب داتهوش.

تلاشهای فعلی برای ایجاد هوش مصنوعی کثرتگرا اغلب تنوع را به جایگزینهای آماری تقلیل میدهند و ساختارهای معنایی بنیادین را نادیده میگیرند. چهارچوب جدید PLG تلاش میکند با حسابرسی کیفی، مانع از «تسطیح» مفاهیم انسانی پیچیده در مدلها شود.

چارچوب استدلالی سبکوزن LiteOdyssey با تکیه بر سیاستهای همکاری انسان-ماشین، در تشخیص بیماریهای بسیار نادر از GPT-5.4 پیشی گرفت. این دستاورد نشان میدهد که ساختار استدلالی دقیق بر مقیاسبندی خشن دادهها برتری دارد.

VibeThinker-3B مدلی با ۳ میلیارد پارامتر است که در تسکهای استدلالی قابلراستیآزمایی، عملکردی برابر با مدلهای بسیار بزرگتر مانند Gemini 3 Pro دارد. این مدل از یک خط لوله پس-آموزشی تخصصی برای فشردهسازی تواناییهای استدلال پیچیده استفاده میکند.

پروژه llcore نشان میدهد تکیه بر مشاهده رفتار مدل برای تضمین پایداری، یک توهم است و ۸۴ درصد شکستهای خطرناک را نادیده میگیرد. تنها گواهینامههای ریاضی میتوانند پایداری را تضمین کنند، هرچند هزینه محاسباتی آنها بسیار بالاست.

مدلهای زبانی بزرگ در بنچمارکهای حقوقی نمرات بالایی کسب میکنند، اما در واقعیت منطق را اجرا نمیکنند. پژوهشی جدید نشان میدهد این مدلها با تقلید از نتایج حلکنندههای رسمی، توهمی از استدلال ایجاد میکنند که به آن «پولشویی دامنه» میگویند.

چارچوب RecourseBench با معرفی یک خط لولهی پنجلایه، امکان ارزیابی سیستماتیک و تکرارپذیر روشهای بازگشت الگوریتمی را فراهم کرده است. این ابزار با اعتبارسنجی ۲۸ متد پیشرو، شکاف میان ادعاهای کیفی و نتایج کمی در تبیینپذیری هوش مصنوعی را پر میکند.

ابزارهای تبدیل صوت به متن محلی در مکهای سری M جایگزین سرویسهای ابری شدهاند. Snaply.ai به دلیل رایگان بودن، قابلیت آفلاین و تمرکز بر حریم خصوصی، به پیشنهاد اول کاربران تبدیل شده است.

یک توسعهدهنده با استفاده از استراتژی مسیریابی لایهای، هزینه ماهانه ترجمه را از ۵۰۰ دلار به ۱۱.۴۲ دلار کاهش داد. این سیستم مدلهای گرانقیمت را برای کارهای ساده حذف و جایگزین آنها را با مدلهای تخصصی و ارزانتر میکند.

مهاجمان با بهرهبرداری از آسیبپذیری «نایب سرگردان» در ربات پشتیبانی متا، ۲۰ هزار حساب اینستاگرام را بدون نیاز به رمز عبور تصاحب کردند. این اتفاق شکاف امنیتی بحرانی در عاملهای هوش مصنوعی را فاش کرد: حذف درایت انسانی در تأیید درخواستهای مشکوک.

گوگل کلاد استاندارد Open Knowledge Format (OKF) v0.1 را برای تبدیل دانش پراکنده سازمانی به یک گراف متنی قابل انتقال معرفی کرد. این فرمت با تکیه بر Markdown و YAML، امکان مدیریت متادیتا به عنوان کد را فراهم میکند تا خطاهای استنتاج در عاملهای هوش مصنوعی کاهش یابد.

شرکت Z.ai مدل GLM-5.2 را با پنجره متنی یک میلیون توکنی معرفی کرد تا امکان بارگذاری کامل مخازن کد در حافظه فعال فراهم شود. این مدل با ابزارهایی مثل Claude Code سازگار است و دایرهی عملیات عاملهای کدنویسی را گسترش میدهد.

ساتیا نادلا هشدار میدهد شرکتهایی که صرفاً از مدلهای آماده استفاده میکنند، در خطر از دست دادن دانش تخصصی خود هستند. او راهکار رسیدن به بقا را ساخت «سرمایه توکنی» از طریق حلقههای یادگیری اختصاصی میداند.

دادههای کاربران Pokémon Go برای آموزش مدلهای هوش مصنوعی مکانی استفاده شده است تا پهپادهای نظامی بتوانند بدون GPS و در محیطهای دارای اختلال سیگنالی حرکت کنند. این سیستم با ترکیب اسکنهای میدانی و تصاویر ماهوارهای، دقت ناوبری را به ۱.۵ متر رسانده است.

یک بنچمارک جدید از ۶۰ مدل نشان میدهد که سری Claude در رد پروپاگاندای روسیه پیشتاز است. در مقابل، عملکرد ضعیف Mistral ادعای این شرکت فرانسوی بهعنوان جایگزین اروپایی و قابلاعتماد برای مدلهای آمریکایی را به چالش میکشد.

شرکت Anthropic برنامهی تغییر مدل پرداخت برای ابزارهای عاملمحور خود را متوقف کرد. این عقبنشینی استراتژیک در حالی رخ میدهد که شرکت برای عرضه سهام در بازار (IPO) آماده میشود و با فشار کاهش قیمتهای OpenAI مواجه است.

ماهواره YAM-9 با استفاده از مدل Gemma 3 موفق شد برای نخستین بار اهداف زمینی را بدون دخالت انسان در مدار شناسایی کند. این انتقال پردازش به لبه، گلوگاههای ارسال داده را حذف کرده و مسیر را برای گشتزنیهای خودکار فضایی هموار میکند.

استارتاپ امنیتی NewCore با جذب ۶۶ میلیون دلار سرمایه، قصد دارد عاملهای هوش مصنوعی را بهجای ابزارهای نرمافزاری، بهعنوان کارمندانی رسمی با هویت مستقل مدیریت کند. این شرکت یک لایهی حاکمیتی برای کنترل دسترسی و نظارت بر نیروی کار عاملمحور میسازد.

شرکت Sarvam AI با جذب ۲۳۴ میلیون دلار سرمایه، به ارزش ۱.۵ میلیارد دلار رسید. هدف این پروژه ساخت یک زیرساخت هوش مصنوعی حاکمیتی برای کاهش وابستگی هند به شرکتهای آمریکایی است.

متا با معرفی AI Mode، پستهای عمومی و بحثهای گروههای فیسبوک را به پاسخهای مستقیم و خلاصه تبدیل میکند. این بهروزرسانی شامل ابزارهای ویرایش عکس و دستیارهای تولید محتوا است و با مدل اشتراکی جدید عرضه میشود.

SpaceX استارتآپ کدنویسی Cursor را در قراردادی ۶۰ میلیارد دلاری خرید تا بخش هوش مصنوعی خود را نجات دهد. این حرکت استراتژیک پس از عرضه اولیه موفق SpaceX و خروج بنیانگذاران xAI صورت گرفت.

برنامهنویسان در حال جایگزینی اشتراکهای گرانقیمت ابری با پشتههای محلی بر پایه Qwen 3.6 و Pi.dev هستند. این روند، اولویت را از «استدلال سطح ارشد» به «حریم خصوصی و هزینه صفر» تغییر داده است.

یک برنامهنویس بهسختی از عفونی شدن سیستمش با بدافزار نجات یافت. مهاجمان با جعل هویت متخصصان در لینکدین، از دستور نصب بستههای npm برای ایجاد درگاه پشتیبان در سیستم قربانی استفاده کردند.

پژوهشگران راهکاری برای دستیابی به مهارت گرفتن اشیاء بدون استفاده از دوربین ابداع کردهاند که صرفاً بر بازخوردهای لمسی تکیه میکند. این سیستم با استفاده از یک دوقلوی دیجیتال کالیبرهشده و سیاستهای انتشار، موفق میشود بدون نیاز به نمایشهای دنیای واقعی، اشیاء ناشناخته را شناسایی و بردارد.

مدل BridgeVLM با تبدیل گرافهای علی به توکنهای ساختاریافته، استدلال علی را در مدلهای چندوجهی درونی کرده است. این رویکرد در وظایف پیچیده و خلاف-واقع، بهطور قابلتوجهی از نظارتهای مبتنی بر پرامپت پیشی میگیرد.

افزایش مقیاس مدلهای پیشرو نتوانسته است مشکل بنیادین آموزشهای مبتنی بر هوش مصنوعی، یعنی مدیریت همزمان برنامه درسی و گفتگو را حل کند. یک سیستم جدید با جداسازی مدیریت دانش از لایه گفتگو، در سرعت آموزش و میزان تسلط دانشآموزان از مدلهای زبانی عمومی پیشی گرفته است.

گردشکار جدیدی به نام ICALens با بهرهگیری از تحلیل مؤلفههای مستقل (ICA)، مسیرهای تفسیری در بازنماییهای مدلهای زبانی را بدون نیاز به آموزش متمرکز و هزینهبر دیکشنریها بازیابی میکند. نتایج نشان میدهد این روش در سناریوهای با بودجه محاسباتی محدود، رقیبی جدی برای اتوانکودرهای پراکنده (SAEs) است.

پژوهشی جدید نشان میدهد شخصیسازی مدلهای زبانی یک قابلیت واحد نیست، بلکه شکافی میان «سبک رفتاری» و «دقت واقعگرایانه» است. در حالی که LoRA در تقلید از لحن کاربر موفق است، RAG در تشخیص زمانهایی که اطلاعات موجود نیست، برتری مطلق دارد.

بنچمارک جدید MedCTA نشان میدهد که پیشرفتهترین مدلهای چندوجهی در اجرای وظایف بالینی چندمرحلهای شکست میخورند. این مطالعه شکاف عمیقی را میان توانایی مدل در درک دادههای پزشکی و قابلیت اجرای قابلاطمینان گردشهای کاری عاملمحور شناسایی کرده است.

چارچوب جدید CANOLA با تخمین توزیع نویز و پالایش تکرارشونده، برچسبهای نادرست در مجموعهدادههای یادگیری ماشین را اصلاح میکند. این رویکرد دادهمحور، عملکرد مدلهای پاییندستی را بهطوری بهبود میبخشد که بر پیچیدگیهای معماری مدل پیشی میگیرد.

مدل Autopilot با بهکارگیری ماشین حالت متناهی (FSM)، ادعاهای نادرست عاملها درباره اتمام موفقیتآمیز کار را حذف کرد. این معماری در بنچمارک SWE-bench Lite توانست نرخ توهم را از ۳۳.۷٪ به تنها ۰.۶۷٪ کاهش دهد.