پرخواننده‌ترین‌ها

تسطیح وجودشناسانه: چرا مدل‌های کثرت‌گرا در بازنمایی معانی شکست می‌خورند؟

تلاش‌های فعلی برای ایجاد هوش مصنوعی کثرت‌گرا اغلب تنوع را به جایگزین‌های آماری تقلیل می‌دهند و ساختارهای معنایی بنیادین را نادیده می‌گیرند. چهارچوب جدید PLG تلاش می‌کند با حسابرسی کیفی، مانع از «تسطیح» مفاهیم انسانی پیچیده در مدل‌ها شود.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۳۵۲

تحلیل و بررسی تخصصی

گزارش arXiv: بازدهی ۵۹.۳ درصدی LiteOdyssey در تشخیص بیماری‌های فوق‌کمیاب

چارچوب استدلالی سبک‌وزن LiteOdyssey با تکیه بر سیاست‌های همکاری انسان-ماشین، در تشخیص بیماری‌های بسیار نادر از GPT-5.4 پیشی گرفت. این دستاورد نشان می‌دهد که ساختار استدلالی دقیق بر مقیاس‌بندی خشن داده‌ها برتری دارد.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۳۵۳

تحلیل و بررسی تخصصی

VibeThinker-3B: رقابت با Gemini 3 Pro در استدلال با ۳ میلیارد پارامتر

VibeThinker-3B مدلی با ۳ میلیارد پارامتر است که در تسک‌های استدلالی قابل‌راستی‌آزمایی، عملکردی برابر با مدل‌های بسیار بزرگ‌تر مانند Gemini 3 Pro دارد. این مدل از یک خط لوله پس-آموزشی تخصصی برای فشرده‌سازی توانایی‌های استدلال پیچیده استفاده می‌کند.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۳۵۴

داستان‌ها و مصاحبه‌ها

چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

پروژه llcore نشان می‌دهد تکیه بر مشاهده رفتار مدل برای تضمین پایداری، یک توهم است و ۸۴ درصد شکست‌های خطرناک را نادیده می‌گیرد. تنها گواهینامه‌های ریاضی می‌توانند پایداری را تضمین کنند، هرچند هزینه محاسباتی آن‌ها بسیار بالاست.

۲۶ خرداد ۱۴۰۵۴ دقیقه خواندن

۱۳۵۵

تحلیل و بررسی تخصصی

پولشویی دامنه: سازوکار فریب بنچمارک‌های استدلال حقوقی در مدل‌های زبانی

مدل‌های زبانی بزرگ در بنچمارک‌های حقوقی نمرات بالایی کسب می‌کنند، اما در واقعیت منطق را اجرا نمی‌کنند. پژوهشی جدید نشان می‌دهد این مدل‌ها با تقلید از نتایج حل‌کننده‌های رسمی، توهمی از استدلال ایجاد می‌کنند که به آن «پولشویی دامنه» می‌گویند.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۳۵۶

تحلیل و بررسی تخصصی

استانداردسازی تکرارپذیری در ۲۸ روش بازگشت الگوریتمی با RecourseBench

چارچوب RecourseBench با معرفی یک خط لوله‌ی پنج‌لایه، امکان ارزیابی سیستماتیک و تکرارپذیر روش‌های بازگشت الگوریتمی را فراهم کرده است. این ابزار با اعتبارسنجی ۲۸ متد پیشرو، شکاف میان ادعاهای کیفی و نتایج کمی در تبیین‌پذیری هوش مصنوعی را پر می‌کند.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۳۵۷

آموزش کاربردی

Snaply.ai در برابر Whisperflow؛ کدام ابزار تبدیل صوت به متن برای مک برنده است؟

ابزارهای تبدیل صوت به متن محلی در مک‌های سری M جایگزین سرویس‌های ابری شده‌اند. Snaply.ai به دلیل رایگان بودن، قابلیت آفلاین و تمرکز بر حریم خصوصی، به پیشنهاد اول کاربران تبدیل شده است.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۳۵۸

آموزش کاربردی

از ۵۰۰ دلار به ۱۱ دلار؛ سازوکار کاهش ۹۷ درصدی هزینه ترجمه در Global APIs

یک توسعه‌دهنده با استفاده از استراتژی مسیریابی لایه‌ای، هزینه ماهانه ترجمه را از ۵۰۰ دلار به ۱۱.۴۲ دلار کاهش داد. این سیستم مدل‌های گران‌قیمت را برای کارهای ساده حذف و جایگزین آن‌ها را با مدل‌های تخصصی و ارزان‌تر می‌کند.

۲۶ خرداد ۱۴۰۵۹ دقیقه خواندن

۱۳۵۹

تحلیل و بررسی تخصصی

نقص «نایب سرگردان»: چگونه عامل‌های متا ۲۰ هزار حساب اینستاگرام را لو دادند؟

مهاجمان با بهره‌برداری از آسیب‌پذیری «نایب سرگردان» در ربات پشتیبانی متا، ۲۰ هزار حساب اینستاگرام را بدون نیاز به رمز عبور تصاحب کردند. این اتفاق شکاف امنیتی بحرانی در عامل‌های هوش مصنوعی را فاش کرد: حذف درایت انسانی در تأیید درخواست‌های مشکوک.

۲۶ خرداد ۱۴۰۵۶ دقیقه خواندن

۱۳۶۰

معرفی فرمت دانش باز گوگل: استاندارد Markdown بی‌طرف برای زمینه‌دهی به عامل‌های هوش مصنوعی

تحلیل و بررسی تخصصی

چگونه استاندارد OKF گوگل، مدیریت متنی عامل‌های هوش مصنوعی را یکسان می‌کند؟

گوگل کلاد استاندارد Open Knowledge Format (OKF) v0.1 را برای تبدیل دانش پراکنده سازمانی به یک گراف متنی قابل انتقال معرفی کرد. این فرمت با تکیه بر Markdown و YAML، امکان مدیریت متادیتا به عنوان کد را فراهم می‌کند تا خطاهای استنتاج در عامل‌های هوش مصنوعی کاهش یابد.

۲۶ خرداد ۱۴۰۵۶ دقیقه خواندن

۱۳۶۱

Z.ai مدل GLM-5.2 را با کانتکست یک میلیون توکن کاربردی، دو سطح تلاش فکری و بدون بنچمارک عرضه کرد

آموزش کاربردی

از ویرایش تکه‌ای به مدیریت کل پروژه؛ سازوکار یک میلیون توکنی GLM-5.2

شرکت Z.ai مدل GLM-5.2 را با پنجره متنی یک میلیون توکنی معرفی کرد تا امکان بارگذاری کامل مخازن کد در حافظه فعال فراهم شود. این مدل با ابزارهایی مثل Claude Code سازگار است و دایره‌ی عملیات عامل‌های کدنویسی را گسترش می‌دهد.

۲۶ خرداد ۱۴۰۵۴ دقیقه خواندن

۱۳۶۲

هشدار مدیرعامل مایکروسافت: تسلط تعداد اندکی از سیستم‌های هوش مصنوعی بر بازده‌های اقتصادی

اخبار کوتاه روزانه

درون استراتژی «سرمایه توکنی» نادلا برای جلوگیری از تحلیل دارایی‌های فکری

ساتیا نادلا هشدار می‌دهد شرکت‌هایی که صرفاً از مدل‌های آماده استفاده می‌کنند، در خطر از دست دادن دانش تخصصی خود هستند. او راهکار رسیدن به بقا را ساخت «سرمایه توکنی» از طریق حلقه‌های یادگیری اختصاصی می‌داند.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۳۶۳

داده‌های پوکمون گو در آموزش هوش مصنوعی پهپادهای نظامی استفاده شد

اخبار کوتاه روزانه

درون همکاری Niantic و Vantor برای حذف GPS از پهپادهای ارتش آمریکا

داده‌های کاربران Pokémon Go برای آموزش مدل‌های هوش مصنوعی مکانی استفاده شده است تا پهپادهای نظامی بتوانند بدون GPS و در محیط‌های دارای اختلال سیگنالی حرکت کنند. این سیستم با ترکیب اسکن‌های میدانی و تصاویر ماهواره‌ای، دقت ناوبری را به ۱.۵ متر رسانده است.

۲۶ خرداد ۱۴۰۵۳ دقیقه خواندن

۱۳۶۴

فریب مدل‌های هوش مصنوعی توسط تبلیغات روسی؛ نتایج یک معیار سنجش جدید

اخبار کوتاه روزانه

مطالعه استونی: دقت ۹۵.۲ درصدی Claude Fable 5 در شناسایی پروپاگاندای روسیه

یک بنچمارک جدید از ۶۰ مدل نشان می‌دهد که سری Claude در رد پروپاگاندای روسیه پیشتاز است. در مقابل، عملکرد ضعیف Mistral ادعای این شرکت فرانسوی به‌عنوان جایگزین اروپایی و قابل‌اعتماد برای مدل‌های آمریکایی را به چالش می‌کشد.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۳۶۵

عقب‌نشینی آنتروپیک از اصلاحات ناپسند صورت‌حساب در آستانه جنگ قیمت با اوپن‌ای‌آی

اخبار کوتاه روزانه

درون جنگ قیمت‌های پنهان بین OpenAI و Anthropic در آستانه‌ی IPO

شرکت Anthropic برنامه‌ی تغییر مدل پرداخت برای ابزارهای عامل‌محور خود را متوقف کرد. این عقب‌نشینی استراتژیک در حالی رخ می‌دهد که شرکت برای عرضه سهام در بازار (IPO) آماده می‌شود و با فشار کاهش قیمت‌های OpenAI مواجه است.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۳۶۶

ماهواره‌ای که خودش یاد گرفته اشیاء را روی زمین پیدا کند

اخبار کوتاه روزانه

خلاص شدن از گلوگاه داده‌ها: نخستین شناسایی مستقل اهداف در مدار با Gemma 3

ماهواره YAM-9 با استفاده از مدل Gemma 3 موفق شد برای نخستین بار اهداف زمینی را بدون دخالت انسان در مدار شناسایی کند. این انتقال پردازش به لبه، گلوگاه‌های ارسال داده را حذف کرده و مسیر را برای گشت‌زنی‌های خودکار فضایی هموار می‌کند.

۲۶ خرداد ۱۴۰۵۴ دقیقه خواندن

۱۳۶۷

نیوکور ۶۶ میلیون دلار برای هویت‌بخشی به عامل‌های هوش مصنوعی کارمند

اخبار کوتاه روزانه

درون استراتژی ۶۶ میلیون دلاری NewCore برای شناسنامه‌دار کردن عامل‌های هوش مصنوعی

استارتاپ امنیتی NewCore با جذب ۶۶ میلیون دلار سرمایه، قصد دارد عامل‌های هوش مصنوعی را به‌جای ابزارهای نرم‌افزاری، به‌عنوان کارمندانی رسمی با هویت مستقل مدیریت کند. این شرکت یک لایه‌ی حاکمیتی برای کنترل دسترسی و نظارت بر نیروی کار عامل‌محور می‌سازد.

۲۶ خرداد ۱۴۰۵۴ دقیقه خواندن

۱۳۶۸

سروام با جذب ۲۳۴ میلیون دلار به رهبری اچ‌سی‌ال‌تک، جدیدترین یونیکورن هوش مصنوعی هند شد.

اخبار کوتاه روزانه

چرا هند برای امنیت ملی خود روی Sarvam AI شرط‌بندی کرده است؟

شرکت Sarvam AI با جذب ۲۳۴ میلیون دلار سرمایه، به ارزش ۱.۵ میلیارد دلار رسید. هدف این پروژه ساخت یک زیرساخت هوش مصنوعی حاکمیتی برای کاهش وابستگی هند به شرکت‌های آمریکایی است.

۲۶ خرداد ۱۴۰۵۴ دقیقه خواندن

۱۳۶۹

تصویری از حالت جدید هوش مصنوعی در فیس‌بوک

اخبار کوتاه روزانه

چگونه AI Mode متا گفتگوهای گروه‌های فیس‌بوک را به پاسخ‌های مستقیم تبدیل می‌کند؟

متا با معرفی AI Mode، پست‌های عمومی و بحث‌های گروه‌های فیس‌بوک را به پاسخ‌های مستقیم و خلاصه تبدیل می‌کند. این به‌روزرسانی شامل ابزارهای ویرایش عکس و دستیارهای تولید محتوا است و با مدل اشتراکی جدید عرضه می‌شود.

۲۶ خرداد ۱۴۰۵۳ دقیقه خواندن

۱۳۷۰

تصاحب شرکت کورسر توسط اسپیس‌ایکس به ارزش ۶۰ میلیارد دلار سهام

اخبار کوتاه روزانه

پشت‌پرده خرید ۶۰ میلیارد دلاری Cursor توسط SpaceX

SpaceX استارت‌آپ کدنویسی Cursor را در قراردادی ۶۰ میلیارد دلاری خرید تا بخش هوش مصنوعی خود را نجات دهد. این حرکت استراتژیک پس از عرضه اولیه موفق SpaceX و خروج بنیان‌گذاران xAI صورت گرفت.

۲۶ خرداد ۱۴۰۵۴ دقیقه خواندن

۱۳۷۱

زندگی با AI

چرا توسعه‌دهندگان مدل‌های ابری Claude را با Qwen 3.6 محلی جایگزین می‌کنند؟

برنامه‌نویسان در حال جایگزینی اشتراک‌های گران‌قیمت ابری با پشته‌های محلی بر پایه Qwen 3.6 و Pi.dev هستند. این روند، اولویت را از «استدلال سطح ارشد» به «حریم خصوصی و هزینه صفر» تغییر داده است.

۲۶ خرداد ۱۴۰۵۹ دقیقه خواندن

۱۳۷۲

داستان‌ها و مصاحبه‌ها

کالبدشکافی کلاهبرداری لینکدین: تله‌ی npm install برای سرقت دسترسی برنامه‌نویسان

یک برنامه‌نویس به‌سختی از عفونی شدن سیستمش با بدافزار نجات یافت. مهاجمان با جعل هویت متخصصان در لینکدین، از دستور نصب بسته‌های npm برای ایجاد درگاه پشتیبان در سیستم قربانی استفاده کردند.

۲۶ خرداد ۱۴۰۵۴ دقیقه خواندن

۱۳۷۳

تحلیل و بررسی تخصصی

چگونه کالیبراسیون Real2Sim2Real نیاز به بینایی در گرفتن اشیاء را حذف می‌کند؟

پژوهشگران راهکاری برای دستیابی به مهارت گرفتن اشیاء بدون استفاده از دوربین ابداع کرده‌اند که صرفاً بر بازخوردهای لمسی تکیه می‌کند. این سیستم با استفاده از یک دوقلوی دیجیتال کالیبره‌شده و سیاست‌های انتشار، موفق می‌شود بدون نیاز به نمایش‌های دنیای واقعی، اشیاء ناشناخته را شناسایی و بردارد.

۲۲ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۳۷۴

تحلیل و بررسی تخصصی

BridgeVLM و توکن‌های علی: ارتقای دقت وظایف مداخله‌ای به ۵۴.۴٪

مدل BridgeVLM با تبدیل گراف‌های علی به توکن‌های ساختاریافته، استدلال علی را در مدل‌های چندوجهی درونی کرده است. این رویکرد در وظایف پیچیده و خلاف-واقع، به‌طور قابل‌توجهی از نظارت‌های مبتنی بر پرامپت پیشی می‌گیرد.

۲۲ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۳۷۵

تحلیل و بررسی تخصصی

عبور از مقیاس‌بندی: معماری سه‌گانه برای حل چالش آموزش سقراطی در LLMها

افزایش مقیاس مدل‌های پیشرو نتوانسته است مشکل بنیادین آموزش‌های مبتنی بر هوش مصنوعی، یعنی مدیریت هم‌زمان برنامه درسی و گفتگو را حل کند. یک سیستم جدید با جداسازی مدیریت دانش از لایه گفتگو، در سرعت آموزش و میزان تسلط دانش‌آموزان از مدل‌های زبانی عمومی پیشی گرفته است.

۲۲ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۳۷۶

تحلیل و بررسی تخصصی

چرا برای تفکیک مسیرهای تفسیری LLMها دیگر نیازی به آموزش دیکشنری نیست؟

گردش‌کار جدیدی به نام ICALens با بهره‌گیری از تحلیل مؤلفه‌های مستقل (ICA)، مسیرهای تفسیری در بازنمایی‌های مدل‌های زبانی را بدون نیاز به آموزش متمرکز و هزینه‌بر دیکشنری‌ها بازیابی می‌کند. نتایج نشان می‌دهد این روش در سناریوهای با بودجه محاسباتی محدود، رقیبی جدی برای اتوانکودرهای پراکنده (SAEs) است.

۲۲ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۳۷۷

تحلیل و بررسی تخصصی

تضاد حافظه پارامتریک و استردادی: چرا LoRA در تشخیص نبودِ واقعیت‌ها ناتوان است؟

پژوهشی جدید نشان می‌دهد شخصی‌سازی مدل‌های زبانی یک قابلیت واحد نیست، بلکه شکافی میان «سبک رفتاری» و «دقت واقع‌گرایانه» است. در حالی که LoRA در تقلید از لحن کاربر موفق است، RAG در تشخیص زمان‌هایی که اطلاعات موجود نیست، برتری مطلق دارد.

۲۲ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۳۷۸

تحلیل و بررسی تخصصی

چرا ادراک بصری پیشرفته در مدل‌های پزشکی به معنای موفقیت در اجرای عامل‌محور نیست؟

بنچمارک جدید MedCTA نشان می‌دهد که پیشرفته‌ترین مدل‌های چندوجهی در اجرای وظایف بالینی چندمرحله‌ای شکست می‌خورند. این مطالعه شکاف عمیقی را میان توانایی مدل در درک داده‌های پزشکی و قابلیت اجرای قابل‌اطمینان گردش‌های کاری عامل‌محور شناسایی کرده است.

۲۲ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۳۷۹

تحلیل و بررسی تخصصی

کاهش ۵۲ درصدی خطاهای برچسب‌گذاری در مجموعه‌داده‌ها با چارچوب CANOLA

چارچوب جدید CANOLA با تخمین توزیع نویز و پالایش تکرارشونده، برچسب‌های نادرست در مجموعه‌داده‌های یادگیری ماشین را اصلاح می‌کند. این رویکرد داده‌محور، عملکرد مدل‌های پایین‌دستی را به‌طوری بهبود می‌بخشد که بر پیچیدگی‌های معماری مدل پیشی می‌گیرد.

۲۲ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۳۸۰

تحلیل و بررسی تخصصی

Autopilot: کاهش نرخ توهم در عامل‌های هوش مصنوعی از ۳۳.۷٪ به ۰.۶۷٪

مدل Autopilot با به‌کارگیری ماشین حالت متناهی (FSM)، ادعاهای نادرست عامل‌ها درباره اتمام موفقیت‌آمیز کار را حذف کرد. این معماری در بنچمارک SWE-bench Lite توانست نرخ توهم را از ۳۳.۷٪ به تنها ۰.۶۷٪ کاهش دهد.

۲۲ خرداد ۱۴۰۵۲ دقیقه خواندن