تازه‌ترین اخبار

گذار از احتمالات به قطعیت: روش جدید برای جلوگیری از تداخل عامل‌های AI

پژوهشگران با معرفی چارچوب Tensor-Coord، برنامه‌ریزی در سیستم‌های چندعاملی را از مذاکرات شکننده بر پایه پرامپت به همراستاسازی ریاضی منتقل کردند. این روش با استفاده از تجزیه جبری تنسورها، تداخل در اجرای برنامه‌ها را به‌صورت قطعی حذف می‌کند.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۴۲

تحلیل و بررسی تخصصی

MGIL: جایگزینی الگوهای سراسری با همسایگی‌های محلی در تکمیل گراف‌های دانش

چارچوب MGIL با استفاده از خوشه‌بندی موجودیت‌ها، یک «گراف مدل» ایجاد می‌کند تا الگوهای ساختاری سراسری را شناسایی کند. این رویکرد در پیش‌بینی استقرایی پیوندها (Inductive Link Prediction) به نتایجی در سطح پیشرو (SOTA) رسیده است.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۴۳

تحلیل و بررسی تخصصی

چگونه EC-Script با عامل‌های سلسله‌مراتبی، مسیر احساسی روایت‌های AI را کنترل

پژوهشگران چارچوبی به نام EC-Script توسعه داده‌اند که به مدل‌های زبانی اجازه می‌دهد روایت‌های داستانی را با مسیرهای احساسی دقیق، مخصوص هنردرمانی، تولید کنند. این سیستم از یک ساختار عامل‌محور سلسله‌مراتبی استفاده می‌کند تا اطمینان حاصل شود که روایت‌ها دقیقاً از الگوهای عاطفی مورد نیاز برای بهبودی روان‌شناختی پیروی می‌کنند.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۴۴

تحلیل و بررسی تخصصی

کاهش خطای قیمت‌گذاری ریسک عامل‌های AI از ۱۷ هزار دلار به ۵۶۹ دلار

پژوهشگران چارچوب جدیدی برای quantifying و بیمه کردن ریسک‌های مالی عامل‌های خودمختار معرفی کرده‌اند. این سیستم با جایگزینی قضاوت مدل‌های زبانی با برچسب‌های اقتصادی قطعی، نرخ خطای قیمت‌گذاری ریسک را به شدت کاهش داده است.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۴۵

تحلیل و بررسی تخصصی

چرا شکست عامل‌های هوش مصنوعی ناشی از «گم‌شدن در متن» نیست؟

تحقیقات جدید نشان می‌دهد عامل‌های هوش مصنوعی اغلب ابزار درست را شناسایی می‌کنند اما در مرحله نهایی تصمیم‌گیری دچار خطا می‌شوند. این یافته، اثربخشی روش‌های رایج مهندسی پرامپت برای حل این مشکل را زیر سؤال می‌برد.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۴۴۶

آموزش کاربردی

ابزارهای رایگان هوش مصنوعی برای کارهای روزمره؛ کدام‌ها از داخل ایران در دسترس‌اند

هوش مصنوعی پر است از ابزارهای رایگان، اما برای کاربر ایرانی پرسشِ اصلی این نیست که کدام بهتر است؛ این است که کدام واقعاً از داخل باز می‌شود و کدام برای ثبت‌نام یا ارتقا به شماره و کارت خارجی گره خورده است. این راهنمای کامل، ابزارهای رایگانِ گفتگو و جست‌وجوی هوشمند، تولید و ویرایش تصویر، نوشتن و خلاصه‌سازی، تبدیل گفتار به متن، ساخت صدا و موسیقی، ویدیو و کدنویسی را دسته‌بندی می‌کند و برای هرکدام وضعیت دسترسی از ایران را صریح می‌گوید — با یک نتیجهٔ روشن: ابزارهای متن‌باز و قابل‌نصب روی سیستم خودتان، بی‌دردسرترین و پایدارترین انتخاب برای کاربر ایرانی‌اند.

۲۶ خرداد ۱۴۰۵۶ دقیقه خواندن

۱۴۴۷

تحلیل و بررسی تخصصی

چرا برای بازیابی خطوط تولید دیگر نیازی به بازآموزی مدل‌های RL نیست؟

یک چارچوب جدید به سیاست‌های RMAPPO اجازه می‌دهد در لحظه‌ی اجرا از قوانین خارجی یا راهنمایی‌های مدل‌های زبانی استفاده کنند تا سرعت بازیابی خطوط تولید پس از نقص فنی افزایش یابد. این روش زمان بازیابی را بدون نیاز به بازطراحی یا بازآموزی عامل هوش مصنوعی کاهش می‌دهد.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۴۸

تحلیل و بررسی تخصصی

جایگاه در لیست: متغیری که توصیه‌های مدل‌های زبانی را ۱۲ دلار جابه‌جا می‌کند

یک ممیزی روی ۱۲ مدل هوش مصنوعی نشان می‌دهد که جایگاه یک هتل در لیست داده‌ها، به‌طور مستقل بر توصیه‌ی مدل اثر می‌گذارد. این سوگیری ساختاری باعث می‌شود ارزش ادراکی هر اتاق شبانه حدود ۱۲ دلار تغییر کند، در حالی که پاسخ‌های مدیریت هتل تقریباً به‌طور کامل نادیده گرفته می‌شوند.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۴۹

تحلیل و بررسی تخصصی

کدنویسی به جای احتمالات: رویکرد MHL برای حذف جعبه سیاه در تشخیص‌های پزشکی

متد MHL وزن‌های مبهم شبکه‌های عصبی را با قوانین قطعی پایتونی جایگزین می‌کند. این چارچوب دقت بالای استانداردهای فعلی را در داده‌های پزشکی حفظ کرده و در عین حال قابلیت بازبینی کامل توسط پزشکان را فراهم می‌سازد.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۴۵۰

تحلیل و بررسی تخصصی

دقت ۹۰ درصدی AdaSTORM در استدلال گراف‌های هزار-گره‌ای بدون ابزار خارجی

چارچوب AdaSTORM با استفاده از تقسیم‌بندی تطبیقی و معماری چند-عاملی، محدودیت مقیاس‌پذیری در استدلال گراف‌های پویا را شکست. این سیستم بدون نیاز به ابزارهای خارجی، به دقت بیش از ۹۰ درصد در گراف‌های هزار-گره‌ای دست یافته است.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۵۱

تحلیل و بررسی تخصصی

لایه‌ی حاکمیتی شش‌بعدی: تفکیک «خرد» از «هوش» در معماری عامل‌های AI

یک چارچوب معماری جدید پیشنهاد می‌دهد که «خرد» را از «هوش» جدا کند تا از بهینه‌سازی کورکورانه اهداف مضر جلوگیری شود. این سیستم از طریق یک لایه حاکمیتی و یک توپل شش‌مؤلفه‌ای، پیش از اجرا، اهداف را مورد پرسش قرار می‌دهد.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۴۵۲

تحلیل و بررسی تخصصی

نمره ۹.۶۶ از ۱۰: StateGen توهمات فراخوانی ابزار را در ۶۵ هزار گفتگو حذف کرد

پلتفرم StateGen با معرفی یک مدیریت وضعیت متمرکز و ساختار چهار-نقش، توهمات مربوط به نتایج ابزارها در عامل‌های هوش مصنوعی را حذف کرده است. این معماری با تولید داده‌های مصنوعی دقیق، به نمره ۹.۶۶ از ۱۰ در ارزیابی بیش از ۶۴ هزار گفتگو دست یافت.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۴۵۳

تحلیل و بررسی تخصصی

چرا استدلال «ساکت» در مدل‌های زبانی دقیق‌تر از زنجیره تفکر متنی است؟

رویکرد Latent Thought Flow با جایگزینی توکن‌های متنی در زنجیره تفکر با مسیرهای پیوسته در فضای پنهان، دقت پاسخ‌دهی را ۹.۵٪ افزایش داده است. این متدولوژی هزینه محاسباتی استنتاج را به‌طور چشم‌گیری کاهش می‌دهد.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۵۴

تحلیل و بررسی تخصصی

PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

پژوهشگران با معرفی PAL-Bench نشان دادند که مدل‌های هوش مصنوعی علیرغم توانایی در خلاصه‌سازی، در پیوند دادن هویت‌های تکرارشونده در داده‌های بلندمدت ناتوان‌اند. این شکاف، تفاوت بنیادین میان «خلاصه‌سازی محتمل» و «بازسازی دقیق» هویت‌های اجتماعی را آشکار می‌کند.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۴۵۵

تحلیل و بررسی تخصصی

چرا دقت بازسازی در حسگرها معیار فریبنده‌ای برای نمایش واقعیت است؟

پژوهشگران چارچوب OQ-TSAE را معرفی کرده‌اند تا نمایش‌های هوش مصنوعی را راستی‌آزمایی کنند تا تنها تمایزات موردپشتی سخت‌افزاری را حفظ کنند. این سیستم با استفاده از «خارج‌قسمت‌های مشاهده»، نویزهای مزاحم را حذف کرده و دقت مدل در بازنمایی واقعیت را نسبت به روش‌های سنتی افزایش می‌دهد.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۵۶

تحلیل و بررسی تخصصی

ضریب همبستگی ۰.۴۲۱: چرا توانایی حل مسئله معیار دقیقی برای ارزیابی تدریس LLMها

یک تحلیل تشخیصی جدید نشان می‌دهد توانایی یک مدل زبانی در حل مسائل پیچیده، تضمین‌کننده اثرگذاری آن در تدریس نیست. محققان با استفاده از MathTutorBench دریافتند که معیارهای «حل مسئله» و «پداگوژی» تنها همپوشانی جزئی دارند و برترین حل‌کننده‌ها لزوماً بهترین معلمان نیستند.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۵۷

تحلیل و بررسی تخصصی

TimeVista: جایگزین کردن معیارهای عددی با مدل‌های بینایی-زبانی در ارزیابی

پژوهشگران چارچوب TimeVista را معرفی کرده‌اند که با بهره‌گیری از مدل‌های بینایی-زبانی (VLMs)، پیش‌بینی‌های سری‌های زمانی را از طریق تحلیل نمودارها ارزیابی می‌کند. این رویکرد در مقایسه با معیارهای سنتی عددی، هم‌راستایی به‌مراتب بیشتری با ترجیحات بصری انسان دارد.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۵۸

تحلیل و بررسی تخصصی

تسطیح وجودشناسانه: چرا مدل‌های کثرت‌گرا در بازنمایی معانی شکست می‌خورند؟

تلاش‌های فعلی برای ایجاد هوش مصنوعی کثرت‌گرا اغلب تنوع را به جایگزین‌های آماری تقلیل می‌دهند و ساختارهای معنایی بنیادین را نادیده می‌گیرند. چهارچوب جدید PLG تلاش می‌کند با حسابرسی کیفی، مانع از «تسطیح» مفاهیم انسانی پیچیده در مدل‌ها شود.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۵۹

تحلیل و بررسی تخصصی

گزارش arXiv: بازدهی ۵۹.۳ درصدی LiteOdyssey در تشخیص بیماری‌های فوق‌کمیاب

چارچوب استدلالی سبک‌وزن LiteOdyssey با تکیه بر سیاست‌های همکاری انسان-ماشین، در تشخیص بیماری‌های بسیار نادر از GPT-5.4 پیشی گرفت. این دستاورد نشان می‌دهد که ساختار استدلالی دقیق بر مقیاس‌بندی خشن داده‌ها برتری دارد.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۴۶۰

تحلیل و بررسی تخصصی

VibeThinker-3B: رقابت با Gemini 3 Pro در استدلال با ۳ میلیارد پارامتر

VibeThinker-3B مدلی با ۳ میلیارد پارامتر است که در تسک‌های استدلالی قابل‌راستی‌آزمایی، عملکردی برابر با مدل‌های بسیار بزرگ‌تر مانند Gemini 3 Pro دارد. این مدل از یک خط لوله پس-آموزشی تخصصی برای فشرده‌سازی توانایی‌های استدلال پیچیده استفاده می‌کند.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۴۶۱

تحلیل و بررسی تخصصی

چگونه تفکر مبنی‌ساز، توانایی استدلالی Gemma3-4B را به سطح مدل ۲۷ میلیارد

محققان با معرفی روش «تفکر مبنی‌ساز»، مدل‌های کوچک را قادر ساختند تا گام‌های استدلالی خود را به نقاط دقیق تصویر متصل کنند. این رویکرد باعث شد مدل Gemma3-4B-IT در استدلال‌های مکانی، عملکرد مدل بسیار بزرگ‌تر Gemma3-27B-IT را به دست آورد یا حتی از آن پیشی بگیرد.

۲۶ خرداد ۱۴۰۵۲ دقیقه خواندن

۱۴۶۲

داستان‌ها و مصاحبه‌ها

چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

پروژه llcore نشان می‌دهد تکیه بر مشاهده رفتار مدل برای تضمین پایداری، یک توهم است و ۸۴ درصد شکست‌های خطرناک را نادیده می‌گیرد. تنها گواهینامه‌های ریاضی می‌توانند پایداری را تضمین کنند، هرچند هزینه محاسباتی آن‌ها بسیار بالاست.

۲۶ خرداد ۱۴۰۵۴ دقیقه خواندن

۱۴۶۳

تحلیل و بررسی تخصصی

پولشویی دامنه: سازوکار فریب بنچمارک‌های استدلال حقوقی در مدل‌های زبانی

مدل‌های زبانی بزرگ در بنچمارک‌های حقوقی نمرات بالایی کسب می‌کنند، اما در واقعیت منطق را اجرا نمی‌کنند. پژوهشی جدید نشان می‌دهد این مدل‌ها با تقلید از نتایج حل‌کننده‌های رسمی، توهمی از استدلال ایجاد می‌کنند که به آن «پولشویی دامنه» می‌گویند.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۶۴

تحلیل و بررسی تخصصی

استانداردسازی تکرارپذیری در ۲۸ روش بازگشت الگوریتمی با RecourseBench

چارچوب RecourseBench با معرفی یک خط لوله‌ی پنج‌لایه، امکان ارزیابی سیستماتیک و تکرارپذیر روش‌های بازگشت الگوریتمی را فراهم کرده است. این ابزار با اعتبارسنجی ۲۸ متد پیشرو، شکاف میان ادعاهای کیفی و نتایج کمی در تبیین‌پذیری هوش مصنوعی را پر می‌کند.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۶۵

آموزش کاربردی

Snaply.ai در برابر Whisperflow؛ کدام ابزار تبدیل صوت به متن برای مک برنده است؟

ابزارهای تبدیل صوت به متن محلی در مک‌های سری M جایگزین سرویس‌های ابری شده‌اند. Snaply.ai به دلیل رایگان بودن، قابلیت آفلاین و تمرکز بر حریم خصوصی، به پیشنهاد اول کاربران تبدیل شده است.

۲۶ خرداد ۱۴۰۵۱ دقیقه خواندن

۱۴۶۶

زندگی با AI

چرا فاصله میان «بریف» و «سِپک» باعث شکست عامل‌های کدنویس می‌شود؟

عامل‌های کدنویسی هوش مصنوعی سریع‌تر از چرخه‌های بررسی سنتی حرکت می‌کنند و اغلب ویژگی‌هایی می‌سازند که از نظر فنی درست، اما با هدف محصول متفاوت است. راهکار جدید، «توسعه‌ی سِپک‌محور» است که در آن یک سند اجرایی مشترک پیش از شروع کدنویسی نهایی می‌شود.

۲۶ خرداد ۱۴۰۵۴ دقیقه خواندن

۱۴۶۷

آموزش کاربردی

از ۵۰۰ دلار به ۱۱ دلار؛ سازوکار کاهش ۹۷ درصدی هزینه ترجمه در Global APIs

یک توسعه‌دهنده با استفاده از استراتژی مسیریابی لایه‌ای، هزینه ماهانه ترجمه را از ۵۰۰ دلار به ۱۱.۴۲ دلار کاهش داد. این سیستم مدل‌های گران‌قیمت را برای کارهای ساده حذف و جایگزین آن‌ها را با مدل‌های تخصصی و ارزان‌تر می‌کند.

۲۶ خرداد ۱۴۰۵۹ دقیقه خواندن

۱۴۶۸

چگونه فناوری می‌تواند دموکراسی را نجات دهد | پادکست تک‌تانک | بروکینگز

داستان‌ها و مصاحبه‌ها

چگونه ابزارهای سنتز هوش مصنوعی ۱۰ میلیون رای‌دهنده را به دموکراسی بازگرداندند؟

هوش مصنوعی تنها تهدیدی برای انتخابات نیست، بلکه ابزاری برای بازسازی دموکراسی است. از پاک‌سازی لیست‌های رای‌دهندگان تا پیش‌بینی بی‌خانمانی، این فناوری مدیریت دولتی را از یک ساختار خشک به یک گفتگوی فعال تبدیل می‌کند.

۲۶ خرداد ۱۴۰۵۹ دقیقه خواندن

۱۴۶۹

تحلیل و بررسی تخصصی

نقص «نایب سرگردان»: چگونه عامل‌های متا ۲۰ هزار حساب اینستاگرام را لو دادند؟

مهاجمان با بهره‌برداری از آسیب‌پذیری «نایب سرگردان» در ربات پشتیبانی متا، ۲۰ هزار حساب اینستاگرام را بدون نیاز به رمز عبور تصاحب کردند. این اتفاق شکاف امنیتی بحرانی در عامل‌های هوش مصنوعی را فاش کرد: حذف درایت انسانی در تأیید درخواست‌های مشکوک.

۲۶ خرداد ۱۴۰۵۶ دقیقه خواندن

۱۴۷۰

معرفی فرمت دانش باز گوگل: استاندارد Markdown بی‌طرف برای زمینه‌دهی به عامل‌های هوش مصنوعی

تحلیل و بررسی تخصصی

چگونه استاندارد OKF گوگل، مدیریت متنی عامل‌های هوش مصنوعی را یکسان می‌کند؟

گوگل کلاد استاندارد Open Knowledge Format (OKF) v0.1 را برای تبدیل دانش پراکنده سازمانی به یک گراف متنی قابل انتقال معرفی کرد. این فرمت با تکیه بر Markdown و YAML، امکان مدیریت متادیتا به عنوان کد را فراهم می‌کند تا خطاهای استنتاج در عامل‌های هوش مصنوعی کاهش یابد.

۲۶ خرداد ۱۴۰۵۶ دقیقه خواندن