موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۳ مقاله منتشر شده

نشت موزاییکی: آیا عامل پژوهشی شما می‌تواند راز نگه دارد؟

روش PA-DR نشت داده‌ها در عامل‌های پژوهشی را از ۳۴٪ به ۹.۹٪ رساند

پژوهشگران با معرفی بنچمارک MosaicLeaks نشان دادند که عامل‌های هوش مصنوعی چگونه اطلاعات محرمانه را از طریق کوئری‌های وب لو می‌دهند. برای حل این مشکل، متد آموزشی PA-DR توسعه یافت که…

۸ دقیقه خواندن

مقایسه قدرت اقناع هوش مصنوعی و انسان‌های متخصص

تحلیل و بررسی تخصصیهفتهٔ گذشته

مدل‌های هوش مصنوعی در هنر متقاعدسازی از انسان‌های خبره پیشی گرفتند

یک مطالعه گسترده با ۱۹٬۰۰۰ گفتگو نشان می‌دهد که سیستم‌های پیشرفته هوش مصنوعی در تغییر باورها بسیار اثرگذارتر از متخصصان انسانی هستند. در تست‌های واقعی جذب سرمایه، این مدل‌ها…

۲ دقیقه خواندن

لوگوی مقاله با عنوان «فراتر از LoRA: آیا می‌توانید محبوب‌ترین روش تنظیم دقیق را شکست دهید؟»

آموزش کاربردیهفتهٔ گذشته

پایان سلطه‌ی LoRA؛ متدهای جایگزین در دقت و حافظه پیشی گرفتند

گزارش جدید Hugging Face نشان می‌دهد که لورا (LoRA) با وجود محبوبیت زیاد، لزوماً بهینه‌ترین انتخاب برای تنظیم دقیق نیست. تحلیل‌ها ثابت می‌کند برخی متدهای جایگزین، دقت بالاتر و مصرف…

۷ دقیقه خواندن

مطالعات جدید نیچر: هوش مصنوعی با پزشکان برابری می‌کند، اما یک نتیجه نشان‌دهنده کهنه شدن سریع این فناوری است

اخبار کوتاه روزانههفتهٔ گذشته

دقت ۸۷.۸ درصدی MIRA در تشخیص بیماری‌ها؛ پیروزی هوش مصنوعی بر پزشکان متخصص

دو مطالعه در نشریه Nature نشان می‌دهد عامل‌های هوش مصنوعی MIRA و AMIE در تشخیص‌های شبیه‌سازی‌شده و رعایت دستورالعمل‌های پزشکی از پزشکان پیشی گرفته‌اند. با این حال، یافته‌ها حاکی…

۶ دقیقه خواندن

لوگوی شرکت جنرال اینتویشن روی پس‌زمینه‌ای آبی تیره

اخبار کوتاه روزانههفتهٔ گذشتهگزارش تأییدنشده

General Intuition با جذب ۳۰۰ میلیون دلار مدل‌های دنیای گیمینگ را به ربات‌ها

استارت‌آپ General Intuition با ارزش‌گذاری ۲ میلیارد دلاری، در تلاش است تا با استفاده از داده‌های عظیم بازی‌های ویدئویی، عامل‌های هوش مصنوعی با درک فضایی و زمانی دقیق بسازد.

۲ دقیقه خواندن

لوگوی دوره خودآموز CS 6120: مبانی طراحی کامپایلر، دانشگاه کرنل.

آموزش کاربردیهفتهٔ گذشته

دورهٔ پیشرفتهٔ کامپایلر دانشگاه کرنل برای مطالعهٔ آزاد منتشر شد

دانشگاه کرنل محتوای دورهٔ دکتری CS 6120 را به‌صورت متن‌باز عرضه کرد. این برنامهٔ آموزشی جامع، پیاده‌سازی کامپایلرهای مدرن را از طریق پروژه‌های عملی و تحلیل LLVM آموزش می‌دهد.

۳ دقیقه خواندن

حلقه عامل: چگونه سیستم‌های LLM مبتنی بر ابزار واقعاً کار می‌کنند

آموزش کاربردیهفتهٔ گذشته

بهینه‌سازی حلقهٔ عامل؛ جایگزینی جدید برای مهندسی پرامپت

ساخت عامل‌های هوشمند اکنون بیش از آنکه به مهندسی پرامپت وابسته باشد، نیازمند مدیریت «حلقهٔ عامل» (Agent Loop) است. این معماری با کنترل اجرای ابزارها و حفظ وضعیت، مانع از فراموشی…

۱۰ دقیقه خواندن

ویترین آثار ناتمام آربی » لباس‌ها، چکمه‌ها و موتورت را می‌خواهم

داستان‌ها و مصاحبه‌هاهفتهٔ گذشته

استفاده از Claude Code برای رفع باگ‌های پیچیده در شبیه‌ساز Power Macintosh

برنامه‌نویس باسابقهٔ شبیه‌سازها، Arbee، با ترکیب Claude Code و GPT-5.5 Pro توانست باگ‌های دشوار در معماری PowerPC را رفع کند. این رویکرد سرعت مهندسی معکوس سخت‌افزارهای قدیمی و…

۵ دقیقه خواندن

ساخت تری‌فورت: چرا یادگیری ماشین خالص را کنار گذاشتیم و موتور هوشمندی ساخت‌وساز ساختیم

آموزش کاربردیهفتهٔ گذشته

Tri-Fort تخمین هزینه‌های ساخت‌ساز را از یادگیری ماشین به موتور ترکیبی تغییر داد

تیم Tri-Fort پس از کشف اینکه داده‌های آموزشی آن‌ها صرفاً تخمین‌های قبلی بوده‌اند و نه هزینه‌های واقعی، معماری خود را تغییر داد. آن‌ها اکنون از یک مدل ترکیبی استفاده می‌کنند که…

۶ دقیقه خواندن

نوام شازیری، رهبر مشترک جمینی گوگل، پس از دو سال بازگشت به این شرکت، به اوپن‌ای‌آی پیوست.

اخبار کوتاه روزانههفتهٔ گذشته

درون جابه‌جایی نوآم شازیر از گوگل به OpenAI

نوآم شازیر، یکی از نویسندگان مقاله اثرگذار Attention Is All You Need، گوگل را ترک کرد تا به OpenAI بپیوندد. این جابه‌جایی استراتژیک در حالی رخ می‌دهد که گوگل برای بهبود مدل‌های…

۱ دقیقه خواندن۴

کیوون محلی نسخه ضعیف‌تر اوپوس نیست، ابزاری متفاوت است

داستان‌ها و مصاحبه‌هاهفتهٔ گذشته

شکاف اعتماد در کدنویسی: مدل‌های محلی Qwen در تکالیف پیچیده شکست می‌خورند

تست‌های عملی روی مدل‌های محلی Qwen نشان می‌دهد که با وجود مزیت حریم خصوصی، این مدل‌ها در مدیریت پروژه‌های کدنویسی طولانی دچار «حلقه‌های تکرار» می‌شوند. این یافته‌ها فاصلهٔ…

۱۰ دقیقه خواندن

معیار ارزیابی ۷۵۰ وظیفه‌ای OpenAI برای سنجش هوش مصنوعی در پژوهش‌های علوم زیستی واقعی با راهنمای کارشناسی

تحلیل و بررسی تخصصیهفتهٔ گذشته

LifeSciBench: مدل‌های برتر زیست‌شناسی در ۶۴٪ تکالیف پژوهشی شکست خوردند

OpenAI با معرفی محک LifeSciBench نشان داد که حتی پیشرفته‌ترین مدل‌های تخصصی زیست‌شناسی در مواجهه با مسائل پیچیده پژوهشی ناتوان‌اند. این داده‌ها حاکی از شکاف عمیق میان حفظ اطلاعات…

۶ دقیقه خواندن