
روش PA-DR نشت دادهها در عاملهای پژوهشی را از ۳۴٪ به ۹.۹٪ رساند
پژوهشگران با معرفی بنچمارک MosaicLeaks نشان دادند که عاملهای هوش مصنوعی چگونه اطلاعات محرمانه را از طریق کوئریهای وب لو میدهند. برای حل این مشکل، متد آموزشی PA-DR توسعه یافت که…
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۰۳ مقاله منتشر شده

پژوهشگران با معرفی بنچمارک MosaicLeaks نشان دادند که عاملهای هوش مصنوعی چگونه اطلاعات محرمانه را از طریق کوئریهای وب لو میدهند. برای حل این مشکل، متد آموزشی PA-DR توسعه یافت که…

یک مطالعه گسترده با ۱۹٬۰۰۰ گفتگو نشان میدهد که سیستمهای پیشرفته هوش مصنوعی در تغییر باورها بسیار اثرگذارتر از متخصصان انسانی هستند. در تستهای واقعی جذب سرمایه، این مدلها…

گزارش جدید Hugging Face نشان میدهد که لورا (LoRA) با وجود محبوبیت زیاد، لزوماً بهینهترین انتخاب برای تنظیم دقیق نیست. تحلیلها ثابت میکند برخی متدهای جایگزین، دقت بالاتر و مصرف…

دو مطالعه در نشریه Nature نشان میدهد عاملهای هوش مصنوعی MIRA و AMIE در تشخیصهای شبیهسازیشده و رعایت دستورالعملهای پزشکی از پزشکان پیشی گرفتهاند. با این حال، یافتهها حاکی…

استارتآپ General Intuition با ارزشگذاری ۲ میلیارد دلاری، در تلاش است تا با استفاده از دادههای عظیم بازیهای ویدئویی، عاملهای هوش مصنوعی با درک فضایی و زمانی دقیق بسازد.

دانشگاه کرنل محتوای دورهٔ دکتری CS 6120 را بهصورت متنباز عرضه کرد. این برنامهٔ آموزشی جامع، پیادهسازی کامپایلرهای مدرن را از طریق پروژههای عملی و تحلیل LLVM آموزش میدهد.

ساخت عاملهای هوشمند اکنون بیش از آنکه به مهندسی پرامپت وابسته باشد، نیازمند مدیریت «حلقهٔ عامل» (Agent Loop) است. این معماری با کنترل اجرای ابزارها و حفظ وضعیت، مانع از فراموشی…

برنامهنویس باسابقهٔ شبیهسازها، Arbee، با ترکیب Claude Code و GPT-5.5 Pro توانست باگهای دشوار در معماری PowerPC را رفع کند. این رویکرد سرعت مهندسی معکوس سختافزارهای قدیمی و…

تیم Tri-Fort پس از کشف اینکه دادههای آموزشی آنها صرفاً تخمینهای قبلی بودهاند و نه هزینههای واقعی، معماری خود را تغییر داد. آنها اکنون از یک مدل ترکیبی استفاده میکنند که…

نوآم شازیر، یکی از نویسندگان مقاله اثرگذار Attention Is All You Need، گوگل را ترک کرد تا به OpenAI بپیوندد. این جابهجایی استراتژیک در حالی رخ میدهد که گوگل برای بهبود مدلهای…

تستهای عملی روی مدلهای محلی Qwen نشان میدهد که با وجود مزیت حریم خصوصی، این مدلها در مدیریت پروژههای کدنویسی طولانی دچار «حلقههای تکرار» میشوند. این یافتهها فاصلهٔ…

OpenAI با معرفی محک LifeSciBench نشان داد که حتی پیشرفتهترین مدلهای تخصصی زیستشناسی در مواجهه با مسائل پیچیده پژوهشی ناتواناند. این دادهها حاکی از شکاف عمیق میان حفظ اطلاعات…