پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

چگونه معماری Search as Code مصرف توکن‌های Perplexity را ۸۵٪ کاهش داد؟

معماری جدید Perplexity به مدل‌های هوش مصنوعی اجازه می‌دهد به‌جای استفاده از APIهای صلب، کدهای پایتون سفارشی برای جست‌وجو بنویسند. این تغییر منجر به کاهش شدید هزینه‌های عملیاتی و…

۵ دقیقه خواندن

استخراج آرگومان‌های ریاضی از فعال‌سازهای Llama بدون تحلیل متن

پژوهشگران ثابت کردند که عملیات و اعداد ریاضی را می‌توان مستقیماً از فعال‌سازهای داخلی مدل‌های Llama استخراج کرد. این دستاورد اجازه می‌دهد ابزارهای خارجی به‌جای تحلیل متنی پرامپت،…

۹ دقیقه خواندن

آیا «پرتاب» مدل‌های فوق-پارامتری مشکل تعمیم‌پذیری هوش مصنوعی را حل می‌کند؟

یک پیشنهاد نظری جدید ادعا می‌کند که دستیابی به هوش سطح انسانی نیازمند «پرتاب» (Catapulting) مدل‌های بسیار بزرگ از طریق چرخه‌های نرخ یادگیری بالاست. این رویکرد، اولویت را از حجم…

۱۰ دقیقه خواندن

سقوط ۸ درصدی سهام FactSet؛ بازی جدید Anthropic برای جایگزینی نرم‌افزارهای مالی

شرکت Anthropic با سرمایه‌ای ۱.۵ میلیارد دلاری و همکاری غول‌هایی چون گلدمن ساکس، یک سیستم‌عامل هوش مصنوعی برای صنعت مالی راه‌اندازی کرد. انتشار رایگان قالب‌های عامل‌های هوشمند برای…

۶ دقیقه خواندن
آموزش کاربردی

چگونه «تراشیدن بافت» حافظه، نویز عامل‌های هوش مصنوعی را پاکسازی می‌کند؟

یک الگوی مهندسی جدید به مدل‌های بزرگ اجازه می‌دهد تا حافظه‌ی مدل‌های کوچک‌تر را به‌صورت پویا ویرایش و بازنویسی کنند. این روش نویز را حذف و دقت را بالا می‌برد، اما ریسک افزایش شدید…

۹ دقیقه خواندن
آموزش کاربردی

چرا چت‌های طولانی با هوش مصنوعی، هزینه استنتاج شما را به‌شدت بالا می‌برد؟

عامل‌های برنامه‌نویسی اغلب با پردازش مجدد داده‌های قدیمی در چت‌های طولانی، بودجه شما را می‌سوزانند. ابزار oowl با جایگزینی پنجرهٔ چت یکپارچه با «آرتیفکت‌های محدود» و تیمی از…

۵ دقیقه خواندن
رمزگشایی از مکانیسم توجه: چرا پرامپت‌های شما گاهی با توهم پاسخ می‌دهند؟
آموزش کاربردی

رمزگشایی از مکانیسم توجه: چرا پرامپت‌های شما گاهی با توهم پاسخ می‌دهند؟

مدل‌های زبانی واقعاً حقایق را نمی‌شناسند، بلکه موتورهای آماری برای پیش‌بینی توکن بعدی هستند. درک معماری ترنسفورمر و فرآیند RLHF به کاربران کمک می‌کند تا توهمات را کاهش داده و…

۱۰ دقیقه خواندن
چرا بلک‌راک مدل‌های تک‌کاره را با کمیته‌های عامل جایگزین کرد؟
زندگی با AI

چرا بلک‌راک مدل‌های تک‌کاره را با کمیته‌های عامل جایگزین کرد؟

شرکت بلک‌راک و پژوهشگران آکادمیک از مدل‌های تک‌کاره به عنوان «پیش‌گوی ترید» فاصله گرفته‌اند. آن‌ها اکنون از سامانه‌های چندعاملی استفاده می‌کنند که در آن عامل‌های متخصص «گاوی» و…

۶ دقیقه خواندن