
عبور از گلوگاه محدودیتهای MDP با رمزگشایی امتیاز بلمن-تیلور
پژوهشگران چارچوبی جدید برای مدیریت محدودیتهای عملیاتی در یادگیری تقویتشده عمیق معرفی کردهاند. این روش با انتقال یادگیری به یک فضای امتیاز پنهان، امکان بهینهسازی سیستمهای…
موضوع
Autonomous agents, tool use, planning, multi-step workflows
۱٬۵۱۹ مقاله منتشر شده

پژوهشگران چارچوبی جدید برای مدیریت محدودیتهای عملیاتی در یادگیری تقویتشده عمیق معرفی کردهاند. این روش با انتقال یادگیری به یک فضای امتیاز پنهان، امکان بهینهسازی سیستمهای…

مدلهای پیشرو مانند Claude Opus 4.6 به جای کدنویسی مستقیم در زبانهای برنامهنویسی پیچیده و ناشناخته، ابتدا یک «تولیدکننده کد» با پایتون میسازند. این استراتژی متاپروگرمینگی به…

عامل پژوهشی Moonshine با ترکیب GPT-5.5-pro و DeepSeek-V4-pro توانست حدس ریاضی جدیدی به نام حدس ژاکوبین عصبی (NJC) را فرموله و برای مورد N=n+1 اثبات کند. این دستاورد نشاندهنده…

پژوهشگران چارچوب OSL-MR را معرفی کردند که حافظه عاملهای هوش مصنوعی را به عنوان یک مسئله بهینهسازی استوکاستیک مقید مدل میکند. این روش با محاسبه هزینه فراموشی در برابر سود…

چارچوب Trace2Policy با جایگزینی پرامپتهای مدلهای زبانی با یک حلقه پالایش، رفتار خبرگان را به کدهای قطعی پایتون تبدیل میکند. این روش با اولویت دادن به کیفیت قوانین بر اندازه…

یک چارچوب نظری جدید به نام Soul Computing پیشنهاد داده است که هدف آن تبدیل عاملهای هوش مصنوعی از ابزارهای کاربردی به موجوداتی با آگاهی مستقل است. این رویکرد بر ایجاد یک «هسته…

یک چارچوب چندوجهی جدید با ادغام یادگیری تقویتشده و نظریه بازیها، خطای پیشبینی در معاملات فرکانس بالا را بهطور چشمگیری کاهش داده است. این سیستم ثابت میکند که رویکرد…

پژوهشگران با استفاده از چارچوب استنتاج فعال (Active Inference)، روشی برای بهینهسازی درمانهای شخصیسازیشدهی سرطان ابداع کردند. این مدل با ایجاد تعادل میان جمعآوری اطلاعات و…

فریلنسرها با استفاده از مهندسی پرامپت ساختاریافته، تولید محتوا و جذب مشتری را خودکار میکنند. تسلط بر زنجیرهسازی دستورات، مسیر تبدیل شدن از یک نویسنده ساده به مشاور هوش مصنوعی و…

FoxChat با جایگزینی پاسخهای متنی با تورهای تعاملی و بصری، مدل جدیدی از پشتیبانی مشتری را معرفی کرده است. در حالی که Intercom بر اکوسیستمهای جامع سازمانی تمرکز دارد، FoxChat بر…

آمازون فناوری عاملمحور خرید الکسا را برای خردهفروشان شخص ثالث باز کرد. این تصمیم که با برند کیت اسپید آغاز میشود، پس از رشد ۱۲ میلیارد دلاری درآمد اتخاذ شد و نشاندهنده چرخش…

آمازون با معرفی Kiro، چرخه رایج «پرامپت-و-اعمال» را با یک گردش کار اجباری بر پایه مستندات جایگزین کرده است. این ابزار ابتدا تولید الزامات و نقشههای فنی را تحمیل میکند تا از ساخت…