باید بدانید که عاملهای هوش مصنوعی فعلی در مواجهه با پژوهشهای عمیق و طولانی، به دلیل محدودیت حافظه دچار فروپاشی میشوند. اما مدل SearchSwarm-30B با تغییر بازی در سطح وزنها، این بنبست را میشکند.
همانطور که در تحلیل قبلی ما دربارهی TheoremBench اشاره کردیم، مدلهای زبانی در تجزیه براهین پیچیده ریاضی به دلیل سوگیریهای ساختاری شکست میخورند. تا امروز، مدیریت این تجزیه تنها به مهندسی پرامپت (Prompt Engineering) متکی بود که در مقیاس واقعی بسیار شکننده است و باعث اشغال سریع حافظه مدل میشود.
به نقل از تحلیل فنی منتشر شده در ۹ ژوئن ۲۰۲۶ در arxiv.org، پژوهشگران با طراحی یک چارچوب هدایتکننده، مجموعهای از تصمیمات تفویض صحیح را برای تنظیم دقیق (Fine-tuning) مدل تولید کردند. نتیجه این فرآیند، مدل SearchSwarm-30B-A3B است که در بنچمارکهای زیر نتایج قابل توجهی ثبت کرد:
- امتیاز BrowseComp: ۶۸.۱
- امتیاز BrowseComp-ZH: ۷۳.۳
- سازوکار: عاملهای فرعی وظایف را اجرا کرده و تنها نتایج خلاصهشده را بازمیگردانند تا بودجهی پنجره متنی (Context Window) عامل اصلی حفظ شود.
این رویکرد، پارادایم عاملمحور را از «ارکستراسیون مبتنی بر پرامپت» به «هوش درونیشده در وزنها» تغییر میدهد. بر اساس مستندات این پژوهش، با تثبیت منطق تفویض در وزنهای مدل، ریسک سرریز حافظه در وظایف بلندمدت به حداقل میرسد. برای جامعه فنی، این نتایج ثابت میکند که SFT (Supervised Fine-tuning) متمرکز بر فرآیند تفویض، به اندازه آموزش برای کسب دانش خام حیاتی است.
گام بعدی شما
- منتظر انتشار وزنهای مدل و چارچوب آموزشی (Harness) آن باشید تا قابلیت انتقال این منطق تفویض به محیطهای غیرمرورگر را بسنجید.
- عملکرد مدلهای ۳۰ میلیارد پارامتری را در مدیریت حافظه با مدلهای بزرگتر مقایسه کنید تا بهرهوری هزینه استنتاج را ارزیابی کنید.
اما سوال اصلی این است که آیا این مدل میتواند در محیطهای کدنویسی پیچیده نیز چنین تفویض دقیقی داشته باشد؟ تحلیل ما دربارهی عاملهای کدنویسی را دنبال کنید.
گفتگو