SearchSwarm-30B: دستیابی به امتیاز ۷۳.۳ در BrowseComp-ZH با هوش تفویض‌محور

باید بدانید که عامل‌های هوش مصنوعی فعلی در مواجهه با پژوهش‌های عمیق و طولانی، به دلیل محدودیت حافظه دچار فروپاشی می‌شوند. اما مدل SearchSwarm-30B با تغییر بازی در سطح وزن‌ها، این بن‌بست را می‌شکند.

همان‌طور که در تحلیل قبلی ما درباره‌ی TheoremBench اشاره کردیم، مدل‌های زبانی در تجزیه براهین پیچیده ریاضی به دلیل سوگیری‌های ساختاری شکست می‌خورند. تا امروز، مدیریت این تجزیه تنها به مهندسی پرامپت (Prompt Engineering) متکی بود که در مقیاس واقعی بسیار شکننده است و باعث اشغال سریع حافظه مدل می‌شود.

به نقل از تحلیل فنی منتشر شده در ۹ ژوئن ۲۰۲۶ در arxiv.org، پژوهشگران با طراحی یک چارچوب هدایت‌کننده، مجموعه‌ای از تصمیمات تفویض صحیح را برای تنظیم دقیق (Fine-tuning) مدل تولید کردند. نتیجه این فرآیند، مدل SearchSwarm-30B-A3B است که در بنچمارک‌های زیر نتایج قابل توجهی ثبت کرد:

امتیاز BrowseComp: ۶۸.۱
امتیاز BrowseComp-ZH: ۷۳.۳
سازوکار: عامل‌های فرعی وظایف را اجرا کرده و تنها نتایج خلاصه‌شده را بازمی‌گردانند تا بودجه‌ی پنجره متنی (Context Window) عامل اصلی حفظ شود.

این رویکرد، پارادایم عامل‌محور را از «ارکستراسیون مبتنی بر پرامپت» به «هوش درونی‌شده در وزن‌ها» تغییر می‌دهد. بر اساس مستندات این پژوهش، با تثبیت منطق تفویض در وزن‌های مدل، ریسک سرریز حافظه در وظایف بلندمدت به حداقل می‌رسد. برای جامعه فنی، این نتایج ثابت می‌کند که SFT (Supervised Fine-tuning) متمرکز بر فرآیند تفویض، به اندازه آموزش برای کسب دانش خام حیاتی است.

گام بعدی شما

منتظر انتشار وزن‌های مدل و چارچوب آموزشی (Harness) آن باشید تا قابلیت انتقال این منطق تفویض به محیط‌های غیرمرورگر را بسنجید.
عملکرد مدل‌های ۳۰ میلیارد پارامتری را در مدیریت حافظه با مدل‌های بزرگ‌تر مقایسه کنید تا بهره‌وری هزینه استنتاج را ارزیابی کنید.

اما سوال اصلی این است که آیا این مدل می‌تواند در محیط‌های کدنویسی پیچیده نیز چنین تفویض دقیقی داشته باشد؟ تحلیل ما درباره‌ی عامل‌های کدنویسی را دنبال کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

امتیاز BrowseComp: ۶۸.۱
امتیاز BrowseComp-ZH: ۷۳.۳
سازوکار: عامل‌های فرعی وظایف را اجرا کرده و تنها نتایج خلاصه‌شده را بازمی‌گردانند تا بودجه‌ی پنجره متنی (Context Window) عامل اصلی حفظ شود.

گام بعدی شما

منتظر انتشار وزن‌های مدل و چارچوب آموزشی (Harness) آن باشید تا قابلیت انتقال این منطق تفویض به محیط‌های غیرمرورگر را بسنجید.
عملکرد مدل‌های ۳۰ میلیارد پارامتری را در مدیریت حافظه با مدل‌های بزرگ‌تر مقایسه کنید تا بهره‌وری هزینه استنتاج را ارزیابی کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SearchSwarm-30B: دستیابی به امتیاز ۷۳.۳ در BrowseComp-ZH با هوش تفویض‌محور

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SearchSwarm-30B: دستیابی به امتیاز ۷۳.۳ در BrowseComp-ZH با هوش تفویض‌محور

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SearchSwarm-30B: دستیابی به امتیاز ۷۳.۳ در BrowseComp-ZH با هوش تفویض‌محور

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SearchSwarm-30B: دستیابی به امتیاز ۷۳.۳ در BrowseComp-ZH با هوش تفویض‌محور

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران