راز ۱۵ درصدی Poolside برای شکستن سد هزینه‌های محاسباتی هوش مصنوعی

عصر فشار آوردن به سخت‌افزار با مدل‌های غول‌آسا به پایان رسیده است. اگر هنوز فکر می‌کنید برای رسیدن به عملکرد سطح اول فقط به پارامترهای بیشتر نیاز دارید، سخت در اشتباهید.

Poolside AI با معرفی خانواده مدل‌های مخلوط متخصصان (Mixture-of-Experts یا MoE)، ثابت کرد که کارایی معماری می‌تواند با مقیاس خام رقابت کند. به نقل از مستندات فنی poolside.ai، این شرکت دو مدل کلیدی را توسعه داده است: مدل بنیادی Laguna M.1 و مدل با وزن‌های باز (Open Weights) به نام Laguna XS.2.

The user wants a short Persian (Farsi) translation for an image alt text in an article titled: "Top 7 Benchmarks That Actuall

تفاوت عملکردی این دو مدل به‌طرز عجیبی اندک است. طبق گزارش marktechpost.com، مدل Laguna M.1 با ۲۲۵ میلیارد پارامتر (۲۳ میلیارد فعال)، به امتیاز ۷۲.۵٪ در بنچمارک SWE-bench Verified دست یافت. در مقابل، مدل کوچک‌تر Laguna XS.2 با تنها ۳۳ میلیارد پارامتر (۳ میلیارد فعال)، امتیاز ۶۸.۲٪ را کسب کرد. این یعنی XS.2 آن‌قدر کوچک است که می‌توان آن را به‌صورت محلی روی یک مک با ۳۶ گیگابایت رم و از طریق Ollama اجرا کرد.

معرفی مدل‌های کدنویسی عامل‌محور Laguna XS.2 و M.1 توسط Poolside AI با ۶۸.۲٪ و ۷۲.۵٪ در SWE-bench Verified

رمز این بهره‌وری در سه نوآوری کلیدی در آموزش نهفته است:

بهینه‌ساز Muon (Muon Optimizer): این بهینه‌ساز توزیع‌شده با جایگزینی AdamW، گام‌های آموزشی را حدود ۱۵٪ کاهش داد و با استفاده از تنها یک وضعیت برای هر پارامتر، نیاز به حافظه را به شدت پایین آورد.
AutoMixer: به‌جای تکیه بر حدس و گمان‌های دستی، Poolside از مجموعه‌ای از ۶۰ مدل پروکسی برای بهینه‌سازی خودکار ترکیب داده‌های کد، ریاضی و STEM استفاده کرد.
یادگیری تقویت‌شده عامل‌محور (Async On-Policy Agent RL): سیستمی پیچیده که در آن استنتاج (Inference) و آموزش به‌صورت موازی اجرا می‌شوند و از GPUDirect RDMA برای انتقال وزن‌ها بهره می‌برند.

معرفی لاگونا XS.2 و M.1، مدل‌های کدنویسی عامل‌محور پول‌ساید با ۶۸.۲٪ و ۷۲.۵٪ در SWE-bench Verified

هر دو مدل روی بیش از ۳۰ تریلیون توکن آموزش دیده‌اند و پیش‌آموزش Laguna M.1 در پایان سال ۲۰۲۳ به اتمام رسید. همان‌طور که در پوشش پیشین ما از چرخش Poolside به سمت مدل‌های بازمتن دیدیم، این شرکت به دنبال تغییر قواعد بازی در دسترسی به مدل‌های سطح اول است. این مدل‌ها سیگنالی از گذار به کدنویسی عامل‌محور (Agentic) هستند؛ جایی که مدل‌ها تفکر و فراخوانی ابزار را برای حل وظایف پیچیده ترکیب می‌کنند.

این تنها آغاز ماجراست؛ اثر موج‌گونه‌ی این بهینه‌سازی‌ها بر اکوسیستم مدل‌های زبانی کوچک را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

مدل Laguna XS.2 را از طریق Ollama روی سخت‌افزار محلی خود تست کنید تا سرعت استنتاج را بسنجید.
مستندات بهینه‌ساز Muon را مطالعه کنید تا متوجه شوید چگونه می‌توان هزینه آموزش را بدون کاهش دقت پایین آورد.
بر روی قابلیت‌های استفاده از ابزار (Tool Use) در مدل‌های MoE تمرکز کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

The user wants a short Persian (Farsi) translation for an image alt text in an article titled: "Top 7 Benchmarks That Actuall

معرفی مدل‌های کدنویسی عامل‌محور Laguna XS.2 و M.1 توسط Poolside AI با ۶۸.۲٪ و ۷۲.۵٪ در SWE-bench Verified

رمز این بهره‌وری در سه نوآوری کلیدی در آموزش نهفته است:

بهینه‌ساز Muon (Muon Optimizer): این بهینه‌ساز توزیع‌شده با جایگزینی AdamW، گام‌های آموزشی را حدود ۱۵٪ کاهش داد و با استفاده از تنها یک وضعیت برای هر پارامتر، نیاز به حافظه را به شدت پایین آورد.
AutoMixer: به‌جای تکیه بر حدس و گمان‌های دستی، Poolside از مجموعه‌ای از ۶۰ مدل پروکسی برای بهینه‌سازی خودکار ترکیب داده‌های کد، ریاضی و STEM استفاده کرد.
یادگیری تقویت‌شده عامل‌محور (Async On-Policy Agent RL): سیستمی پیچیده که در آن استنتاج (Inference) و آموزش به‌صورت موازی اجرا می‌شوند و از GPUDirect RDMA برای انتقال وزن‌ها بهره می‌برند.

معرفی لاگونا XS.2 و M.1، مدل‌های کدنویسی عامل‌محور پول‌ساید با ۶۸.۲٪ و ۷۲.۵٪ در SWE-bench Verified

گام بعدی شما

مدل Laguna XS.2 را از طریق Ollama روی سخت‌افزار محلی خود تست کنید تا سرعت استنتاج را بسنجید.
مستندات بهینه‌ساز Muon را مطالعه کنید تا متوجه شوید چگونه می‌توان هزینه آموزش را بدون کاهش دقت پایین آورد.
بر روی قابلیت‌های استفاده از ابزار (Tool Use) در مدل‌های MoE تمرکز کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز ۱۵ درصدی Poolside برای شکستن سد هزینه‌های محاسباتی هوش مصنوعی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز ۱۵ درصدی Poolside برای شکستن سد هزینه‌های محاسباتی هوش مصنوعی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز ۱۵ درصدی Poolside برای شکستن سد هزینه‌های محاسباتی هوش مصنوعی

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز ۱۵ درصدی Poolside برای شکستن سد هزینه‌های محاسباتی هوش مصنوعی

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران