دوران قمار روی تعداد پارامترها به پایان رسیده است. تصور کنید مدلی با ۸ میلیارد پارامتر بتواند رقیبی با ۴ برابر اندازه خود را در عمل شکست دهد.
به نقل از گزارش dev.to در ۴ مه ۲۰۲۶، شرکت IBM از مدل Granite 4.1 پردهبرداری کرد؛ یک مدل دستور-پذیر (Instruct) با ۸ میلیارد پارامتر که وسواس صنعت روی مقیاس مدلها را به چالش میکشد. طبق این گزارش، این مدل با تبدیل «پالایش دادهها» از یک اقدام جانبی به یک زیرساخت اصلی، توانسته است به عملکردی معادل مدلهای ۳۲ میلیاردی دست یابد.
بهرهوری این مدل از یک رویکرد روشمند در آموزش و پس از آموزش نشأت میگیرد:
- مهندسی داده: ۱۵ تریلیون توکن از طریق پنج مرحله مجزا فیلتر شدند تا کیفیت دادهها بهصورت تصاعدی افزایش یابد.
- پشتهی پس از آموزش: تنظیم دقیق (Fine-tuning) نظارتشده (SFT) روی ۴.۱ میلیون نمونه انجام شد که هر یک توسط یک خط لولهی «مدل زبانی به عنوان داور» امتیازدهی شدند.
- خط لولهی RL: تیم توسعه از یک خط لولهی یادگیری تقویتشده (RL) چندمرحلهای با استفاده از GRPO on-policy و تابع زیان DAPO بهره بردند.
- گسترش بافت: پنجرهی بافت (Context Window) ۵۱۲ هزار توکنی از طریق گسترش مرحلهای (۳۲ هزار، سپس ۱۲۸ هزار و در نهایت ۵۱۲ هزار) ایجاد شد تا عملکرد در بافتهای کوتاه حفظ شود.
همانطور که در تحلیل قبلی ما دربارهی قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، توازن بین داده و پارامتر کلید موفقیت است. Granite 4.1 که تحت مجوز Apache 2.0 منتشر شده، به توسعهدهندگان اجازه میدهد لاگهای آموزشی را بررسی و خط لوله را بازسازی کنند.
بر اساس مستندات IBM، این شفافیت نشاندهندهی چرخش راهبردی صنعت است: اکنون کارایی آموزش ارزشمندتر از مقیاس خام است. برای تیمهای عملیاتی، این یعنی هزینههای استقرار بهشدت کاهش و سرعت استنتاج (Inference) افزایش مییابد، زیرا عملکرد سطح اول اکنون روی سختافزارهای معمولی قابل اجراست.
اما این تنها بخشی از معماری است؛ تأثیر این رویکرد بر هزینههای عملیاتی مراکز داده را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- مدل Granite 4.1 را برای وظایفی که نیاز به بافت طولانی (تا ۵۱۲ هزار توکن) دارند آزمایش کنید.
- لاگهای آموزشی منتشرشده را برای درک استراتژی فیلترینگ دادهها بررسی کنید.
- در پروژههای خود، بهجای افزایش اندازه مدل، روی پالایش دادههای آموزشی تمرکز کنید.




گفتگو