درون خط لوله‌ی داده‌های IBM؛ وقتی کیفیت جایگزین اندازه می‌شود

دوران قمار روی تعداد پارامترها به پایان رسیده است. تصور کنید مدلی با ۸ میلیارد پارامتر بتواند رقیبی با ۴ برابر اندازه خود را در عمل شکست دهد.

به نقل از گزارش dev.to در ۴ مه ۲۰۲۶، شرکت IBM از مدل Granite 4.1 پرده‌برداری کرد؛ یک مدل دستور-پذیر (Instruct) با ۸ میلیارد پارامتر که وسواس صنعت روی مقیاس مدل‌ها را به چالش می‌کشد. طبق این گزارش، این مدل با تبدیل «پالایش داده‌ها» از یک اقدام جانبی به یک زیرساخت اصلی، توانسته است به عملکردی معادل مدل‌های ۳۲ میلیاردی دست یابد.

بهره‌وری این مدل از یک رویکرد روشمند در آموزش و پس از آموزش نشأت می‌گیرد:

مهندسی داده: ۱۵ تریلیون توکن از طریق پنج مرحله مجزا فیلتر شدند تا کیفیت داده‌ها به‌صورت تصاعدی افزایش یابد.
پشته‌ی پس از آموزش: تنظیم دقیق (Fine-tuning) نظارت‌شده (SFT) روی ۴.۱ میلیون نمونه انجام شد که هر یک توسط یک خط لوله‌ی «مدل زبانی به عنوان داور» امتیازدهی شدند.
خط لوله‌ی RL: تیم توسعه از یک خط لوله‌ی یادگیری تقویت‌شده (RL) چندمرحله‌ای با استفاده از GRPO on-policy و تابع زیان DAPO بهره بردند.
گسترش بافت: پنجره‌ی بافت (Context Window) ۵۱۲ هزار توکنی از طریق گسترش مرحله‌ای (۳۲ هزار، سپس ۱۲۸ هزار و در نهایت ۵۱۲ هزار) ایجاد شد تا عملکرد در بافت‌های کوتاه حفظ شود.

همان‌طور که در تحلیل قبلی ما درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) اشاره کردیم، توازن بین داده و پارامتر کلید موفقیت است. Granite 4.1 که تحت مجوز Apache 2.0 منتشر شده، به توسعه‌دهندگان اجازه می‌دهد لاگ‌های آموزشی را بررسی و خط لوله را بازسازی کنند.

بر اساس مستندات IBM، این شفافیت نشان‌دهنده‌ی چرخش راهبردی صنعت است: اکنون کارایی آموزش ارزشمندتر از مقیاس خام است. برای تیم‌های عملیاتی، این یعنی هزینه‌های استقرار به‌شدت کاهش و سرعت استنتاج (Inference) افزایش می‌یابد، زیرا عملکرد سطح اول اکنون روی سخت‌افزارهای معمولی قابل اجراست.

اما این تنها بخشی از معماری است؛ تأثیر این رویکرد بر هزینه‌های عملیاتی مراکز داده را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

مدل Granite 4.1 را برای وظایفی که نیاز به بافت طولانی (تا ۵۱۲ هزار توکن) دارند آزمایش کنید.
لاگ‌های آموزشی منتشرشده را برای درک استراتژی فیلترینگ داده‌ها بررسی کنید.
در پروژه‌های خود، به‌جای افزایش اندازه مدل، روی پالایش داده‌های آموزشی تمرکز کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بهره‌وری این مدل از یک رویکرد روشمند در آموزش و پس از آموزش نشأت می‌گیرد:

مهندسی داده: ۱۵ تریلیون توکن از طریق پنج مرحله مجزا فیلتر شدند تا کیفیت داده‌ها به‌صورت تصاعدی افزایش یابد.
پشته‌ی پس از آموزش: تنظیم دقیق (Fine-tuning) نظارت‌شده (SFT) روی ۴.۱ میلیون نمونه انجام شد که هر یک توسط یک خط لوله‌ی «مدل زبانی به عنوان داور» امتیازدهی شدند.
خط لوله‌ی RL: تیم توسعه از یک خط لوله‌ی یادگیری تقویت‌شده (RL) چندمرحله‌ای با استفاده از GRPO on-policy و تابع زیان DAPO بهره بردند.
گسترش بافت: پنجره‌ی بافت (Context Window) ۵۱۲ هزار توکنی از طریق گسترش مرحله‌ای (۳۲ هزار، سپس ۱۲۸ هزار و در نهایت ۵۱۲ هزار) ایجاد شد تا عملکرد در بافت‌های کوتاه حفظ شود.

گام بعدی شما

مدل Granite 4.1 را برای وظایفی که نیاز به بافت طولانی (تا ۵۱۲ هزار توکن) دارند آزمایش کنید.
لاگ‌های آموزشی منتشرشده را برای درک استراتژی فیلترینگ داده‌ها بررسی کنید.
در پروژه‌های خود، به‌جای افزایش اندازه مدل، روی پالایش داده‌های آموزشی تمرکز کنید.

درون خط لوله‌ی داده‌های IBM؛ وقتی کیفیت جایگزین اندازه می‌شود

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون خط لوله‌ی داده‌های IBM؛ وقتی کیفیت جایگزین اندازه می‌شود

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون خط لوله‌ی داده‌های IBM؛ وقتی کیفیت جایگزین اندازه می‌شود

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون خط لوله‌ی داده‌های IBM؛ وقتی کیفیت جایگزین اندازه می‌شود

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران