چرا تعداد پارامترها در تصحیح تکالیف ریاضی هیچ اهمیتی ندارد

تصور کنید مدلی با ۷۰ میلیارد پارامتر را داشته باشید که حتی نتواند یک برگه امتحان ریاضی پایه ۱۰ را درست تصحیح کند. اگر هنوز تصور می‌کنید مدل‌های بزرگ‌تر همیشه دقیق‌تر هستند، باید بدانید که این باور در مواجهه با معیارهای سخت‌گیرانه، فرو می‌پاشد.

طبق گزارشی که در ۳۰ آوریل ۲۰۲۶ منتشر شد، تعداد پارامترها یک معیار فریبنده برای درجه‌بندی دقیق است. به نقل از مستندات منتشر شده در arxiv.org، همراستاسازی (Alignment) معماری با دستورالعمل‌ها در اتوماسیون ارزیابی‌های شایستگی دانشجویان، بر مقیاس خام مدل برتری دارد.

در این پژوهش، چهار مدل زبانی بزرگ (Large Language Model - LLM) با متدهای ارزیابی اساتید ارشد ریاضی مقایسه شدند تا آموزش مبتنی بر شایستگی (Competency-Based Education) برای ریاضیات پایه ۱۰ در نپال اتوماتیک شود. نتایج، یک «شکاف سازگاری معماری» تکان‌دهنده را آشکار کرد:

Nova (Gemini 2.5 Flash) و Lyra (Gemini 3 Pro) که هر دو از معماری ترکیب متخصصان پراکنده (Sparse Mixture-of-Experts - MoE) استفاده می‌کنند، به «توافق متوسط» با ضریب کاپای وزنی (weighted kappa) حدود ۰.۳۸ دست یافتند.
Orion (Llama 3.3-70B) با وجود مقیاس عظیم پارامترها، «هیچ توافقی» با داده‌ها نداشت و ضریب کاپای آن -۰.۰۲۶۱ بود.
Eagle (Llama 3.1-8B) نیز به عنوان بخشی از مجموعه وزن‌های باز (Open Weights) در این چارچوب مورد آزمایش قرار گرفت.

همان‌طور که در تحلیل قبلی ما درباره‌ی محدودیت‌های مدل‌های زبانی در استدلال منطقی اشاره کردیم، این نتایج ثابت می‌کند که توانایی پایبندی به محدودیت‌های سخت‌گیرانه یک روب ریک (Rubric)، تابعی از معماری مدل است و نه صرفاً اندازه آن.

بر اساس بررسی منابع متعدد، این مدل‌ها هنوز قادر به صدور گواهینامه خودکار نیستند، اما به عنوان ابزارهای کمکی در سیستم‌های «انسان در حلقه» (Human-in-the-Loop) برای استخراج شواهد اولیه، ارزش زیادی دارند. این یافته‌ها لایه جدیدی به درک ما از قابلیت اطمینان مدل‌ها اضافه می‌کند. مشخص شد که مکانیسم‌های داخلی یک مدل — چه معماری آن و چه داده‌های آموزشی — اغلب بر مزایای مورد انتظار از قوانین مقیاس‌پذیری (Scaling Laws) غلبه می‌کنند.

اما این موضوع فقط محدود به ریاضی نیست؛ تأثیر این معماری‌ها بر دقت کدنویسی را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

برای کارهای حساس به ساختار، به جای مدل‌های غول‌پیکر، مدل‌های مبتنی بر MoE را امتحان کنید.
در طراحی سیستم‌های ارزیابی، روی همراستاسازی معماری تمرکز کنید نه فقط افزایش حجم داده.
از مدل‌های زبانی کوچک (SLM) بهینه شده برای استخراج شواهد اولیه استفاده کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

Nova (Gemini 2.5 Flash) و Lyra (Gemini 3 Pro) که هر دو از معماری ترکیب متخصصان پراکنده (Sparse Mixture-of-Experts - MoE) استفاده می‌کنند، به «توافق متوسط» با ضریب کاپای وزنی (weighted kappa) حدود ۰.۳۸ دست یافتند.
Orion (Llama 3.3-70B) با وجود مقیاس عظیم پارامترها، «هیچ توافقی» با داده‌ها نداشت و ضریب کاپای آن -۰.۰۲۶۱ بود.
Eagle (Llama 3.1-8B) نیز به عنوان بخشی از مجموعه وزن‌های باز (Open Weights) در این چارچوب مورد آزمایش قرار گرفت.

اما این موضوع فقط محدود به ریاضی نیست؛ تأثیر این معماری‌ها بر دقت کدنویسی را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

برای کارهای حساس به ساختار، به جای مدل‌های غول‌پیکر، مدل‌های مبتنی بر MoE را امتحان کنید.
در طراحی سیستم‌های ارزیابی، روی همراستاسازی معماری تمرکز کنید نه فقط افزایش حجم داده.
از مدل‌های زبانی کوچک (SLM) بهینه شده برای استخراج شواهد اولیه استفاده کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا تعداد پارامترها در تصحیح تکالیف ریاضی هیچ اهمیتی ندارد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا تعداد پارامترها در تصحیح تکالیف ریاضی هیچ اهمیتی ندارد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا تعداد پارامترها در تصحیح تکالیف ریاضی هیچ اهمیتی ندارد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا تعداد پارامترها در تصحیح تکالیف ریاضی هیچ اهمیتی ندارد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران