تصور کنید مدلی با ۷۰ میلیارد پارامتر را داشته باشید که حتی نتواند یک برگه امتحان ریاضی پایه ۱۰ را درست تصحیح کند. اگر هنوز تصور میکنید مدلهای بزرگتر همیشه دقیقتر هستند، باید بدانید که این باور در مواجهه با معیارهای سختگیرانه، فرو میپاشد.
طبق گزارشی که در ۳۰ آوریل ۲۰۲۶ منتشر شد، تعداد پارامترها یک معیار فریبنده برای درجهبندی دقیق است. به نقل از مستندات منتشر شده در arxiv.org، همراستاسازی (Alignment) معماری با دستورالعملها در اتوماسیون ارزیابیهای شایستگی دانشجویان، بر مقیاس خام مدل برتری دارد.
در این پژوهش، چهار مدل زبانی بزرگ (Large Language Model - LLM) با متدهای ارزیابی اساتید ارشد ریاضی مقایسه شدند تا آموزش مبتنی بر شایستگی (Competency-Based Education) برای ریاضیات پایه ۱۰ در نپال اتوماتیک شود. نتایج، یک «شکاف سازگاری معماری» تکاندهنده را آشکار کرد:
- Nova (Gemini 2.5 Flash) و Lyra (Gemini 3 Pro) که هر دو از معماری ترکیب متخصصان پراکنده (Sparse Mixture-of-Experts - MoE) استفاده میکنند، به «توافق متوسط» با ضریب کاپای وزنی (weighted kappa) حدود ۰.۳۸ دست یافتند.
- Orion (Llama 3.3-70B) با وجود مقیاس عظیم پارامترها، «هیچ توافقی» با دادهها نداشت و ضریب کاپای آن -۰.۰۲۶۱ بود.
- Eagle (Llama 3.1-8B) نیز به عنوان بخشی از مجموعه وزنهای باز (Open Weights) در این چارچوب مورد آزمایش قرار گرفت.
همانطور که در تحلیل قبلی ما دربارهی محدودیتهای مدلهای زبانی در استدلال منطقی اشاره کردیم، این نتایج ثابت میکند که توانایی پایبندی به محدودیتهای سختگیرانه یک روب ریک (Rubric)، تابعی از معماری مدل است و نه صرفاً اندازه آن.
بر اساس بررسی منابع متعدد، این مدلها هنوز قادر به صدور گواهینامه خودکار نیستند، اما به عنوان ابزارهای کمکی در سیستمهای «انسان در حلقه» (Human-in-the-Loop) برای استخراج شواهد اولیه، ارزش زیادی دارند. این یافتهها لایه جدیدی به درک ما از قابلیت اطمینان مدلها اضافه میکند. مشخص شد که مکانیسمهای داخلی یک مدل — چه معماری آن و چه دادههای آموزشی — اغلب بر مزایای مورد انتظار از قوانین مقیاسپذیری (Scaling Laws) غلبه میکنند.
اما این موضوع فقط محدود به ریاضی نیست؛ تأثیر این معماریها بر دقت کدنویسی را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- برای کارهای حساس به ساختار، به جای مدلهای غولپیکر، مدلهای مبتنی بر MoE را امتحان کنید.
- در طراحی سیستمهای ارزیابی، روی همراستاسازی معماری تمرکز کنید نه فقط افزایش حجم داده.
- از مدلهای زبانی کوچک (SLM) بهینه شده برای استخراج شواهد اولیه استفاده کنید.




گفتگو