تصور کنید مدلی با نصف اندازه رقیبش، در سختترین آزمونهای ریاضی و کدنویسی آن را شکست دهد. این دیگر یک احتمال نیست، بلکه واقعیت جدید دنیای مدلهای استدلالی است.
مدل TinyR1-32B-Preview که توسط Qihoo 360 و دانشگاه پکن توسعه یافته، توانسته است DeepSeek-R1-Distill-Llama-70B را در بنچمارکهای ریاضی، کدنویسی و علوم پشت سر بگذارد. این اتفاق ثابت میکند که لزوماً مدلهای بزرگتر، هوشمندتر نیستند.
طبق اعلام تیم پژوهشی در ۱۶ آوریل ۲۰۲۵، تمام مجموعهدادههای آموزشی و خط لوله ارزیابی این مدل بهصورت متنباز منتشر شده است. بر اساس مستندات موجود در مخزن Hugging Face، این انتشار پس از گزارش فنی ۷ مارس و یک اصلاحیه حیاتی در توکنایزر (Tokenizer) در ۳ مارس صورت گرفت تا مشکل تکرار خروجیها برطرف شود.
تیم توسعه برای رسیدن به این نتیجه، از روش تنظیم دقیق (Fine-tuning) روی مدل DeepSeek-R1-Distill-Qwen-32B در سه حوزه مجزا استفاده کرد. آنها با بهرهگیری از چارچوب 360-LLaMA-Factory، متخصصانی در زمینههای ریاضی، کد و علوم ساختند و سپس این سه مدل را با استفاده از ابزار Mergekit با یکدیگر ادغام کردند.
همانطور که در تحلیلهای پیشین ما دربارهی قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، تصور میشد حجم مدل تنها راه رسیدن به استدلال پیشرفته است؛ اما TinyR1 این باور را به چالش میکشد. نتایج این مدل در آزمون AIME 2024 عدد ۷۸.۱ است که بسیار نزدیک به امتیاز ۷۹.۸ مدل DeepSeek-R1 و بهمراتب بالاتر از امتیاز ۷۰.۰ مدل Llama 70B است.
دادههای آموزشی این مدل بسیار بهینه و شفاف هستند:
- ۵۸.۳ هزار مسیر زنجیره تفکر (Chain-of-thought) ریاضی
- ۱۹ هزار مسیر کدنویسی
- ۸.۶ هزار مسیر علمی
با این حال، این مدل بدون نقص نیست. تیم سازنده هشدار دادهاند که تنظیمات نادرست پارامترها میتواند باعث ایجاد حلقههای تکراری در پاسخها شود و توصیه میکنند دمای (Temperature) ۰.۶ و top-p ۰.۹۵ استفاده شود.
اما این موفقیت تنها بخشی از یک تصویر بزرگتر است؛ تأثیر این رویکرد بر آینده مدلهای زبانی کوچک (Small Language Models) را در گزارشهای آتی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مخزن Hugging Face برای تست مدل TinyR1-32B در محیطهای محلی.
- مطالعه مستندات Mergekit برای یادگیری نحوه ادغام مدلهای متخصص.
- آزمایش مدل با دمای ۰.۶ برای جلوگیری از توهمات تکراری.




گفتگو