TinyR1-32B: وقتی استراتژی داده بر حجم پارامترها پیروز می‌شود

تصور کنید مدلی با نصف اندازه رقیبش، در سخت‌ترین آزمون‌های ریاضی و کدنویسی آن را شکست دهد. این دیگر یک احتمال نیست، بلکه واقعیت جدید دنیای مدل‌های استدلالی است.

مدل TinyR1-32B-Preview که توسط Qihoo 360 و دانشگاه پکن توسعه یافته، توانسته است DeepSeek-R1-Distill-Llama-70B را در بنچ‌مارک‌های ریاضی، کدنویسی و علوم پشت سر بگذارد. این اتفاق ثابت می‌کند که لزوماً مدل‌های بزرگ‌تر، هوشمندتر نیستند.

طبق اعلام تیم پژوهشی در ۱۶ آوریل ۲۰۲۵، تمام مجموعه‌داده‌های آموزشی و خط لوله ارزیابی این مدل به‌صورت متن‌باز منتشر شده است. بر اساس مستندات موجود در مخزن Hugging Face، این انتشار پس از گزارش فنی ۷ مارس و یک اصلاحیه حیاتی در توکنایزر (Tokenizer) در ۳ مارس صورت گرفت تا مشکل تکرار خروجی‌ها برطرف شود.

تیم توسعه برای رسیدن به این نتیجه، از روش تنظیم دقیق (Fine-tuning) روی مدل DeepSeek-R1-Distill-Qwen-32B در سه حوزه مجزا استفاده کرد. آن‌ها با بهره‌گیری از چارچوب 360-LLaMA-Factory، متخصصانی در زمینه‌های ریاضی، کد و علوم ساختند و سپس این سه مدل را با استفاده از ابزار Mergekit با یکدیگر ادغام کردند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) اشاره کردیم، تصور می‌شد حجم مدل تنها راه رسیدن به استدلال پیشرفته است؛ اما TinyR1 این باور را به چالش می‌کشد. نتایج این مدل در آزمون AIME 2024 عدد ۷۸.۱ است که بسیار نزدیک به امتیاز ۷۹.۸ مدل DeepSeek-R1 و به‌مراتب بالاتر از امتیاز ۷۰.۰ مدل Llama 70B است.

داده‌های آموزشی این مدل بسیار بهینه و شفاف هستند:

۵۸.۳ هزار مسیر زنجیره تفکر (Chain-of-thought) ریاضی
۱۹ هزار مسیر کدنویسی
۸.۶ هزار مسیر علمی

با این حال، این مدل بدون نقص نیست. تیم سازنده هشدار داده‌اند که تنظیمات نادرست پارامترها می‌تواند باعث ایجاد حلقه‌های تکراری در پاسخ‌ها شود و توصیه می‌کنند دمای (Temperature) ۰.۶ و top-p ۰.۹۵ استفاده شود.

اما این موفقیت تنها بخشی از یک تصویر بزرگتر است؛ تأثیر این رویکرد بر آینده مدل‌های زبانی کوچک (Small Language Models) را در گزارش‌های آتی بررسی خواهیم کرد.

گام بعدی شما

بررسی مخزن Hugging Face برای تست مدل TinyR1-32B در محیط‌های محلی.
مطالعه مستندات Mergekit برای یادگیری نحوه ادغام مدل‌های متخصص.
آزمایش مدل با دمای ۰.۶ برای جلوگیری از توهمات تکراری.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

داده‌های آموزشی این مدل بسیار بهینه و شفاف هستند:

۵۸.۳ هزار مسیر زنجیره تفکر (Chain-of-thought) ریاضی
۱۹ هزار مسیر کدنویسی
۸.۶ هزار مسیر علمی

گام بعدی شما

بررسی مخزن Hugging Face برای تست مدل TinyR1-32B در محیط‌های محلی.
مطالعه مستندات Mergekit برای یادگیری نحوه ادغام مدل‌های متخصص.
آزمایش مدل با دمای ۰.۶ برای جلوگیری از توهمات تکراری.

TinyR1-32B: وقتی استراتژی داده بر حجم پارامترها پیروز می‌شود

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

TinyR1-32B: وقتی استراتژی داده بر حجم پارامترها پیروز می‌شود

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

TinyR1-32B: وقتی استراتژی داده بر حجم پارامترها پیروز می‌شود

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

TinyR1-32B: وقتی استراتژی داده بر حجم پارامترها پیروز می‌شود

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران