تصور کنید قدرتمندترین مدل استدلالی جهان را بدون نیاز به ابررایانهها، روی سیستم شخصی خود اجرا کنید. این دیگر یک رویا نیست، بلکه واقعیت جدیدی است که Unsloth خلق کرده است.
به نقل از مستندات این تیم در Hugging Face، در ژانویه ۲۰۲۵ نسخههای GGUF مدل DeepSeek-R1 با کوانتایزیشن (Quantization) تا سطح ۱.۵۸ بیت منتشر شد. این اقدام، پیشفرضهای قدیمی دربارهی نیاز به مراکز داده (Data Center) برای اجرای مدلهای عظیم را به کلی تغییر داد.
این مدل یک مدل ترکیبی خبره (Mixture-of-Experts) با ۶۷۱ میلیارد پارامتر کل است که در هر گام استنتاج (Inference)، تنها ۳۷ میلیارد پارامتر فعال هستند. طبق اعلام Unsloth، رویکرد انتخابی آنها در کوانتایزیشن، دقت مدل را در چهار سطح مختلف حفظ کرده است:
- UD-IQ1_S (۱.۵۸-bit): فضای ۱۳۱ گیگابایتی، دقت «متوسط».
- UD-IQ1_M (۱.۷۳-bit): فضای ۱۵۸ گیگابایتی، دقت «خوب».
- UD-IQ2_XXS (۲.۲۲-bit): فضای ۱۸۳ گیگابایتی، دقت «بهتر».
- UD-Q2_K_XL (۲.۵۱-bit): فضای ۲۱۲ گیگابایتی، دقت «بهترین».

همانطور که در تحلیل قبلی ما دربارهی مدلهای استدلالی و زنجیره تفکر (Chain-of-Thought) اشاره کردیم، دسترسی به این سطح از تفکر ماشینی پیش از این تنها در انحصار شرکتهای بزرگ بود. اکنون کاربران میتوانند این مدل را در llama.cpp اجرا کنند. برای نسخه ۱.۵۸ بیتی، توصیه میشود دمای ۰.۶ و اندازه کانتکست ۸۱۹۲ تنظیم شود تا پیشبینی توکنهای نادر بهینه گردد.

بر اساس مستندات منتشر شده در arXiv، مدل DeepSeek-R1 در ژانویه ۲۰۲۵ معرفی شد و در بنچمارکهای ریاضی و کدنویسی، عملکردی مشابه OpenAI-o1 دارد. این مدل از یادگیری تقویتشده در مقیاس بزرگ بهره میبرد و نسخههای تقطیری (Distilled) آن از ۱.۵ تا ۷۰ میلیارد پارامتر نیز عرضه شدهاند.

این پروژه تحت مجوز MIT منتشر شده و استفاده تجاری از آن آزاد است. همچنین برای توسعهدهندگانی که قصد دارند مدلهای استدلالی خود را بسازند، Unsloth دفترچههای گوگل کولب رایگانی را برای تنظیم دقیق (Fine-tuning) مدل Llama 3.1 (8B) با استفاده از دادههای R1 ارائه داده است.
با نقطه ورود ۱۳۱ گیگابایتی، تعریف «هوش مصنوعی محلی» برای متخصصان تغییر کرده است. اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- اگر کارت گرافیک RTX 4090 دارید، از قابلیت offloading لایهها در llama.cpp برای اجرای نسخههای کوچکتر استفاده کنید.
- برای آموزش مدلهای کوچکتر، دفترچههای Colab مربوط به GRPO را بررسی کنید.
- برای مقایسه دقت، نسخهی ۲.۵۱ بیتی را در صورت داشتن رم کافی اولویت دهید.




گفتگو