اگر تصور کنید مدلهای هوش مصنوعی صرفاً ماشینهای پاسخدهنده هستند، سخت در اشتباهید؛ ما در حال گذار از «مدلهای سخنگو» به «عاملهای فعال» هستیم. به نقل از جونیانگ لین (Junyang Lin)، مدیر فنی سابق پروژه Qwen در علیبابا، دوران «تفکر استدلالی» — که با تکگوییهای طولانی داخلی شناخته میشد — اکنون جای خود را به «تفکر عاملمحور» (Agentic Thinking) میدهد. در این پارادایم جدید، معیار اصلی موفقیت دیگر نمره بنچمارک نیست، بلکه توانایی مدل در دستیابی به هدف در یک تعامل حلقه-بسته با جهان واقعی است.
این چرخش راهبردی در حالی رخ میدهد که لین در ۳ مارس ۲۰۲۶ از نقش خود کنارهگیری کرد تا به عنوان پژوهشگر مستقل فعالیت کند. بینشهای او در زمانی ارائه میشود که کل صنعت بر روی «محاسبات زمان استنتاج» (Test-time Compute) و زنجیرههای استدلال متمرکز شده است، همانطور که در مدلهای سری o شرکت OpenAI یا DeepSeek-R1 مشاهده میکنیم. با این حال، لین استدلال میکند که طولانیتر شدن ردپای استدلال (Reasoning Trace) لزوماً به معنای هوشمندتر شدن مدل نیست؛ بلکه تفکر باید بر اساس «حجم کاری هدف» (Target Workload) شکل بگیرد، نه صرفاً برای کسب نمرات بالاتر در بنچمارکها.
خانواده مدلهای Qwen و بنچمارکها
لین در یک بررسی جامع از خانواده Qwen، چندین مدل کلیدی را مورد تحلیل قرار میدهد: QwQ-32B، Qwen2.5-Max، Qwen3، Qwen2.5-VL و Qwen2.5-Omni. این طیف وسیع، دیدگاهی جامع از تکامل پروژه Qwen ارائه میدهد. برای مستند کردن این پیشرفتها، لین از نمودارهای بنچمارکی استفاده میکند که Qwen را در برابر رقبای سنگینی مانند DeepSeek-R1، Grok 3 Beta، Gemini 2.5 Pro و سری o OpenAI قرار میدهد. این رقابت در حوزه بهینهسازی مدلها شدت یافته است، بهطوری که برای مثال مدل DeepSeek V4 Flash توانسته است هزینههای استنتاج را به شدت کاهش دهد تا کارایی مدلهای پیشرفته را برای کاربران ارتقا دهد.
مدل Qwen3 نشاندهنده یک جهش بزرگ در دسترسپذیری و جامعیت است. لین اشاره میکند که این مدل پشتیبانی چندزبانه خود را از ۲۹ زبان به ۱۱۹ زبان و گویش مختلف گسترش داده است. همچنین برای اطمینان از دسترسی جامعه متنباز (Open-source)، این مدلها تحت لیسانس Apache 2.0 منتشر شده و در قالبهای کوانتیزه متنوعی از جمله GGUF، GPTQ، AWQ و MLX در دسترس هستند.
معماری Qwen3 و تفکر ترکیبی
در یک تحلیل فنی دقیق از خانواده Qwen3، لین بر پیچیدگی پیادهسازی «تفکر ترکیبی» (Hybrid Thinking) تأکید میکند. این ویژگی به مدل اجازه میدهد تا بین یک حالت استدلال گامبهگام (Step-by-step reasoning) و یک حالت پاسخ سریع و تقریباً آنی جابهجا شود.
طبق گزارش فنی Qwen3 (arXiv:2505.09388)، این خانواده از مدلها طیفی از ۰.۶ تا ۲۳۵ میلیارد پارامتر را پوشش میدهند. جزئیات معماری به شرح زیر است:
- مدلهای متراکم کوچک (۰.۶ تا ۴ میلیارد پارامتر): شامل Qwen3-0.6B (۲۸ لایه)، Qwen3-1.7B (۲۸ لایه) و Qwen3-4B (۳۶ لایه). این مدلها Embeddingهای ورودی و خروجی را به هم پیوند میدهند (Tying) و از پنجره زمینه ۳۲ هزار توکنی استفاده میکنند. همچنین از ترکیب ۱۶/۸ یا ۳۲/۸ سر (Heads) برای Q/KV بهره میبرند.
- مدلهای متراکم بزرگتر (۸ تا ۳۲ میلیارد پارامتر): شامل Qwen3-8B (۳۶ لایه)، Qwen3-14B (۴۰ لایه) و Qwen3-32B (۶۴ لایه). در این مدلها پیوند Embedding حذف شده و پنجره زمینه به ۱۲۸ هزار توکن extended شده است. این نسخهها از ۳۲/۸ یا ۶۴/۸ سر استفاده میکنند.
- نسخههای MoE (ترکیب خبرهها): مدلهای Qwen3-30B-A3B (۴۸ لایه) و Qwen3-235B-A22B (۹۴ لایه)، هر دو از پنجره زمینه ۱۲۸ هزار توکنی بهره میبرند. در این مدلهای Mixture-of-Experts، برای هر توکن تنها ۸ خبره از مجموع ۱۲۸ خبره فعال میشوند.
لین توضیح میدهد که ادغام «حالت تفکر» و «حالت دستوری» (Instruct Mode) بنیاداً دشوار است زیرا این دو در جهتهای متضاد حرکت میکنند؛ مدلهای دستوری برای ایجاز (Brevity) و تأخیر کم (Low Latency) پاداش میگیرند، اما مدلهای استدلالی برای صرف توکنهای بیشتر روی یک مسئله تشویق میشوند. ادغام بیدقت منجر به استدلالهای «متورم» (Bloated) و کاهش دقت در پاسخهای دستوری میشود.
برای مقابله با این مشکل، Qwen3 از یک خط لوله چهارمرحلهای پس-آموزش (Post-training) استفاده کرد که شامل: یک شروع سرد (Cold Start) با زنجیره تفکر طولانی (long-CoT)، یادگیری تقویتی (RL) استدلالی و در نهایت یک مرحله ادغام حالت تفکر بود. با این حال، در اواخر سال ۲۰۲۵، خط تولید ۲۵۰۷ تغییر مسیر داد و به جای ادغام، نسخههای مجزای Instruct و Thinking را عرضه کرد. لین این موضوع را یک «مشکل دادهای» میبیند و به شرکت Anthropic به عنوان یک الگوی اصلاحی اشاره میکند؛ مدل Claude 3.7 Sonnet به صورت ترکیبی و با بودجهای که کاربر تعیین میکند عرضه شد، در حالی که Claude 4 اجازه داد استدلال با استفاده از ابزارها در کارهای طولانیمدت در هم تنیده شود.
از استدلال به تفکر عاملمحور
لین تمایزی آشکار بین دو دوران توسعه هوش مصنوعی قائل میشود. دوران اول «تفکر استدلالی» بود که ثابت کرد یادگیری تقویتی (RL) نیازمند پاداشهای قطعی و قابل تأیید است؛ به همین دلیل ریاضیات، برنامهنویسی و منطق به ستونهای اصلی آموزش تبدیل شدند. این دوران، RL را به یک مسئله سیستمی در مقیاس بزرگ برای اجراهای متوالی (Rollouts) و تأیید صحت تبدیل کرد.
دوران دوم «تفکر عاملمحور» است که بر «تفکر برای عمل کردن» تمرکز دارد. برخلاف استدلال محض، تفکر عاملمحور باید چندین چالش دنیای واقعی را حل کند:
- تعیین لحظه دقیق برای توقف تفکر و اجرای یک اقدام (Action).
- انتخاب ابزار صحیح و ترتیب بهینه فراخوانی آنها.
- پردازش مشاهدات نویزی یا ناقص از یک محیط خارجی.
- بازبینی پویا برنامهها پس از وقوع یک شکست.
- حفظ انسجام در چندین نوبت گفتگو و فراخوانیهای متعدد ابزاری.
لین این دو رویکرد را در ابعاد مختلف با هم مقایسه میکند:
| بُعد مقایسه | تفکر استدلالی (Reasoning) | تفکر عاملمحور (Agentic) |
|---|---|---|
| معیار سنجش | کیفیت تاملات داخلی | پیشرفت مستمر در حین عمل |
| سیگنال پاداش | پاسخهای قابل تأیید (ریاضی، کد) | موفقیت در تکلیف در محیط تعاملی |
| موضوع محوری | خودِ مدل | مدل به علاوه محیط آن (Harness) |
| گلوگاه زیرساختی | Rolloutها و بهروزرسانی پایدار سیاست | سرورهای ابزار و محیطهای ایزوله |
| شکست اصلی | ردپای استدلالی پرطول و کمارزش | سوءاستفاده از پاداش از طریق نشت ابزار/محیط |
مهندسی محیط عامل (Agentic Harness)
فراتر از مدل، لین تأکید میکند که گلوگاه زیرساختی تغییر مکان داده است. در RL استدلالی، مسیرهای اجرا (Rollouts) خودکفا هستند. اما در RL عاملمحور، سیاست مدل (Policy) باید درون یک «هارنس» یا محیط شامل سرورهای ابزار، مرورگرها، ترمینالها و سندباکسها زندگی کند.
او استدلال میکند که آموزش و استنتاج باید به طور کامل از هم جدا شوند تا از فروپاشی نرخ خروجی (Throughput) در زمان اجرا جلوگیری شود. اگر یک عامل کدنویس مجبور باشد برای تولید توکن بعدی، منتظر پایان اجرای واقعی تست در محیط بماند، بهرهوری GPU به شدت افت میکند و فرآیند آموزش دچار گرسنگی داده میشود. این جداسازی برای حفظ سرعت مورد نیاز در RL مؤثر، حیاتی است.
علاوه بر این، لین پیشنهاد میکند که صنعت باید از وسواس روی تنوع دادهها (که مشخصه دوران SFT بود) دست بردارد و در عوض بر «کیفیت محیط» تمرکز کند. این به معنای اطمینان از این است که سندباکسها پایدار، واقعگرایانه و در برابر «سوءاستفاده از پاداش» (Reward Hacking) مقاوم باشند؛ جایی که مدلها راههای جعلی برای تحریک سیگنال موفقیت پیدا میکنند بدون اینکه واقعاً تکلیف را حل کنند. او Reward Hacking را سختترین مسئله میداند زیرا دسترسی به ابزارها، سطح حمله را برای خطاهای بهینهسازی گسترش میدهد.
کاربردهای عملی در Qwen3
برای توسعهدهندگان، این قابلیت ترکیبی از طریق پرچم enable_thinking در قالب چت (Chat Template) فعال میشود. تنظیم enable_thinking=True باعث فعال شدن حالت استدلال گامبهگام میشود و خروجی را در بلوکهای <think>...</think> میپیچد. کاربران همچنین میتوانند این حالت را در هر نوبت گفتگو با افزودن /think یا /no_think به پیامهای خود تغییر دهند.
from transformers import AutoModelForCausalLM, AutoTokenizer
name = "Qwen/Qwen3-8B"
tok = AutoTokenizer.from_pretrained(name)
model = AutoModelForCausalLM.from_pretrained(name, torch_dtype="auto", device_map="auto")
messages = [{"role": "user", "content": "Refactor this function and explain the change."}]
text = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True, enable_thinking=True)
inputs = tok(text, return_tensors="pt").to(model.device)
# تنظیمات نمونهبرداری توصیه شده توسط Qwen برای حالت تفکر
out = model.generate(**inputs, max_new_tokens=2048, temperature=0.6, top_p=0.95, top_k=20)
این سطح از کنترل، امکان ایجاد «بودجههای تفکر پویا» (Dynamic Thinking Budgets) را فراهم میکند، به گونهای که فراخواننده تعیین کند مدل حداکثر چقدر روی یک مسئله تأمل کند. لین این موضوع را با مثالهای کاربردی توضیح میدهد:
- عاملهای کدنویسی: به جای ارائه یک وصله (Patch) واحد بر اساس Stack Trace، یک سیستم عاملمحور محیط تست را اجرا میکند، خطای واقعی را میخواند و کد را آنقدر اصلاح میکند تا تمام تستها پاس شوند. در اینجا تفکر به پیمایش کدبیس و سازماندهی ابزارها کمک میکند.
- پژوهش عمیق (Deep Research): در حالی که یک مدل استدلالی پاسخی طولانی از حافظه مینویسد، یک سیستم عاملمحور — مانند دموی Deep Research شرکت Qwen — پرسش را به زیرپرسشها تقسیم کرده، جستجو را فراخوانی میکند، منابع ضعیف را حذف کرده و استنادات مستند (Grounded Citations) باز میگرداند.
- سازماندهنی چند-عاملی (Multi-agent Orchestration): لین انتظار دارد «مهندسی هارنس» غالب شود؛ جایی که یک سازماندهنده (Orchestrator) برنامهریزی کرده و کارها را به زیر-عاملهای متخصص ارجاع میدهد تا از آلودگی زمینه (Context Pollution) جلوگیری شود.
در نگاه به آینده، لین در بخش «کارهای آتی» خود چندین کلید موفقیت را شناسایی میکند: پیش-آموزش بیشتر، RL با بازخورد محیطی، پنجرههای زمینه طولانیتر و پذیرش مودالیتههای بیشتر.
گام بعدی شما
- بررسی مستندات Qwen3 برای پیادهسازی
enable_thinkingدر گردشکارهای خودکارسازی و مدیریت بودجه تفکر. - جایگزینی ارزیابیهای مبتنی بر بنچمارکهای ایستا با محیطهای ایزوله (Sandbox) تعاملی برای تست واقعی عاملهای AI.
- مطالعه معماری MoE در مدلهای Qwen3 برای بهینهسازی هزینه استنتاج و مدیریت فعالسازی Expertها.
این تحول در تفکر مدلها تنها نیمی از ماجراست؛ اثر این تغییر بر سختافزارهای نسل بعد را در تحلیل ما درباره تراشههای Blackwell بررسی کنید.




گفتگو