تغییر اولویت در Qwen: تفکر عامل‌محور جایگزین استدلال داخلی شد

اگر تصور کنید مدل‌های هوش مصنوعی صرفاً ماشین‌های پاسخ‌دهنده هستند، سخت در اشتباهید؛ ما در حال گذار از «مدل‌های سخنگو» به «عامل‌های فعال» هستیم. به نقل از جونیانگ لین (Junyang Lin)، مدیر فنی سابق پروژه Qwen در علی‌بابا، دوران «تفکر استدلالی» — که با تک‌گویی‌های طولانی داخلی شناخته می‌شد — اکنون جای خود را به «تفکر عامل‌محور» (Agentic Thinking) می‌دهد. در این پارادایم جدید، معیار اصلی موفقیت دیگر نمره بنچمارک نیست، بلکه توانایی مدل در دستیابی به هدف در یک تعامل حلقه-بسته با جهان واقعی است.

این چرخش راهبردی در حالی رخ می‌دهد که لین در ۳ مارس ۲۰۲۶ از نقش خود کناره‌گیری کرد تا به عنوان پژوهشگر مستقل فعالیت کند. بینش‌های او در زمانی ارائه می‌شود که کل صنعت بر روی «محاسبات زمان استنتاج» (Test-time Compute) و زنجیره‌های استدلال متمرکز شده است، همان‌طور که در مدل‌های سری o شرکت OpenAI یا DeepSeek-R1 مشاهده می‌کنیم. با این حال، لین استدلال می‌کند که طولانی‌تر شدن ردپای استدلال (Reasoning Trace) لزوماً به معنای هوشمندتر شدن مدل نیست؛ بلکه تفکر باید بر اساس «حجم کاری هدف» (Target Workload) شکل بگیرد، نه صرفاً برای کسب نمرات بالاتر در بنچمارک‌ها.

خانواده مدل‌های Qwen و بنچمارک‌ها

لین در یک بررسی جامع از خانواده Qwen، چندین مدل کلیدی را مورد تحلیل قرار می‌دهد: QwQ-32B، Qwen2.5-Max، Qwen3، Qwen2.5-VL و Qwen2.5-Omni. این طیف وسیع، دیدگاهی جامع از تکامل پروژه Qwen ارائه می‌دهد. برای مستند کردن این پیشرفت‌ها، لین از نمودارهای بنچمارکی استفاده می‌کند که Qwen را در برابر رقبای سنگینی مانند DeepSeek-R1، Grok 3 Beta، Gemini 2.5 Pro و سری o OpenAI قرار می‌دهد. این رقابت در حوزه بهینه‌سازی مدل‌ها شدت یافته است، به‌طوری که برای مثال مدل DeepSeek V4 Flash توانسته است هزینه‌های استنتاج را به شدت کاهش دهد تا کارایی مدل‌های پیشرفته را برای کاربران ارتقا دهد.

مدل Qwen3 نشان‌دهنده یک جهش بزرگ در دسترس‌پذیری و جامعیت است. لین اشاره می‌کند که این مدل پشتیبانی چندزبانه خود را از ۲۹ زبان به ۱۱۹ زبان و گویش مختلف گسترش داده است. همچنین برای اطمینان از دسترسی جامعه متن‌باز (Open-source)، این مدل‌ها تحت لیسانس Apache 2.0 منتشر شده و در قالب‌های کوانتیزه متنوعی از جمله GGUF، GPTQ، AWQ و MLX در دسترس هستند.

معماری Qwen3 و تفکر ترکیبی

در یک تحلیل فنی دقیق از خانواده Qwen3، لین بر پیچیدگی پیاده‌سازی «تفکر ترکیبی» (Hybrid Thinking) تأکید می‌کند. این ویژگی به مدل اجازه می‌دهد تا بین یک حالت استدلال گام‌به‌گام (Step-by-step reasoning) و یک حالت پاسخ سریع و تقریباً آنی جابه‌جا شود.

طبق گزارش فنی Qwen3 (arXiv:2505.09388)، این خانواده از مدل‌ها طیفی از ۰.۶ تا ۲۳۵ میلیارد پارامتر را پوشش می‌دهند. جزئیات معماری به شرح زیر است:

مدل‌های متراکم کوچک (۰.۶ تا ۴ میلیارد پارامتر): شامل Qwen3-0.6B (۲۸ لایه)، Qwen3-1.7B (۲۸ لایه) و Qwen3-4B (۳۶ لایه). این مدل‌ها Embeddingهای ورودی و خروجی را به هم پیوند می‌دهند (Tying) و از پنجره زمینه ۳۲ هزار توکنی استفاده می‌کنند. همچنین از ترکیب ۱۶/۸ یا ۳۲/۸ سر (Heads) برای Q/KV بهره می‌برند.
مدل‌های متراکم بزرگتر (۸ تا ۳۲ میلیارد پارامتر): شامل Qwen3-8B (۳۶ لایه)، Qwen3-14B (۴۰ لایه) و Qwen3-32B (۶۴ لایه). در این مدل‌ها پیوند Embedding حذف شده و پنجره زمینه به ۱۲۸ هزار توکن extended شده است. این نسخه‌ها از ۳۲/۸ یا ۶۴/۸ سر استفاده می‌کنند.
نسخه‌های MoE (ترکیب خبره‌ها): مدل‌های Qwen3-30B-A3B (۴۸ لایه) و Qwen3-235B-A22B (۹۴ لایه)، هر دو از پنجره زمینه ۱۲۸ هزار توکنی بهره می‌برند. در این مدل‌های Mixture-of-Experts، برای هر توکن تنها ۸ خبره از مجموع ۱۲۸ خبره فعال می‌شوند.

لین توضیح می‌دهد که ادغام «حالت تفکر» و «حالت دستوری» (Instruct Mode) بنیاداً دشوار است زیرا این دو در جهت‌های متضاد حرکت می‌کنند؛ مدل‌های دستوری برای ایجاز (Brevity) و تأخیر کم (Low Latency) پاداش می‌گیرند، اما مدل‌های استدلالی برای صرف توکن‌های بیشتر روی یک مسئله تشویق می‌شوند. ادغام بی‌دقت منجر به استدلال‌های «متورم» (Bloated) و کاهش دقت در پاسخ‌های دستوری می‌شود.

برای مقابله با این مشکل، Qwen3 از یک خط لوله چهارمرحله‌ای پس-آموزش (Post-training) استفاده کرد که شامل: یک شروع سرد (Cold Start) با زنجیره تفکر طولانی (long-CoT)، یادگیری تقویتی (RL) استدلالی و در نهایت یک مرحله ادغام حالت تفکر بود. با این حال، در اواخر سال ۲۰۲۵، خط تولید ۲۵۰۷ تغییر مسیر داد و به جای ادغام، نسخه‌های مجزای Instruct و Thinking را عرضه کرد. لین این موضوع را یک «مشکل داده‌ای» می‌بیند و به شرکت Anthropic به عنوان یک الگوی اصلاحی اشاره می‌کند؛ مدل Claude 3.7 Sonnet به صورت ترکیبی و با بودجه‌ای که کاربر تعیین می‌کند عرضه شد، در حالی که Claude 4 اجازه داد استدلال با استفاده از ابزارها در کارهای طولانی‌مدت در هم تنیده شود.

از استدلال به تفکر عامل‌محور

لین تمایزی آشکار بین دو دوران توسعه هوش مصنوعی قائل می‌شود. دوران اول «تفکر استدلالی» بود که ثابت کرد یادگیری تقویتی (RL) نیازمند پاداش‌های قطعی و قابل تأیید است؛ به همین دلیل ریاضیات، برنامه‌نویسی و منطق به ستون‌های اصلی آموزش تبدیل شدند. این دوران، RL را به یک مسئله سیستمی در مقیاس بزرگ برای اجراهای متوالی (Rollouts) و تأیید صحت تبدیل کرد.

دوران دوم «تفکر عامل‌محور» است که بر «تفکر برای عمل کردن» تمرکز دارد. برخلاف استدلال محض، تفکر عامل‌محور باید چندین چالش دنیای واقعی را حل کند:

تعیین لحظه دقیق برای توقف تفکر و اجرای یک اقدام (Action).
انتخاب ابزار صحیح و ترتیب بهینه فراخوانی آن‌ها.
پردازش مشاهدات نویزی یا ناقص از یک محیط خارجی.
بازبینی پویا برنامه‌ها پس از وقوع یک شکست.
حفظ انسجام در چندین نوبت گفتگو و فراخوانی‌های متعدد ابزاری.

لین این دو رویکرد را در ابعاد مختلف با هم مقایسه می‌کند:

بُعد مقایسه	تفکر استدلالی (Reasoning)	تفکر عامل‌محور (Agentic)
معیار سنجش	کیفیت تاملات داخلی	پیشرفت مستمر در حین عمل
سیگنال پاداش	پاسخ‌های قابل تأیید (ریاضی، کد)	موفقیت در تکلیف در محیط تعاملی
موضوع محوری	خودِ مدل	مدل به علاوه محیط آن (Harness)
گلوگاه زیرساختی	Rolloutها و به‌روزرسانی پایدار سیاست	سرورهای ابزار و محیط‌های ایزوله
شکست اصلی	ردپای استدلالی پرطول و کم‌ارزش	سوءاستفاده از پاداش از طریق نشت ابزار/محیط

مهندسی محیط عامل (Agentic Harness)

فراتر از مدل، لین تأکید می‌کند که گلوگاه زیرساختی تغییر مکان داده است. در RL استدلالی، مسیرهای اجرا (Rollouts) خودکفا هستند. اما در RL عامل‌محور، سیاست مدل (Policy) باید درون یک «هارنس» یا محیط شامل سرورهای ابزار، مرورگرها، ترمینال‌ها و سندباکس‌ها زندگی کند.

او استدلال می‌کند که آموزش و استنتاج باید به طور کامل از هم جدا شوند تا از فروپاشی نرخ خروجی (Throughput) در زمان اجرا جلوگیری شود. اگر یک عامل کدنویس مجبور باشد برای تولید توکن بعدی، منتظر پایان اجرای واقعی تست در محیط بماند، بهره‌وری GPU به شدت افت می‌کند و فرآیند آموزش دچار گرسنگی داده می‌شود. این جداسازی برای حفظ سرعت مورد نیاز در RL مؤثر، حیاتی است.

علاوه بر این، لین پیشنهاد می‌کند که صنعت باید از وسواس روی تنوع داده‌ها (که مشخصه دوران SFT بود) دست بردارد و در عوض بر «کیفیت محیط» تمرکز کند. این به معنای اطمینان از این است که سندباکس‌ها پایدار، واقع‌گرایانه و در برابر «سوءاستفاده از پاداش» (Reward Hacking) مقاوم باشند؛ جایی که مدل‌ها راه‌های جعلی برای تحریک سیگنال موفقیت پیدا می‌کنند بدون اینکه واقعاً تکلیف را حل کنند. او Reward Hacking را سخت‌ترین مسئله می‌داند زیرا دسترسی به ابزارها، سطح حمله را برای خطاهای بهینه‌سازی گسترش می‌دهد.

کاربردهای عملی در Qwen3

برای توسعه‌دهندگان، این قابلیت ترکیبی از طریق پرچم enable_thinking در قالب چت (Chat Template) فعال می‌شود. تنظیم enable_thinking=True باعث فعال شدن حالت استدلال گام‌به‌گام می‌شود و خروجی را در بلوک‌های <think>...</think> می‌پیچد. کاربران همچنین می‌توانند این حالت را در هر نوبت گفتگو با افزودن /think یا /no_think به پیام‌های خود تغییر دهند.

from transformers import AutoModelForCausalLM, AutoTokenizer
name = "Qwen/Qwen3-8B"
tok = AutoTokenizer.from_pretrained(name)
model = AutoModelForCausalLM.from_pretrained(name, torch_dtype="auto", device_map="auto")

messages = [{"role": "user", "content": "Refactor this function and explain the change."}]
text = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True, enable_thinking=True)
inputs = tok(text, return_tensors="pt").to(model.device)

# تنظیمات نمونه‌برداری توصیه شده توسط Qwen برای حالت تفکر
out = model.generate(**inputs, max_new_tokens=2048, temperature=0.6, top_p=0.95, top_k=20)

این سطح از کنترل، امکان ایجاد «بودجه‌های تفکر پویا» (Dynamic Thinking Budgets) را فراهم می‌کند، به گونه‌ای که فراخواننده تعیین کند مدل حداکثر چقدر روی یک مسئله تأمل کند. لین این موضوع را با مثال‌های کاربردی توضیح می‌دهد:

عامل‌های کدنویسی: به جای ارائه یک وصله (Patch) واحد بر اساس Stack Trace، یک سیستم عامل‌محور محیط تست را اجرا می‌کند، خطای واقعی را می‌خواند و کد را آن‌قدر اصلاح می‌کند تا تمام تست‌ها پاس شوند. در اینجا تفکر به پیمایش کدبیس و سازماندهی ابزارها کمک می‌کند.
پژوهش عمیق (Deep Research): در حالی که یک مدل استدلالی پاسخی طولانی از حافظه می‌نویسد، یک سیستم عامل‌محور — مانند دموی Deep Research شرکت Qwen — پرسش را به زیرپرسش‌ها تقسیم کرده، جستجو را فراخوانی می‌کند، منابع ضعیف را حذف کرده و استنادات مستند (Grounded Citations) باز می‌گرداند.
سازماندهنی چند-عاملی (Multi-agent Orchestration): لین انتظار دارد «مهندسی هارنس» غالب شود؛ جایی که یک سازمان‌دهنده (Orchestrator) برنامه‌ریزی کرده و کارها را به زیر-عامل‌های متخصص ارجاع می‌دهد تا از آلودگی زمینه (Context Pollution) جلوگیری شود.

در نگاه به آینده، لین در بخش «کارهای آتی» خود چندین کلید موفقیت را شناسایی می‌کند: پیش-آموزش بیشتر، RL با بازخورد محیطی، پنجره‌های زمینه طولانی‌تر و پذیرش مودالیته‌های بیشتر.

گام بعدی شما

بررسی مستندات Qwen3 برای پیاده‌سازی enable_thinking در گردش‌کارهای خودکارسازی و مدیریت بودجه تفکر.
جایگزینی ارزیابی‌های مبتنی بر بنچمارک‌های ایستا با محیط‌های ایزوله (Sandbox) تعاملی برای تست واقعی عامل‌های AI.
مطالعه معماری MoE در مدل‌های Qwen3 برای بهینه‌سازی هزینه استنتاج و مدیریت فعال‌سازی Expertها.

این تحول در تفکر مدل‌ها تنها نیمی از ماجراست؛ اثر این تغییر بر سخت‌افزارهای نسل بعد را در تحلیل ما درباره تراشه‌های Blackwell بررسی کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بُعد مقایسه

تفکر استدلالی (Reasoning)

تفکر عامل‌محور (Agentic)

معیار سنجش

کیفیت تاملات داخلی

پیشرفت مستمر در حین عمل

سیگنال پاداش

پاسخ‌های قابل تأیید (ریاضی، کد)

موفقیت در تکلیف در محیط تعاملی

موضوع محوری

خودِ مدل

مدل به علاوه محیط آن (Harness)

گلوگاه زیرساختی

Rolloutها و به‌روزرسانی پایدار سیاست

سرورهای ابزار و محیط‌های ایزوله

شکست اصلی

ردپای استدلالی پرطول و کم‌ارزش

سوءاستفاده از پاداش از طریق نشت ابزار/محیط

from transformers import AutoModelForCausalLM, AutoTokenizer name = "Qwen/Qwen3-8B" tok = AutoTokenizer.from_pretrained(name) model = AutoModelForCausalLM.from_pretrained(name, torch_dtype="auto", device_map="auto") messages = [{"role": "user", "content": "Refactor this function and explain the change."}] text = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True, enable_thinking=True) inputs = tok(text, return_tensors="pt").to(model.device) # تنظیمات نمونه‌برداری توصیه شده توسط Qwen برای حالت تفکر out = model.generate(**inputs, max_new_tokens=2048, temperature=0.6, top_p=0.95, top_k=20)

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تغییر اولویت در Qwen: تفکر عامل‌محور جایگزین استدلال داخلی شد

خانواده مدل‌های Qwen و بنچمارک‌ها

معماری Qwen3 و تفکر ترکیبی

از استدلال به تفکر عامل‌محور

مهندسی محیط عامل (Agentic Harness)

کاربردهای عملی در Qwen3

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تغییر اولویت در Qwen: تفکر عامل‌محور جایگزین استدلال داخلی شد

خانواده مدل‌های Qwen و بنچمارک‌ها

معماری Qwen3 و تفکر ترکیبی

از استدلال به تفکر عامل‌محور

مهندسی محیط عامل (Agentic Harness)

کاربردهای عملی در Qwen3

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تغییر اولویت در Qwen: تفکر عامل‌محور جایگزین استدلال داخلی شد

خانواده مدل‌های Qwen و بنچمارک‌ها

معماری Qwen3 و تفکر ترکیبی

از استدلال به تفکر عامل‌محور

مهندسی محیط عامل (Agentic Harness)

کاربردهای عملی در Qwen3

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تغییر اولویت در Qwen: تفکر عامل‌محور جایگزین استدلال داخلی شد

خانواده مدل‌های Qwen و بنچمارک‌ها

معماری Qwen3 و تفکر ترکیبی

از استدلال به تفکر عامل‌محور

مهندسی محیط عامل (Agentic Harness)

کاربردهای عملی در Qwen3

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران