اگر هنوز سعی میکنید با نوشتن پرامپتهای طولانی، «شخصیت» به عاملهای هوش مصنوعی خود بدهید، دارید مسیر اشتباهی را میروید. حقیقت این است که تنوع رفتاری واقعی نه از دستورات پیچیده، بلکه از تفاوتهای ساختاری مدلها میآید.
توسعهدهندگان اکنون به سمت رایانش لبه (Edge Computing) — یعنی اجرای پردازشها روی خود دستگاه به جای ابر — حرکت میکنند. در این مسیر، سختترین چالش این است که مدلهای زبانی کوچک (SLM) — که شبیه متخصصان تکحوزه هستند و برخلاف مدلهای غولپیکر، فقط روی چند موضوع تسلط دارند — خشک و یکنواخت به نظر نرسند. همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، محدودیتهای سختافزاری همیشه فرصتی برای نوآوری در معماری بودهاند.
طبق گزارش فنی HuggingFace در ۶ ژوئن ۲۰۲۶، پروژهی Thousand Token Wood v2 ثابت کرد که یک «شورای مدلهای ناهمگون» بسیار موثرتر از یک مدل واحد است. این سیستم با استفاده از vLLM 0.22.1، چهار مدل متمایز را مدیریت میکند:
- gpt-oss-20b از OpenAI
- MiniCPM3-4B از OpenBMB
- Nemotron-Mini-4B از NVIDIA
- یک مدل Qwen 0.5B که تحت تنظیم دقیق (Fine-tuning) — شبیه وقتی که به یک پزشک عمومی، تخصص پوست میدهیم تا در یک حوزه دقیق شود — قرار گرفته است.
بر اساس مستندات این پروژه، مدل ۰.۵ میلیارد پارامتری پس از تنظیم دقیق، با ثبت ۰٪ خرید از خود و ۱۰۰٪ پیشنهادهای معتبر، حتی از مدل معلم ۳ میلیارد پارامتری خود هم بهتر عمل کرد. تیم توسعه برای پایداری این شبیهسازی، یک لایهی اصلاحکنندهی JSON اضافه کردند تا خطاهای فرمتبندی مدلهای مختلف را بگیرند. همچنین برای رفع خطاهای بارگذاری، از یک ایمیج CUDA devel استفاده شد.
این رویکرد، تمرکز را از «مقیاس مدل» به «پایداری لایهی سرویسدهنده» تغییر میدهد. نوآوری اصلی در اینجا ایجاد یک «دیوار آتش حقیقت» است؛ جایی که اطلاعات محرمانه کاملاً خارج از پرامپت قرار دارند تا جلوی توهم (Hallucination) — همان حالتهایی که مدل با اطمینان چیزی میگوید که اصلاً وجود ندارد — گرفته شود. این یعنی پیچیدگی رفتاری از محدودیتهای معماری میآید، نه فقط با افزودن پارامترهای بیشتر.
گام بعدی شما
- ردپای باز (Open Traces) این شورای مدلها را تحلیل کنید تا بفهمید تعاملات مدلهای کوچک چگونه شکل میگیرد.
- به جای افزایش تعداد پارامترها، روی محدود کردن حافظه و ساختارهای جایگزین تمرکز کنید.
- بررسی کنید آیا این معماری در گردشکارهای سازمانی واقعی کاربرد دارد یا خیر.
این تنها آغاز ماجراست؛ اثر موجگونهی این تصمیم بر اکوسیستم مدلهای بازمتن را در گزارش بعدی بررسی خواهیم کرد.
گفتگو