اگر امروز یک مدل زبانی را مستقر میکنید و میبینید که مدل شما از پاسخ به سوالات سر باز میزند یا جملات را به شکلی نامفهوم ادامه میدهد، احتمالاً یک مدل بنیادی را با یک دستیار گفتگو اشتباه گرفتهاید. باید بدانید که «هوش» یک مدل، کاملاً به ساختار پرامپتی که برای آن میسازید وابسته است.
بسیاری از کاربران واژه مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — را با ChatGPT مترادف میپندارند؛ اما این دو در واقع دو پله متفاوت از یک نردبان آموزشی هستند. طبق گزارشی در تاریخ ۱۶ ژوئن ۲۰۲۶ در وبسایت dev.to، حتی با وزنهای یکسان، یک مدل بسته به مرحله آموزش و فرمت پرامپت، سه رفتار کاملاً متفاوت نشان میدهد. همانطور که در تحلیلهای پیشین ما دربارهی معماری مدلهای بازمتن اشاره کردیم، این تفاوتها در لایههای عمیق بهینهسازی نهفته است.
برای درک این موضوع، از خانواده مدلهای SmolLM2-135M استفاده شده است که به دلیل اندازه کوچک، روی رایانههای معمولی نیز اجرا میشوند. بر اساس مستندات فنی این راهنما، سه مرحله کلیدی وجود دارد:
- بنیاد (Foundation): مدل فقط برای پیشبینی توکن بعدی آموزش دیده است. این مدل شبیه یک «تکمیلکننده متن نابغه» است. اگر از او بپرسید «پایتخت فرانسه کجاست؟»، او ممکن است به جای پاسخ، لیستی از سوالات مشابه را برای شما بنویسد.
- دستور-محور (Instruct): مدل بنیادی از طریق تنظیم دقیق (Fine-tuning) — مثل وقتی به یک پزشک عمومی، تخصص پوست میدهیم تا روی یک حوزه دقیق شود — روی جفتهای «دستور-پاسخ» آموزش میبیند. این مدل برای فعال شدن نیاز به قالبهای خاصی (مانند
<|im_start|>user) دارد، در غیر این صورت دوباره به حالت پرتوپلاگ برمیگردد. در واقع مدیریت صحیح این ورودیها برای جلوگیری از خطاهای احتمالی حیاتی است، موضوعی که در بررسی جایگزینی پرامپت با ماشین حالت برای توقف خطاهای ابزاری نیز به آن پرداختیم. - گفتگو-محور (Chat): در واقع همان مدل Instruct است که توسط یک لیست پیامهای چندمرحلهای هدایت میشود تا بتواند تاریخچه گفتگو را به خاطر بسپارد.
به نقل از نویسندگان این راهنما، شکاف بین مدل بنیادی و مدل گفتگو تنها مربوط به حجم دادهها نیست، بلکه یک «قرارداد» جدید است: مدل میآموزد که یک سوال لایق یک پاسخ مستقیم است و پیامهای قبلی، زمینه لازم برای جواب را فراهم میکنند. برای بهینهسازی این تجربه و جلوگیری از فراموشی زمینه در گفتگوهای طولانی، میتوان از متدهای تکفایلی مانند Dory برای حذف اتلاف وقت بهره برد.
گام بعدی شما
- متد
apply_chat_templateدر کتابخانه Hugging Face را امتحان کنید تا لایههای پنهانی که مدلها دریافت میکنند ببینید. - مدلهای کوچکتر مثل SmolLM2-135M را برای تست ساختارهای پرامپت به کار ببرید تا هزینه استنتاج شما کاهش یابد.
- تفاوت پاسخهای مدل SmolLM2-360M-Instruct را با نسخه بنیادی آن مقایسه کنید تا جهش کیفیت را لمس کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک اینکه چگونه مدلهای کوچک در حال بلعیدن مدلهای غولپیکر هستند، به تحلیل ما دربارهی مدلهای زبانی کوچک (SLM) مراجعه کنید.




گفتگو