اگر امروز از چتباتها برای نوشتن ایمیل یا کد استفاده میکنید، باید بدانید که شما با یک «مغز بدون دست و پا» طرف هستید. یک مدل زبانی بزرگ (LLM) استاندارد، در واقع چیزی جز یک «پیشبینیکننده کلمه بعدی» نیست؛ مغزی که نه دست دارد، نه پا و نه حافظهای بلندمدت. این مدلها تنها متن پیشین را میبینند و حدس میزنند کلمه بعدی چه باید باشد. بدون ساختار افزودنی، توانایی انجام هیچ فعالیت واقعی در دنیای خارج از پنجرهٔ متن را ندارند.
طبق یک راهنمای جامع و دقیق که در ۱ جولای ۲۰۲۶ در وبسایت dev.to منتشر شد، برای تبدیل یک مدل زبانی بزرگ — که شبیه کتابخانهداری است که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — به یک عامل (Agent) که واقعاً به نیابت از شما کار کند، باید هفت لایه معماری خاص را روی هسته مدل سوار کرد. تفاوت این دو رویکرد، دقیقاً شبیه تفاوت بین مشاور است که فقط توصیه میکند و کارمندی است که مستقیماً وارد کامپیوتر شما میشود تا یک باگ را رفع کند. در حالت اول، شما با یک چتبات ساده طرف هستید، اما در حالت دوم، با هوش مصنوعی عاملمحور (Agentic AI) روبرو هستید که هدفش تنها صحبت کردن نیست، بلکه «اجرا کردن» است.
همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، هر لایه جدید از دسترسی، سطح جدیدی از ریسک و پتانسیل را ایجاد میکند. در حالت پایه، تجربه کاربر بسیار محدود است: مدل نمیداند امروز چه تاریخی است (به دلیل تاریخ قطع آموزش)، تاریخچه گفتگوهای دیروز را فراموش میکند، نمیتواند در اینترنت جستوجو کند و هیچ مجوزی برای دسترسی به فایلهای شما ندارد. برای عبور از این محدودیتها و تبدیل مدل به یک نیروی عملیاتی، لایههای زیر تعریف میشوند:
معماری هسته
نخستین لایه، پرامپت سیستمی (System Prompt) است که مانند یک شرح شغلی عمل میکند. این لایه هویت، نقش و قوانین عملیاتی مدل را تعیین میکند. برای مثال، میتوان به مدل دستور داد: «تو یک دستیار هوش مصنوعی به نام هرمس هستی. تو روی دستگاه لینوکس کاربر کار میکنی. پاسخهای خود را به زبان تایلندی بنویس تا خواندن آنها ساده و دوستانه باشد». بدون این لایه، مدل فاقد یک شخصیت ثابت یا مرز عملیاتی است و صرفاً یک پیشبینیکننده کلمات باقی میماند، نه دستیاری که هویتی مشخص داشته باشد.
لایه دوم، استفاده از ابزار (Tool Calling) است که در واقع «دست و پای» مدل محسوب میشود. از آنجا که مدلهای زبانی در اصل متخصصان زبان هستند و نمیتوانند محاسبات ریاضی دقیق انجام دهند یا دادههای لحظهای را استخراج کنند، ابزارهایی به آنها داده میشود. این فرآیند به صورت گامبهگام عمل میکند:
- کاربر میپرسد: «هوای امروز بانکوک چطور است؟»
- مدل تصمیم میگیرد: «من باید تابع
get_weather(city='Bangkok')را فراخوانی کنم». - سیستم دستور را اجرا کرده و نتیجهای مانند
{ temp: 35, humidity: 70 }را دریافت میکند. - سیستم این نتیجه را دوباره به مدل بازمیگرداند و مدل در نهایت به کاربر میگوید: «امروز در بانکوک دما ۳۵ درجه و رطوبت ۷۰ درصد است».
نمونههایی از این ابزارها عبارتند از:
- جستوجوی وب: اجرای دستور
search("gold price today")برای یافتن دادههای جاری. - خواندن فایل: استفاده از
read_file("config.yaml")برای درک تنظیمات سیستم. - ترمینال: اجرای دستوراتی مثل
terminal("git status")برای بررسی وضعیت کنترل نسخه. - پایگاهداده: اجرای کوئریهایی مانند
query("SELECT * FROM users")برای بازیابی رکوردها.
برای مدیریت کارهای پیچیده، توسعهدهندگان حلقهٔ عامل (Agent Loop) را اضافه میکنند. این لایه مانع از پاسخهای عجولانه و تکمرحلهای میشود و مدل را مجبور به یک چرخه مداوم میکند: «فکر کن $\rightarrow$ ابزار را فراخوان $\rightarrow$ نتیجه را مشاهده کن $\rightarrow$ دوباره فکر کن». برای مثال، ایجاد یک فایل README مستلزم یک حلقه است: مدل ابتدا read_file("main.go") را فراخوانی میکند، سپس برای یافتن تمام فایلها search_files("*.go") را اجرا میکند، برای یافتن نام ماژول read_file("go.mod") را میخواند و تنها پس از این مراحل، دستور write_file("README.md") را صادر میکند.
لایههای شناختی پیشتاه
حافظه (Memory) به عامل اجازه میدهد ترجیحات کاربر را در طول جلسات مختلف به خاطر بسپارد. در حالی که «حلقه» یک تکوظیفه را مدیریت میکند، حافظه تداوم را تضمین میکند. اگر کاربر در جلسه اول بگوید: «من عمدتاً از زبان Go استفاده میکنم و این الگوی خاص را ترجیح میدهم»، مدل میتواند جلسه دوم را اینگونه شروع کند: «دفعه پیش اشاره کردید که تستهای Table-driven را میپسندید؛ آیا میخواهید در این پروژه هم از آن الگو استفاده کنم؟». حافظه، ترجیحات کاربر، توافقات قبلی (مانند «هرگز وبلاگ را بدون اجازه من منتشر نکن») و روشهای فنی موفق را ذخیره میکند.
استدلال (Reasoning) یا «بلند فکر کردن»، لایهای است که از خطاهای تکانشی و عجولانه جلوگیری میکند. فرض کنید کاربر به دنبال یک آپارتمان ۶۰ متری در بانکوک با قیمت ۷ تا ۸ میلیون است. مدل در این حالت مستقیماً به جواب نمیپرد، بلکه ابتدا استدلال میکند: «۱. به سایت led.go.th مراجعه کنم؛ ۲. فرم را پر کنم: نوع=آپارتمان، استان=بانکوک، قیمت=۷-۸ میلیون، متراژ $\ge$ ۶۰؛ ۳. کپچای انتهایی را مدیریت کنم؛ ۴. اگر form.submit() شکست خورد، از button.click() استفاده کنم؛ ۵. اگر در منطقه Huai Khwang نتیجهای نبود، محدوده جستوجو را گسترش دهم».
برای جلوگیری از اتلاف منابع محاسباتی در کارهای تکراری، مهارتها (Skills) به عنوان دستورالعملهای استاندارد عملیاتی (SOP) عمل میکنند. یک مهارت، در واقع فایلی است که حاوی یک روش اثباتشده است. به عنوان مثال، مهارت «بررسی موجودی deepseek-balance» شامل این مراحل است: ۱. خواندن کلید از ~/.bashrc ۲. فراخوانی curl https://api.deepseek.com/user/balance ۳. نمایش نتایج به زبان تایلندی. مدل این مهارت را بارگذاری میکند و کار را در ۳ ثانیه به پایان میرساند، بدون اینکه نیاز باشد دوباره روی منطق آن استدلال کند.
در نهایت، سامانه چندعاملی (Multi-Agent) اجازه میدهد یک هوش مصنوعی اصلی، زیر-عاملهایی را برای کارهای موازی ایجاد کند. اگر پروژهای شامل تحقیق درباره Go 1.27، نوشتن یک وبلاگ و انتشار آن باشد، عامل اصلی یک زیر-عامل برای تحقیق و یکی دیگر برای طراحی ساختار ایجاد میکند. سپس نتایج را ترکیب کرده تا پست نهایی را تکمیل کند. این ساختار دقیقاً مشابه یک تیم حرفهای است و زمان تحویل پروژه را بهشدت کاهش میدهد.
این رویکرد لایهبندی توضیح میدهد چرا پروتکلهای مدرن مانند MCP (پروتکل زمینه مدل) برای استانداردسازی نحوه ارائه ابزارها به AI، RAG (تولید بازیابی-افزا) برای اجازه دادن به مدل جهت خواندن اسناد پیش از پاسخگویی، و ACP (پروتکل کلاینت عامل) برای استانداردسازی ارتباط بین شناسهها و عاملها، در حال gaining traction یا کسب محبوبیت هستند.
برای کسانی که به دنبال پیادهسازی این الگوها هستند، ابزارهایی مانند Aider نمونه بارزی از هوش مصنوعی عاملمحور برای برنامهنویسی جفت (Pair Programming) در ترمینال است، و شرکت Anthropic راهنمایهای بنیادی برای ساخت سیستمهای عاملمحور کارآمد ارائه میدهد.
گام بعدی شما
- بررسی ابزار Aider برای تجربه مستقیم برنامهنویسی جفت در محیط ترمینال.
- مطالعه راهنمای Anthropic برای پیادهسازی سیستمهای عاملمحور در مقیاس سازمانی.
- آزمایش مدلهای استدلالی جدید برای مشاهده نحوه فعال شدن لایه Reasoning در پاسخها.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو