آیا یک مدل میتواند فراتر از نوشتن یک شعر عمل کند؟ طبق دادههای ۲۵ ژوئن ۲۰۲۶، پرطرفدارترین پژوهشهای Hugging Face پاسخ را در چرخش قاطع به سمت «هوش مصنوعی عاملمحور» (Agentic AI) میجویند؛ سیستمهایی که قادر به بهخاطرسپاری، شبیهسازی و اقدام برای اجرای وظایف پیچیده در دنیای فیزیکی یا دیجیتال هستند. روندها کاملاً شفاف هستند: تمرکز متراکم مقالات بر روی عاملها (Agents)، سیستمهای حافظه، هوش مصنوعی بومی سیستمعامل، محکهای کشفیات علمی و مدلهای چندوجهی در زمان واقعی.
این تغییر زمانی رخ میدهد که صنعت از عصر «پرامپت و پاسخ» عبور میکند. همانطور که در تحلیل قبلی ما دربارهی محدودیتهای لورا (LoRA) اشاره کردیم (https://www.dothoosh.com/article/hugging-face-lora-is-not-always-the-best-fine-tuning-choice)، بهینهسازی پارامترها دیگر اولویت اول نیست. بر اساس بررسی منابع متعدد، اکنون تغییرات معماری در حافظه و ادغام با سیستمعامل (OS) برای توسعهدهندگان حیاتیتر شده است. برای یک توسعهدهنده، این بدان معناست که هدف دیگر ساخت یک چتبات بهتر نیست، بلکه خلق یک اپراتور خودگردان و قابلاعتماد است. این گذار به سمت خودگردانی، یادآور تحولات اخیر در شرکتهای پیشرو است که در آن عاملهای هوش مصنوعی بخش بزرگی از کدهای تولیدی را به دست گرفتهاند و مرز میان ابزار و توسعهدهنده را کمرنگ کردهاند.
ظهور مدلهای دنیای عملیاتی
یکی از تاثیرگذارترین مقالات، Qwen-AgentWorld، مفهومی به نام «مدل دنیای زبانی» را معرفی میکند. به نقل از این پژوهش، عاملهای هوش مصنوعی بهطور سنتی از طریق محیطهای واقعی یا شبیهسازهای محدود یاد میگیرند که بسیار هزینهبر است و مقیاسبندی آن در حوزههای مختلف، بهویژه برای وظایف بلندمدت، دشوار است.
به جای تکیه بر موتورهای فیزیک گرانقیمت یا شبیهسازهای محدود، Qwen-AgentWorld وضعیت محیط، تغییرات وضعیت و پاداشها را کاملاً از طریق زبان بازنمایی میکند. این رویکرد به عامل اجازه میدهد تا سناریویی را در قالب متن «تصور» کرده و پیش از اجرای واقعی در دنیای خارجی، اقدامات خود را تمرین کند. در واقع، این روشی است تا عاملها پیش از پذیرفتن ریسکهای دنیای واقعی، «خود-تمرینی» (Self-rehearse) کنند.
از نظر فنی، این دستاورد از طریق ترکیب موارد زیر حاصل شده است:
- مدلسازی انتقال وضعیت بر پایه زبان (Language-based state transition modeling)
- استدلال پیشبینی وضعیت بعدی (Next-state prediction reasoning)
- یادگیری تقویتی عاملمحور با مکانیسم پاداش ترکیبی که هم از rubrics (معیارهای ارزیابی) و هم از قوانین (rules) استفاده میکند.
این رویکرد بهویژه برای دستیارهای هوشمند با نیاز به برنامهریزی بلندمدت، عاملهایی که اتوماسیون دستکاری وب و اپلیکیشن را انجام میدهند و سناریوهایی که شبیهسازی سنتی در آنها بسیار پیچیده است، کاربرد دارد. اگر این متد با موفقیت مقیاسپذیر شود، میتواند زیربنایی برای عاملهای عمومی فراهم کند که قادر باشند تقریباً هر حوزهای را پیش از اقدام، بهصورت متنی شبیهسازی کنند. این توانایی در شبیهسازی و اقدام، پتانسیلهای خطرناکی نیز ایجاد میکند؛ همانطور که گزارشها از ظهور اولین حملات سایبری تمامخودگردان در اکوسیستم AI حکایت دارد.
سیستمهای حافظه بومیِ عامل
در کنار این تحول، تلاشهای گستردهای برای حل مشکل «فراموشی» در جریان است. عاملهای مدرن به چیزی بیش از یک پنجرهٔ زمینه (Context Window) کوتاه نیاز دارند؛ آنها به حافظه بلندمدت نیاز دارند تا هویت کاربر، وظایف تکمیلشده و اطلاعات حیاتی که باید در طول زمان بهروزرسانی یا حذف شوند را بهخاطر آورند.
مقاله Are We Ready For An Agent-Native Memory System? استدلال میکند که افزودن سادهٔ یک پایگاهداده برداری (Vector Database) کافی نیست. این پژوهش حافظه را نه صرفاً یک ابزار ذخیره، بلکه یک مسئلهٔ مدیریت داده میبیند و فرآیند را به مراحل مشخصی تقسیم میکند:
- ذخیرهسازی و بازنمایی: نحوه رمزگذاری (Encoding) دادهها در حافظه.
- استخراج: جداسازی اطلاعات مرتبط از میان حجم زیاد دادهها.
- بازیابی و مسیریابی: فراخوانی دادهها و هدایت آنها به فرآیند پردازشی درست.
- نگهداری و بهروزرسانی: تصمیمگیری در مورد اینکه چه زمانی اطلاعات باید بهروز شوند یا فراموش گردند.
این مقاله به جای ارائه یک الگوریتم واحد، چارچوبی سیستماتیک برای ارزیابی «سیستمهای حافظه بومی عامل» بر اساس چندین شاخص کلیدی عملکرد (KPI) تعریف کرده است:
- دقت بازنمایی (Representation fidelity): میزان صحت و دقت مدل در ذخیره اطلاعات.
- دقت بازیابی (Retrieval precision): اینکه تا چه حد دادههای درست و مرتبط استخراج میشوند.
- صحت بهروزرسانی (Update correctness): میزان دقت در تغییر و اصلاح خاطرات موجود.
- پایداری افق بلند (Long-horizon stability): حفظ سازگاری و ثبات اطلاعات در بازههای زمانی طولانی.
- موازنه هزینه-عملکرد: تعادل میان عمق حافظه و هزینههای محاسباتی مربوط به آن.
این چارچوب برای توسعهدهندگانی که دستیاران شخصی سطح تولید (Production-grade)، عاملهای پشتیبانی مشتری یا کوپایلتهای شرکتی میسازند که باید به سیاستهای سختگیرانه شرکتی، ترجیحات کاربر و سوابق کاری تاریخی پایبند باشند، ضروری است.
ورود به حوزههای علمی و کنترل رابط کاربری
هوش مصنوعی اکنون به جریانهای کاری حرفهای با ریسک بالا نفوذ کرده است. NatureBench بررسی میکند که آیا عاملهای کدنویس میتوانند با نتایج پیشرو (SOTA) در مقالات علمی خانواده Nature رقابت کنند یا خیر. این محک (Benchmark) شامل ۹۰ وظیفه علمی بینرشتهای است که طراحی شده تا تست کند آیا یک عامل میتواند متدهایest-standard را بازتولید کند یا در کشفیات واقعی شرکت نماید.
یافتهها تکاندهنده است: در حالی که عاملها «مهندسان پیادهسازی» فوقالعادهای هستند و میتوانند متدهای علمی را به کد تبدیل کنند، اما هنوز در ایجاد گسستهای خلاقانه مورد نیاز برای کشف مفاهیم علمی ناتواناند. آنها بیشتر شبیه تکنسینهای بسیار ماهرند تا دانشمندان نوآور. این نتیجه به آزمایشگاهها و استارتاپهای AI-for-science کمک میکند تا انتظارات واقعبینانهای داشته باشند: هوش مصنوعی از اجرا و بازتولید پشتیبانی میکند، اما هنوز نه از گسستهای مفهومی.
همزمان، فاصله بین AI و سختافزار موبایل در حال کاهش است. MemGUI-Agent شکست عاملهای موبایل در وظایف افق بلند (مثل رزرو سفر، خرید کالا، پیکربندی اپلیکیشنها یا پر کردن فرمهای طولانی) را تحلیل میکند. این شکستها معمولاً به این دلیل رخ میدهند که عاملها زمینه (Context) را در میان صفحات متعدد گم میکنند.
این سیستم مفهوم «زمینه بهعنوان اقدام» (ConAct) را معرفی میکند و مدیریت زمینه را نه یک پنجره غیرفعال، بلکه یک گام پیشکنشی (Proactive) در زنجیره اقدام میبیند. ساختار این سیستم شامل موارد زیر است:
- تاریخچه اقدامات تاشده (Folded action history): سوابق فشرده از گامهای قبلی برای صرفهجویی در فضای پردازشی.
- وضعیت رابط کاربری تاشده (Folded UI state): بازنماییهای سادهشده از رابط کاربری.
- سوابق گامهای اخیر: ردیابی با دقت بالا از اتفاقات کاملاً نزدیک.
در سطح عمیقتر، AOHP یک ابزار (Harness) متنباز برای ادغام عامل در سطح سیستمعامل است. برخلاف عاملهای سنتی که به صورت اپلیکیشن «روی» یک سیستمعامل اجرا میشوند، AOHP عامل را به عنوان یک جزء بومی در Android ادغام میکند. این یعنی عامل به یک شهروند درجهیک (First-class citizen) در سیستم تبدیل میشود و امکانات زیر فراهم میگردد:
- ترکیب خدمات شخصیسازیشده: تطبیق رفتار هوش مصنوعی با محیط خاص سیستمعامل هر کاربر.
- رابطهای کاربری بهینه: کاهش سربار (Overhead) تعاملات در سطح اپلیکیشن.
- جریان اطلاعات امن: اجرای سیاستهای امنیتی بومی برای دسترسی به دادهها.
اگر این پروژه کاملاً محقق شود، AOHP آیندهای را ترسیم میکند که در آن عامل دیگر یک اپلیکیشن نیست، بلکه لایهای از زیرساخت سیستمعامل است که مدیریت امن و بهینه دستگاههای سازمانی را ممکن میسازد.
چندوجهی بودن در زمان واقعی و معماریهای جدید
هوش مصنوعی بصری از پس-پردازش (Post-processing) به سمت هدایت در لحظه حرکت میکند. ShutterMuse از مدلهای زبانی چندوجهی (MLLM) برای راهنمایی عکاس در لحظه ثبت عکس (Capture-time) استفاده میکند و فراتر از ویرایش عکسهای گرفتهشده عمل میکند. این مدل توصیههای بلادرنگ درباره ترکیببندی (Composition) برای عکاس و ژستهای پیشنهادی برای سوژه ارائه میدهد.
برای دستیابی به این هدف، پژوهشگران یک مدل چندوجهی unified بر اساس یک مجموعه داده و محک خاص توسعه دادند. آنها از هر دو روش «تنظیم دقیق نظارتشده» (SFT) و «تنظیم دقیق تقویتی» (RLFT) برای بهبود کیفیت زیباییشناختی راهنماییها استفاده کردند. این فناوری کاربردهای مستقیمی در اپلیکیشنهای دوربین هوشمند، تجارت الکترونیک، عکاسی عروسی و سفر و تولید محتوای اجتماعی دارد.
در مقابل، DomainShuttle بر تولید ویدیو از متن با محوریت «ثبات سوژه» (Subject-driven) در دامنههای باز تمرکز دارد. مدلهای استاندارد اغلب در حفظ هویت سوژه مشکل دارند یا فقط در دامنههای محدود عمل میکنند. DomainShuttle این مشکل را با مدلسازی دامنه و سه مؤلفه فنی حل میکند:
- Domain-aware AdaLN: نرمالسازی لایه تطبیقی برای درک زمینه حوزه.
- Video-Reference DualRoPE: رمزگذاریهای موقعیت پیشرفته برای تصاویر مرجع.
- Cross-Pair Consistent Loss: تضمین سازگاری بین تصویر مرجع و ویدیوی تولید شده.
این رویکرد برای تبلیغات شخصیسازیشده، مارکتینگ و پیشتجسم استودیویی (Previsualization) که در آن حفظ ثبات سفیر برند یا شخصیتها حیاتی است، بسیار تجاری و کاربردی است.
برای تعاملات زنده، Wan-Streamer v0.1 یک مدل بنیادی استریمینگ پایانبه-پایان است. بسیاری از مدلهای چندوجهی برای تماسهای ویدئویی یا پخشهای زنده بیش از حد کند هستند. Wan-Streamer از یک مکانیسم توجه علی (Causal Attention) برای پردازش جریانهای مداوم دادههای صوتی-بصری-متنی با تأخیر (Latency) بسیار کم استفاده میکند.
معماری فنی آن بر سه پایه استوار است:
- توجه بلوک-علی (Block-causal attention): مدیریت بهینه دادههای متوالی.
- رمزگذار/رمزگشای علی (Causal encoder/decoder): به حداقل رساندن وقفه پردازشی.
- زمانبندی توکنهای چندوجهی: هماهنگسازی توکنهای صوتی، بصری و متنی در لحظه.
این تکنولوژی کلید ساخت میزبانهای لایو AI، دستیارهای تماس ویدیویی و رباتهای گفتگو-محور است که باید در یک خط زمانی واقعی «زندگی» کنند.
در نهایت، معماری بنیادین مدلهای زبانی (LLMs) به چالش کشیده شده است. مقاله Improved Large Language Diffusion Models (با کد 2606.25331) برتری مطلق تولیدات خودبازگشتی (Autoregressive یا چپ-به-راست) را زیر سؤال میبرد. مدلهای خودبازگشتی در موازیسازی و بهرهبرداری از زمینه دوطرفه محدود هستند.
این مدل با استفاده از رویکرد «انتشار ماسکدار» (Masked Diffusion) با توجه دوطرفه کامل، توالی توکنها را به جای تولید متوالی، از طریق یک فرآیند حذف نویز (Denoising) پالایش میکند. این معماری در محکهای زیر نتایج رقابتی یا حتی برتر نشان داده است:
- BBH (Big-Bench Hard)
- ARC-Challenge
- MATH
- HumanEval
ویژگیهای قابل توجه این مدل شامل تولید با طول متغیر و مکانیسم امتیازدهی مبتنی بر اعتماد (Confidence-based scoring) است. این بدان معناست که آینده تولید متن، یک فرآیند پالایش جهانی (Global Refinement) است که بهویژه برای سازگاری کد در بلندمدت و ویرایش کلی متن بسیار مفید است.
تکامل هوش کدنویسی
فراتر از مدلهای خاص، حوزه گستردهتر هوش کدنویسی در حال توسعه است. یک بررسی ساختاری جدید روی هوش کدنویسی چندوجهی استدلال میکند که تبدیل زبان طبیعی به کد (NL2Code) دیگر کافی نیست. AI مدرن باید بتواند عناصر رابط کاربری (GUI)، بصریسازیهای علمی و گرافیکهای ساختاریافته را بفهمد تا بتواند کد را بهدقت تولید یا تحلیل کند.
این بررسی چهار جهت حیاتی برای آینده صنعت را برجسته میکند:
- ردپاهای قابل تأیید عامل (Verifiable agent traces): توانایی اثبات اینکه یک عامل چگونه به یک قطعه کد خاص رسیده است.
- اعتبارسنجی چند-سیگنالی: استفاده از ورودیهای دادهای متنوع برای تأیید صحت کد.
- تأیید چند-وضعیتی: تست کد در وضعیتهای عملیاتی مختلف.
- انتقالپذیری بین-وظیفهای: توانایی اعمال منطق کدنویسی یک حوزه در حوزهای دیگر.
این منبع برای هر کسی که در حال ساخت عاملهای GUI یا استارتاپهایی برای تبدیل نمودارها و تصاویر به اپلیکیشنهای کاربردی است، یک مطالعه بنیادین محسوب میشود.
جمعبندی تغییرات استراتژیک
این مجموعه از پژوهشها نشاندهنده یک تغییر بنیادین در مفروضات این حوزه است. ما از استعاره «LLM بهعنوان مغز» به «LLM بهعنوان سیستم عصبی مرکزی» حرکت میکنیم؛ جایی که ارزش مدل با توانایی آن در رابط شدن با حافظه، سیستمعامل و دادههای حسی زمان-واقعی سنجیده میشود. سه روند اصلی ظهور میکنند:
- محوریت عامل: از Qwen-AgentWorld تا AOHP، تمرکز از «مدلهایی که حرف میزنند» به «مدلهایی که عمل میکنند» تغییر یافته است.
- زیرساخت برتر از اندازه مدل: پژوهش روی حافظه بومی عامل و ابزارهای سیستمعامل ثابت میکند که افزایش تعداد پارامترها کافی نیست؛ عاملها برای کاربردی بودن در محیط تولید به مدیریت داده صحیح، یک Harness تخصصی و محکهایی نیاز دارند که وظایف واقعی دنیا را منعکس کنند.
- چندوجهی بودن زمان-واقعی: از ShutterMuse تا Wan-Streamer، هوش مصنوعی چندوجهی از دموهای استاتیک به سمت کاربردهای واقعی مانند ارتباطات زنده و تولید محتوای حرفهای حرکت میکند.
برای متخصصین فنی، نتیجه روشن است: مزیت رقابتی از «مهندسی پرامپت» به «مهندسی عامل» (Agent Engineering) تغییر یافته است. تمرکز اکنون بر مدیریت وضعیت (State)، تضمین پایداری حافظه بلندمدت و کاهش تأخیر در حلقههای چندوجهی است. برای پیشرو ماندن، توسعهدهندگان باید چارچوب AOHP را برای ادغام در سطح OS بررسی کنند یا قابلیتهای تولید دوطرفه در مدلهای جدید مبتنی بر انتشار را تست نمایند.
گام بعدی شما
- برای ادغام در سطح سیستمعامل، چارچوب AOHP را بررسی کنید تا متوجه شوید چگونه میتوان عامل را به جای اپلیکیشن، به لایهای از زیرساخت تبدیل کرد.
- قابلیتهای تولید دوطرفه در مدلهای مبتنی بر انتشار (Diffusion-based) را برای پروژههایی با نیاز به سازگاری کد در افق بلند تست کنید.
- اگر در حال ساخت عاملهای GUI هستید، استراتژی «زمینه بهعنوان اقدام» (ConAct) را برای کاهش نرخ خطای انتقال صفحه پیادهسازی کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو