تصور کنید هوشی مصنوعی به جای حدس زدن کلمه بعدی، بتواند جاذبه زمین یا برخورد دو جسم را پیشبینی کند؛ این دقیقاً همان نقطهای است که پژوهشهای جدید در حال حرکت به سوی آن هستند. اگر هنوز مدلهای زبانی را صرفاً ابزاری برای تولید متن میبینید، باید بدانید که عصر «دموهای جذاب» به پایان رسیده و دوران سیستمهای قابلاعتماد و محیطهای شبیهساز آغاز شده است.
طبق اعلام منابع هاکینگ فیس در ۱ ژوئیه ۲۰۲۶، فهرستی از ۱۰ مقالهٔ ترند شده نشان میدهد که جامعهٔ پژوهشی در حال عبور از تولید محتوای ساده به سمت سیستمهایی است که میتوانند دنیای فیزیکی را شبیهسازی کرده و اقدامات خود را بهطور خودکار تنظیم کنند. این روند در واقع تکامل مسیر تغییر محوریت پژوهشها از چتباتهای ساده به سمت عاملهای فعال است که پیشتر در تحلیلهای اخیر هاکینگ فیس مشاهده شده بود. این چرخش در حالی رخ میدهد که صنعت با چالش «توهم» (Hallucination) در عاملها و هزینههای بالای استنتاج (Inference) دستوپنجه نرم میکند. در حالی که تلاشهای پیشین بر افزایش مقیاس پارامترها متمرکز بود، روند فعلی بر کارایی و قابلیت اطمینان تأکید دارد.
همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی استقرار سرورهای vLLM اشاره کردیم، تمرکز اکنون از زیرساختهای میزبانی به منطق بنیادی تفکر مدلها درباره محیط اطرافشان تغییر یافته است. اکنون اولویت با کارایی و قابلیت اطمینان است، نه فقط افزایش تعداد پارامترها.
ظهور مدلهای جهانی و استدلال فیزیکی
مدل Orca تلاش میکند با ایجاد یک فضای نهان (Latent Space) واحد، پراکندگی در یادگیری چندوجهی (Multimodal) را حل کند. به جای آنکه با تصاویر و متنها به عنوان جریانهای مجزا برخورد کند، مدل خود را برای پیشبینی حالت بعدی جهان بهینه میکند. به نقل از تحلیلهای dev.to، این مدل ترکیبی از یادگیری «ناخودآگاه» و «خودآگاه» را معرفی میکند. این معماری به مدل اجازه میدهد تا الگوهای کلی را از مجموعهدادههای عظیم جذب کرده و در عین حال، «خوانندههای» (Readers) خاصی را برای انجام تکالیف هدفمند فعال کند؛ ساختاری که به گونهای طراحی شده تا به عنوان زیربنای رباتیک و شبیهسازیهای فیزیکی طولانیمدت عمل کند.
برای اطمینان از اینکه این مدلها واقعاً قوانین فیزیک را درک میکنند، پژوهشگران اکنون بر «دمِ بلند» (Long-tail) ارزیابیها تمرکز کردهاند. یک مقاله جدید با موضوع «بریدن دمِ بلند در مدلسازی جهانی بصری» (trimming the long-tail of visual world modeling) استدلال میکند که محکهای (Benchmarks) استاندارد بیش از حد ساده هستند. این مقاله پیشنهاد میدهد مدلها در سناریوهای نادر، غیر استاندارد یا حتی از نظر فیزیکی غیرممکن آزمایش شوند تا مشخص شود آیا AI واقعاً محدودیتهای فیزیکی را میفهمد یا صرفاً در حال تقلید از الگوهای رایج است.
قابلیت اطمینان عاملها و مکانیسم تایید
یکی از کاربردیترین تغییرات، مفهوم خروج عاملانه (Agentic Abstention) است. در حالی که اکثر پژوهشها بر این سؤال متمرکز بودند که «چگونه عاملها میتوانند بهتر عمل کنند»، این مقاله میپرسد «آنها چه زمانی باید متوقف شوند». در این رویکرد، خروج (Abstention) به عنوان یک مسئله تصمیمگیری متوالی دیده میشود؛ به این معنا که عامل باید تشخیص دهد که آیا ریسکِ یک اقدام اشتباه، از سودِ ادامه دادن به تکلیفی خاص بیشتر است یا خیر. این رویکرد برای جلوگیری از حوادثی مشابه اولین حملات سایبری خودگردان در اکوسیستم AI که ریسکهای عملیاتی عاملها را برجسته کرد، بسیار حیاتی است.
این موضوع به ویژه برای هوش مصنوعی سازمانی و عاملهای کدنویسی حیاتی است، چرا که یک دستور اشتباه در ترمینال میتواند فاجعهبار باشد. هدف نهایی، حرکت از کالیبراسیون استاتیک به سمت یک «قانون توقف» (Stopping Rule) پویا در محیطهایی مانند خرید آنلاین یا وظایف تضمین کیفیت (QA) است.
در همین راستا، چارچوب Dockerless روشی را برای تایید وصلههای کد (Code Patches) بدون نیاز به محیط اجرا معرفی میکند. به طور سنتی، تست کدهای تولید شده توسط AI نیازمند اجرای کانتینرهای داکر بود که فرآیندی کند و از نظر منابع هزینهبر است. Dockerless با تحلیل منطق مخزن (Repository) و بستر (Context) وصله، صحت کد را پیشبینی میکند. این قابلیت، امکان آموزش پس از استقرار (Post-training) در مقیاس انبوه را بدون سربار محاسباتی اجرای در لحظه فراهم میسازد.
کارایی استنتاج و تقطیر
بهینهسازی استنتاج همچنان میدان نبرد اصلی در محیطهای عملیاتی AI است. متد DOPD (تقطیر دوگانه On-policy) با مشکل «توهم امتیاز» (Privilege Illusion) مقابله میکند؛ وضعیتی که در آن مدلهای شاگرد در حین آموزش به دلیل دسترسی به سیگنالهای مدل معلم خوب عمل میکنند، اما در دنیای واقعی که آن سیگنالها وجود ندارند، دچار شکست میشوند.
DOPD از یک مکانیسم مسیریابی پویا بر اساس «شکاف مزیت» (Advantage Gap) استفاده میکند. این سیستم در لحظه تصمیم میگیرد که آیا مدل شاگرد باید از توکن معلم پیروی کند یا به مسیر (Trajectory) خودش اعتماد کند. این امر منجر به خلق مدلهای کوچکتر و توانمندتر برای استفاده در دستگاههای لبه (Edge) میشود.
همچنین BlockPilot با استفاده از یک سیاست تطبیقی با هر نمونه (Instance-adaptive policy)، «سختی» ورودی را در مرحله پیشپر (Prefill) پیشبینی کرده و اندازه بهینه بلوک را برای رمزگشایی گمانهزنانه (Speculative Decoding) انتخاب میکند. این روش به ارائهدهندگان LLM اجازه میدهد تا توان عملیاتی (Throughput) را بدون تغییر در معماری مدل زیربنایی افزایش دهند.
رسانههای زاینده در لحظه
هوش مصنوعی زاینده (Generative AI) از پردازش آفلاین به سمت استریمینگ حرکت میکند. LiveEdit یک خط لوله انتشار (Diffusion) علی و فریمبهفریم برای ویرایش ویدیو معرفی کرده است. این سیستم از یک فرآیند تقطیر سه مرحلهای برای تبدیل یک مدل بنیادی دوجهته به یک ویرایشگر تکجهته استفاده میکند که برای استریمهای زنده مناسب است.
برای حفظ ثبات بصری، LiveEdit از یک حافظه موقت ماسک (Mask Cache) با رویکرد واقعیت افزوده (AR) استفاده میکند. این تکنیک تضمین میکند که مناطق ویرایش شده در طول فریمهای مختلف پایدار بمانند و در نتیجه، درهای جدیدی را به روی فیلترهای AR/VR در لحظه و کنفرانسهای ویدیویی تعاملی میگشاید.
در حوزه سهبعدی نیز، رویکرد InstOK3D صحنهها را به جای نقاط ابتدایی (Primitive Points)، به عنوان «اشیا» میبیند. این مدل با توکنسازی صحنههای سهبعدی به گروههای ساختاریافته از نمونهها (Instances) از نماهای بدون موقعیت (Unposed views)، دستکاری طبیعیتر اشیا در دوقلوهای دیجیتال و رباتیک را ممکن میسازد.
در نهایت، مدل GEAR (خودرگرسیون هدایتشده سرتاسری) تلاش میکند گلوگاه آموزش جداگانه توکنساز و تولیدکننده را حذف کند. با بهینهسازی کل خط لوله بهصورت سرتاسری (End-to-End) از طریق تراز نمایش (Representation Alignment)، هدف این است که سلطه مدلهای انتشار در سنتز تصویر به چالش کشیده شود.
واقعیتهای دادههای جدولی
با وجود هایپ پیرامون مدلهای بنیادی، پژوهش روی دادههای جدولی (Tabular Data) رویکردی محتاطانهتر را پیشنهاد میدهد. مطالعهای با عنوان «Beyond IID» مدلهای بنیادی جدولی را در برابر مدلهای درختی سنتی مانند XGBoost و CatBoost سنجیده است.
یافتهها نشان میدهد که مدلهای بنیادی همیشه برنده نیستند، بهویژه در شرایط غیر-IID (دادههایی که مستقل و دارای توزیع یکسان نیستند) یا در مسائل پیچیده با ابعاد بالا. برای صنایعی مانند رتبهبندی اعتباری و بیمه، مدلهای سنتی همچنان بسیار رقابتی و کارآمد هستند.
این مجموعه پژوهشها نشان میدهد که «فاز دمو» در AI به پایان رسیده است. اکنون اولویت با بخشهای خستهکننده اما ضروری هوش است: دانستن زمان توقف، درک جاذبه و کاهش هزینه هر توکن.
توسعهدهندگان باید ادغام مدلهای جهانی مانند Orca در چارچوبهای رباتیک و پذیرش تایید کد بدون کانتینر (Dockerless) در خط لولههای CI/CD را رصد کنند، زیرا اینها احتمالاً اولین مواردی هستند که از مقالات پژوهشی به محیط تولید (Production) منتقل میشوند.
گام بعدی شما
- رصد ادغام مدلهای جهانی مانند Orca در چارچوبهای رباتیک برای مشاهده نحوه درک فیزیکی مدلها.
- بررسی پیادهسازی تایید کد بدون کانتینر (Dockerless) در خط لولههای CI/CD برای کاهش هزینه محاسبات.
- ارزیابی مجدد استفاده از مدلهای بنیادی برای دادههای جدولی در مقابل مدلهای کلاسیک برای کاربردهای حساس مالی.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو