چرا برای رسیدن به هوش واقعی باید ترنسفورمرها را دور ریخت؟

تصور کنید مدل زبانی شما هرگز توهم نزند. اگر هنوز فکر می‌کنید ترنسفورمرها تنها راه رسیدن به هوش مصنوعی هستند، سخت در اشتباهید.

در ۷ مه ۲۰۲۶، پژوهشگری به نام ویشال جاتاو (Vishaal Jatav) مقاله‌ای را در arxiv.org منتشر کرد که در آن مدل Gyan معرفی شده است؛ یک مدل زبانی عصبی-نمادین (Neuro-symbolic) که بدون استفاده از معماری ترنسفورمر، به عملکرد SOTA (State-of-the-Art) دست یافته است. به نقل از این گزارش، Gyan با تغییر بنیادین در نحوه پردازش اطلاعات، نقاط ضعف مدل‌های زبانی بزرگ (LLM) — به‌ویژه توهم (Hallucination) و هزینه‌های بالای محاسبات (Compute) — را برطرف کرده است.

مدل Gyan برخلاف مدل‌های رایج، فرآیند اکتساب دانش را از پردازش زبان جدا می‌کند. این مدل به جای تکیه صرف بر الگوهای آماری، از مفاهیمی چون تئوری ساختار بلاغی (Rhetorical Structure Theory)، تئوری نقش معنایی (Semantic Role Theory) و زبان‌شناسی محاسباتی مبتنی بر دانش استفاده می‌کند تا «مدل جهانی» بسازد که مشابه درک ترکیبی انسان است.

برخی از دستاوردهای کلیدی این معماری عبارتند از:

دستیابی به عملکرد SOTA در ۳ مجموعه داده معتبر جهانی.
برتری مطلق در ۲ مجموعه داده اختصاصی.
حذف کامل توهمات به دلیل معماری تفسیرپذیر.
کاهش چشمگیر نیاز به قدرت محاسباتی در هر دو مرحله آموزش و استنتاج (Inference).

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های قوانین مقیاس‌پذیری (Scaling Laws) اشاره کردیم، تکیه صرف بر افزایش حجم داده‌ها دیگر پاسخگو نیست. طبق اعلام نویسندگان مقاله، این چرخش به سمت هوش مصنوعی عصبی-نمادین، ماهیت «جعبه سیاه» مدل‌های فعلی را می‌شکند. این شفافیت باعث می‌شود Gyan برای کاربردهای حساس و حیاتی که حتی یک توهم در آن‌ها فاجعه‌بار است، ایده‌آل باشد.

این معماری برخلاف وزن‌های مبهم ترنسفورمرها، قابلیت تفسیر کامل و نگهداری آسان دارد. اما این تغییر معماری، فشار شدیدی به تولیدکنندگان سخت‌افزار وارد می‌کند — در گزارش بعدی، اثر این تحول بر آینده تراشه‌های انویدیا را بررسی می‌کنیم.

گام بعدی شما

مطالعه مقاله کامل ویشال جاتاو در arxiv.org برای درک جزئیات ریاضی مدل.
مقایسه بنچمارک‌های Gyan با مدل‌های مبتنی بر ترنسفورمر در کاربردهای تخصصی.
رصد تحولات سخت‌افزاری که ممکن است برای مدل‌های غیرترنسفورمری بهینه شوند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

برخی از دستاوردهای کلیدی این معماری عبارتند از:

دستیابی به عملکرد SOTA در ۳ مجموعه داده معتبر جهانی.
برتری مطلق در ۲ مجموعه داده اختصاصی.
حذف کامل توهمات به دلیل معماری تفسیرپذیر.
کاهش چشمگیر نیاز به قدرت محاسباتی در هر دو مرحله آموزش و استنتاج (Inference).

گام بعدی شما

مطالعه مقاله کامل ویشال جاتاو در arxiv.org برای درک جزئیات ریاضی مدل.
مقایسه بنچمارک‌های Gyan با مدل‌های مبتنی بر ترنسفورمر در کاربردهای تخصصی.
رصد تحولات سخت‌افزاری که ممکن است برای مدل‌های غیرترنسفورمری بهینه شوند.

چرا برای رسیدن به هوش واقعی باید ترنسفورمرها را دور ریخت؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا برای رسیدن به هوش واقعی باید ترنسفورمرها را دور ریخت؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا برای رسیدن به هوش واقعی باید ترنسفورمرها را دور ریخت؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا برای رسیدن به هوش واقعی باید ترنسفورمرها را دور ریخت؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران