تصور کنید مدل زبانی شما هرگز توهم نزند. اگر هنوز فکر میکنید ترنسفورمرها تنها راه رسیدن به هوش مصنوعی هستند، سخت در اشتباهید.
در ۷ مه ۲۰۲۶، پژوهشگری به نام ویشال جاتاو (Vishaal Jatav) مقالهای را در arxiv.org منتشر کرد که در آن مدل Gyan معرفی شده است؛ یک مدل زبانی عصبی-نمادین (Neuro-symbolic) که بدون استفاده از معماری ترنسفورمر، به عملکرد SOTA (State-of-the-Art) دست یافته است. به نقل از این گزارش، Gyan با تغییر بنیادین در نحوه پردازش اطلاعات، نقاط ضعف مدلهای زبانی بزرگ (LLM) — بهویژه توهم (Hallucination) و هزینههای بالای محاسبات (Compute) — را برطرف کرده است.
مدل Gyan برخلاف مدلهای رایج، فرآیند اکتساب دانش را از پردازش زبان جدا میکند. این مدل به جای تکیه صرف بر الگوهای آماری، از مفاهیمی چون تئوری ساختار بلاغی (Rhetorical Structure Theory)، تئوری نقش معنایی (Semantic Role Theory) و زبانشناسی محاسباتی مبتنی بر دانش استفاده میکند تا «مدل جهانی» بسازد که مشابه درک ترکیبی انسان است.
برخی از دستاوردهای کلیدی این معماری عبارتند از:
- دستیابی به عملکرد SOTA در ۳ مجموعه داده معتبر جهانی.
- برتری مطلق در ۲ مجموعه داده اختصاصی.
- حذف کامل توهمات به دلیل معماری تفسیرپذیر.
- کاهش چشمگیر نیاز به قدرت محاسباتی در هر دو مرحله آموزش و استنتاج (Inference).
همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، تکیه صرف بر افزایش حجم دادهها دیگر پاسخگو نیست. طبق اعلام نویسندگان مقاله، این چرخش به سمت هوش مصنوعی عصبی-نمادین، ماهیت «جعبه سیاه» مدلهای فعلی را میشکند. این شفافیت باعث میشود Gyan برای کاربردهای حساس و حیاتی که حتی یک توهم در آنها فاجعهبار است، ایدهآل باشد.
این معماری برخلاف وزنهای مبهم ترنسفورمرها، قابلیت تفسیر کامل و نگهداری آسان دارد. اما این تغییر معماری، فشار شدیدی به تولیدکنندگان سختافزار وارد میکند — در گزارش بعدی، اثر این تحول بر آینده تراشههای انویدیا را بررسی میکنیم.
گام بعدی شما
- مطالعه مقاله کامل ویشال جاتاو در arxiv.org برای درک جزئیات ریاضی مدل.
- مقایسه بنچمارکهای Gyan با مدلهای مبتنی بر ترنسفورمر در کاربردهای تخصصی.
- رصد تحولات سختافزاری که ممکن است برای مدلهای غیرترنسفورمری بهینه شوند.




گفتگو