باید بپذیریم که مدلهای زبانی بزرگ (Large Language Models - LLM) در واقع گرافها را میفهمند، اما اجازه ندارند این دانش را به زبان بیاورند. تصور کنید تمام اطلاعات لازم در ذهن مدل وجود دارد، اما مسیر دسترسی به آنها مسدود شده است.
این مشکل زمانی رخ میدهد که گرافها به صورت متن خطی تبدیل میشوند و مدل در حفظ روابط بین گرهها شکست میخورد. همانطور که در تحلیل قبلی ما دربارهی چالشهای مدلهای زبانی در حفظ صداقت علمی در SciIntegrity-Bench اشاره کردیم، ناتوانی در پردازش دادههای غیرخطی یک مانع معماری جدی است که تا امروز با افزودن لایههای خارجی حل میشد.
طبق پژوهشی که در ۱۲ مه ۲۰۲۶ منتشر شد، نویسندگان دریافتند که LLMها بهطور خودبهخودی یک الگوی «دندانهدار» (Sawtooth) در نقشههای توجه خود ایجاد میکنند که با ماتریس مجاورت توکنهای گراف همراستا است. با این حال، این سیگنال توسط چاه توجه (Attention Sink) — یک گلوگاه بازنمایی ناشی از سوگیری ناهمسانگرد (Anisotropic Bias) — رقیق میشود. برای رفع این نقص، متد Slash (StructuraL Attention SHarpening) یک بازتوزیع توجه «پلاگ-اند-پلی» را پیاده میکند که:
- سیگنالهای ساختاری داخلی را تقویت میکند.
- نویز حاصل از چاه توجه را سرکوب میکند.
- به هیچ پارامتر آموزشی اضافی نیاز ندارد.
آزمایشهای انجام شده روی وظایف خالص گراف و پیشبینی مولکولی تایید میکند که این سازوکار در معماریهای مختلف مدل، بهبودهای مستمر ایجاد میکند.
این یافته، این فرض رایج را که LLMها برای «درک» توپولوژی به آداپتورهای گراف خارجی نیاز دارند، میشکند. در واقع، قابلیت درک ساختاری از پیش وجود دارد، اما توسط همان مکانیسمهایی که مدل را در پردازش زبان طبیعی بهینه میکند، سرکوب شده است. برای متخصصان، این بدان معناست که استدلالهای علمی با دقت بالا دیگر نیازمند بودجههای کلان محاسباتی برای تنظیم دقیق (Fine-tuning) نیستند.
گام بعدی شما
- پایش ادغام متد Slash در مدلهای وزنهای باز (Open Weights) که بهطور خاص برای شیمی و فیزیک بهینه شدهاند.
- مطالعه فرمولبندی نظری گلوگاه بازنمایی در مقاله arXiv برای پیادهسازی منطق بازتوزیع توجه.
اما این بازدهی در مدلهای کوچکتر چگونه است؟ در بررسی آینده به مقایسه SLMها در وظایف استدلالی میپردازیم.




گفتگو