چرا برای درک توپولوژی گراف‌ها نیازی به تنظیم دقیق یا آداپتورهای خارجی نیست؟

باید بپذیریم که مدل‌های زبانی بزرگ (Large Language Models - LLM) در واقع گراف‌ها را می‌فهمند، اما اجازه ندارند این دانش را به زبان بیاورند. تصور کنید تمام اطلاعات لازم در ذهن مدل وجود دارد، اما مسیر دسترسی به آن‌ها مسدود شده است.

این مشکل زمانی رخ می‌دهد که گراف‌ها به صورت متن خطی تبدیل می‌شوند و مدل در حفظ روابط بین گره‌ها شکست می‌خورد. همان‌طور که در تحلیل قبلی ما درباره‌ی چالش‌های مدل‌های زبانی در حفظ صداقت علمی در SciIntegrity-Bench اشاره کردیم، ناتوانی در پردازش داده‌های غیرخطی یک مانع معماری جدی است که تا امروز با افزودن لایه‌های خارجی حل می‌شد.

طبق پژوهشی که در ۱۲ مه ۲۰۲۶ منتشر شد، نویسندگان دریافتند که LLMها به‌طور خودبه‌خودی یک الگوی «دندانه‌دار» (Sawtooth) در نقشه‌های توجه خود ایجاد می‌کنند که با ماتریس مجاورت توکن‌های گراف هم‌راستا است. با این حال، این سیگنال توسط چاه توجه (Attention Sink) — یک گلوگاه بازنمایی ناشی از سوگیری ناهمسانگرد (Anisotropic Bias) — رقیق می‌شود. برای رفع این نقص، متد Slash (StructuraL Attention SHarpening) یک بازتوزیع توجه «پلاگ-اند-پلی» را پیاده می‌کند که:

سیگنال‌های ساختاری داخلی را تقویت می‌کند.
نویز حاصل از چاه توجه را سرکوب می‌کند.
به هیچ پارامتر آموزشی اضافی نیاز ندارد.

آزمایش‌های انجام شده روی وظایف خالص گراف و پیش‌بینی مولکولی تایید می‌کند که این سازوکار در معماری‌های مختلف مدل، بهبودهای مستمر ایجاد می‌کند.

این یافته، این فرض رایج را که LLMها برای «درک» توپولوژی به آداپتورهای گراف خارجی نیاز دارند، می‌شکند. در واقع، قابلیت درک ساختاری از پیش وجود دارد، اما توسط همان مکانیسم‌هایی که مدل را در پردازش زبان طبیعی بهینه می‌کند، سرکوب شده است. برای متخصصان، این بدان معناست که استدلال‌های علمی با دقت بالا دیگر نیازمند بودجه‌های کلان محاسباتی برای تنظیم دقیق (Fine-tuning) نیستند.

گام بعدی شما

پایش ادغام متد Slash در مدل‌های وزن‌های باز (Open Weights) که به‌طور خاص برای شیمی و فیزیک بهینه شده‌اند.
مطالعه فرمول‌بندی نظری گلوگاه بازنمایی در مقاله arXiv برای پیاده‌سازی منطق بازتوزیع توجه.

اما این بازدهی در مدل‌های کوچک‌تر چگونه است؟ در بررسی آینده به مقایسه SLMها در وظایف استدلالی می‌پردازیم.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

سیگنال‌های ساختاری داخلی را تقویت می‌کند.
نویز حاصل از چاه توجه را سرکوب می‌کند.
به هیچ پارامتر آموزشی اضافی نیاز ندارد.

گام بعدی شما

پایش ادغام متد Slash در مدل‌های وزن‌های باز (Open Weights) که به‌طور خاص برای شیمی و فیزیک بهینه شده‌اند.
مطالعه فرمول‌بندی نظری گلوگاه بازنمایی در مقاله arXiv برای پیاده‌سازی منطق بازتوزیع توجه.

اما این بازدهی در مدل‌های کوچک‌تر چگونه است؟ در بررسی آینده به مقایسه SLMها در وظایف استدلالی می‌پردازیم.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا برای درک توپولوژی گراف‌ها نیازی به تنظیم دقیق یا آداپتورهای خارجی نیست؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا برای درک توپولوژی گراف‌ها نیازی به تنظیم دقیق یا آداپتورهای خارجی نیست؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا برای درک توپولوژی گراف‌ها نیازی به تنظیم دقیق یا آداپتورهای خارجی نیست؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا برای درک توپولوژی گراف‌ها نیازی به تنظیم دقیق یا آداپتورهای خارجی نیست؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران