در طراحیهای مکانیکی، یک میلیمتر خطا به معنای شکست کامل است؛ جایی که مدلهای زبانی بزرگ (LLM) تاکنون در برابر دقت ریاضی تسلیم بودهاند. اما اکنون راهکاری برای عبور از این سد سختافزاری و ریاضی پیدا شده است.
طبق گزارش منتشرشده در ۹ ژوئن ۲۰۲۶، پژوهشگران با معرفی چارچوب PyGeoX توانستند نرخ موفقیت در حل مسائل سطح دشوار (hard-tier) در سنتز هندسی را ۲.۳ برابر افزایش دهند. همانطور که در تحلیلهای پیشین ما دربارهی چالشهای استدلال ریاضی در مدلهای زبانی اشاره کردیم، تبدیل زبان طبیعی به طرحهای مکانیکی نیازمند رعایت دهها محدودیت متقاطع و همزمان است؛ هدفی که مدلهای فعلی به دلیل توهم (Hallucination) در تطبیق توصیفات آزاد با قوانین سخت ریاضی، در آن شکست میخورند.
بر اساس مستندات ارکایو (arXiv)، این دستاورد از دو رکن اصلی تشکیل شده است:
- PyGeoX: یک زبان تخصصی دامنه (DSL) برنامهریزیپذیر که محدودیتهای هندسی را به tổnهای مشتقپذیر (Differentiable Losses) تبدیل میکند.
- PyGeoX-Bench: مجموعهای شامل ۳۰۰ مسئله قابل راستیآزمایی برای سنجش دقت مدلها.
نکته کلیدی این پژوهش، شناسایی خطای «پوشش گرادیانهای پرت» (Outlier Gradient Masking) است. در سیستمهای پاداش سنتی که از نرم جهانی (مانند $\exp(-\mathrm{MSE})$) استفاده میکنند، یک تخلف شدید در یکی از محدودیتها میتواند تمام سیگنالهای یادگیری سایر بخشها را پاک کند. برای رفع این مشکل، تیم پژوهشی سیستم پاداشهای جمعی اشباعشده (Saturating Additive Rewards یا SAR) را توسعه داد تا پاداشها را به جملات کراندار و مجزا برای هر محدودیت تجزیه کند.
این تغییر معماری ثابت میکند که در هوش مصنوعیِ حساس به دقت، بهینهسازی برای میانگین جهانی نتیجهی معکوس دارد. با جداسازی باقیماندهها، سیستم SAR تضمین میکند که مدل حتی در صورت کلنجار رفتن با یک محدودیت دشوار، یادگیری از سایر محدودیتهای موفق را متوقف نکند. این رویکرد به یک مدل تخصصی ۸ میلیارد پارامتری اجازه میدهد تا با سیستمهای غولپیکری که چندین برابر بزرگتر هستند، رقابت کند.
گام بعدی شما
- توسعهدهندگان میتوانند موتور PyGeoX و بنچمارک مربوطه را برای تست مدلهای خود در محیطهای مهندسی به کار بگیرند.
- بررسی قابلیت تعمیم SAR به سایر دامنههای دارای محدودیت سخت مانند مسیریابی مدارها (Circuit Routing).
- تحلیل اثر این مکانیزم بر کاهش هزینه استنتاج (Inference) در مدلهای کوچک تخصصی.
اما این تنها آغاز ماجراست؛ اینکه آیا SAR میتواند استانداردهای پیشنویس معماری را نیز تغییر دهد، در گزارشهای بعدی بررسی خواهیم کرد.
گفتگو