تصور کنید مدلهای پیشرفتهی تصویرساز هنوز نمیتوانند تعداد انگشتان دست را درست بشمارند. اما مشکل، کمبود داده نیست؛ بلکه یک نقص بنیادین در هندسهی ریاضی مدلهاست.
بر اساس مستندات مقالهای که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، این توهمات ساختاری در واقع ناپایداریهایی در منیفولد (Manifold) ایجادشده توسط مدل هستند. بارتلومیژ سوبیسکی (Bartlomiej Sobieski) و همکارانش استدلال میکنند که بعد ذاتی محلی (Local Intrinsic Dimension - LID) محرک اصلی این خطاهاست.
برای مقابله با این مشکل، آنها مکانیسمی به نام فرونشانی ذاتی (Intrinsic Quenching - IQ) را توسعه دادهاند. این ابزار با کاهش اثر LID، مانع از آن میشود که مدل قوانین ساختاری بنیادین را نقض کند. یافتههای کلیدی این پژوهش عبارتند از:
- فیلتر توهم مبتنی بر ناپایداریهای منیفولد، عملکردی برابر یا بهتر از فیلترهای زمانی موجود دارد.
- روش IQ در طیف گستردهای از بنچمارکها، بهطور مستمر از روشهای استاندارد کاهش توهم پیشی میگیرد.
- این مکانیسم راهکاری نویدبخش برای تضمین سازگاری آناتومیک در کاربردهای هوش مصنوعی زاینده (Generative AI) در تصویربرداری پزشکی است.
همانطور که در تحلیلهای پیشین ما دربارهی پایداری استنتاج در مدلهای بازمتن اشاره کردیم، درک لایههای پنهان مدل برای خروج از بنبستهای فنی ضروری است. به نقل از نویسندگان مقاله، برخلاف باورهای قبلی که «درونیابی حالت» (Mode Interpolation) را علت توهمات میدانستند، این پدیده در واقع یک ناپایداری هندسی است.
این چرخش دیدگاه، ما را از تکیه بر مجموعهدادههای حجیمتر به سمت اصلاحات ریاضی مستقیم میبرد. اکنون صنعت باید تصمیم بگیرد که آیا این محدودیتهای هندسی را میتوان بدون کاهش سرعت استنتاج (Inference) در سیستمهای آنی ادغام کرد یا خیر.
اما این تحول در هندسهی مدلها، تنها تکهای از پازل است؛ تأثیر این رویکرد بر سرعت پردازش در سختافزارهای نسل بعد را در گزارشهای آتی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مقاله اصلی در Arxiv برای درک فرمولهای ریاضی LID.
- تست مدلهای انتشار فعلی با متدهای فیلترینگ هندسی برای شناسایی توهمات.
- دنبال کردن اخبار ادغام مکانیسم IQ در ابزارهای تولید تصویر تجاری.




گفتگو