اگر مدل رفتاری شما شباهت کسینوسی (Cosine Similarity) را به عنوان مدرکی برای علیت میپذیرد، احتمالاً در حال روایت تاریخچهای از اتفاقات ساختگی است. شما باید بدانید که تکیه بر شباهتهای سطحی در دادههای تخصصی، منجر به ایجاد پیوندهای علّی نادرست در مدلهای رفتاری بزرگ (LBM) میشود.
به نقل از مقالهای که در ۹ ژوئن ۲۰۲۶ در arXiv منتشر شد، رمزگذارهای استاندارد زیستپزشکی مانند BioBERT در تفکیک دامنههای مختلف شکست میخورند. برای مثال، این مدلها برای جفتهای کاملاً نامرتبط — مانند سطح کورتیزول و نوسانات بازار سهام — امتیاز شباهتی برابر با ۰.۸۳ ثبت میکنند، در حالی که این مقدار باید نزدیک به صفر باشد.
همانطور که در تحلیل قبلی ما دربارهی ناپایداری بردار معنایی (Embedding) در مدلهای Qwen3 اشاره کردیم، نقصهای ساختاری در لایههای نمایش داده میتوانند کل استنتاج مدل را مخدوش کنند. این پژوهش نشان میدهد که رمزگذارهای آماده (off-the-shelf) اساساً قادر به تشخیص مرز میان دامنههای زیستپزشکی و غیرزیستپزشکی نیستند.
طبق مستندات پژوهش، نویسندگان یک اصلاح دو مرحلهای را معرفی کردهاند:
- گذر متضاد (Contrastive Pass): بررسی ۷۲٬۰۳۴ جفت داده که همبستگی BIOSS در مدل PubMedBERT را از ۰.۶۳۳ به ۰.۸۲۸ ارتقا داد.
- ژنراتور BODHI: استخراج «منفیهای سخت» (Hard Negatives) از گرافهای دانش زیستپزشکی که تفکیک درون-دامنهای در برابر میان-دامنهای را تا ۲.۳۰ برابر افزایش داد و شکاف تمایز را به ۰.۳۹۲+ رساند.
در بخش پیادهسازی، استفاده از OpenVINO روی پردازنده Intel Xeon 6737P مجهز به AMX، تأخیر تک-پرسوجو را از ۱۳۶۷ میلیثانیه به ۱۰ میلیثانیه کاهش داد و به سرعت ۵۵۵ جمله در ثانیه رسید. نکته غافلگیرکننده این است که در این سختافزار خاص، دقت FP16 در تمامی اندازههای دسته (Batch Size) عملکرد بهتری نسبت به INT8 داشت.
این یافتهها این پیشفرض را که رمزگذارهای همهمنظوره برای کشف علیت در حوزههای حساس کافی هستند، به چالش میکشد. با اثبات اینکه هندسهی بردار معنایی مستقیماً تعیینکنندهی صحت خروجی در LBMها است، مشخص شد که استخراج تخصصی منفیهای سخت برای AI سلامت شخصیسازیشده اجباری است.
گام بعدی شما
- برای بهینهسازی خطوط لوله استنتاج زیستپزشکی، اسکریپتهای OpenVINO منتشر شده توسط تیم BODHI را بررسی کنید.
- اگر از سختافزارهای Intel با قابلیت AMX استفاده میکنید، استراتژی کوانتایزیشن خود را بازنگری کرده و عملکرد FP16 را بسنجید.
- مدلهای رفتاری خود را با جفتهای نامرتبط (Cross-domain) تست کنید تا میزان رانش معنایی را شناسایی کنید.
اما سؤال کلیدی این است که آیا این رویکرد در مدلهای رفتاری غیرپزشکی نیز مقیاسپذیر است؟ پاسخ این پرسش را در بررسیهای آینده دنبال خواهیم کرد.
گفتگو