سازوکار BODHI: افزایش ۲.۳ برابری تفکیک مفاهیم در مدل‌های رفتاری زیست‌پزشکی

اگر مدل رفتاری شما شباهت کسینوسی (Cosine Similarity) را به عنوان مدرکی برای علیت می‌پذیرد، احتمالاً در حال روایت تاریخچه‌ای از اتفاقات ساختگی است. شما باید بدانید که تکیه بر شباهت‌های سطحی در داده‌های تخصصی، منجر به ایجاد پیوندهای علّی نادرست در مدل‌های رفتاری بزرگ (LBM) می‌شود.

به نقل از مقاله‌ای که در ۹ ژوئن ۲۰۲۶ در arXiv منتشر شد، رمزگذارهای استاندارد زیست‌پزشکی مانند BioBERT در تفکیک دامنه‌های مختلف شکست می‌خورند. برای مثال، این مدل‌ها برای جفت‌های کاملاً نامرتبط — مانند سطح کورتیزول و نوسانات بازار سهام — امتیاز شباهتی برابر با ۰.۸۳ ثبت می‌کنند، در حالی که این مقدار باید نزدیک به صفر باشد.

همان‌طور که در تحلیل قبلی ما درباره‌ی ناپایداری بردار معنایی (Embedding) در مدل‌های Qwen3 اشاره کردیم، نقص‌های ساختاری در لایه‌های نمایش داده می‌توانند کل استنتاج مدل را مخدوش کنند. این پژوهش نشان می‌دهد که رمزگذارهای آماده (off-the-shelf) اساساً قادر به تشخیص مرز میان دامنه‌های زیست‌پزشکی و غیرزیست‌پزشکی نیستند.

طبق مستندات پژوهش، نویسندگان یک اصلاح دو مرحله‌ای را معرفی کرده‌اند:

گذر متضاد (Contrastive Pass): بررسی ۷۲٬۰۳۴ جفت داده که همبستگی BIOSS در مدل PubMedBERT را از ۰.۶۳۳ به ۰.۸۲۸ ارتقا داد.
ژنراتور BODHI: استخراج «منفی‌های سخت» (Hard Negatives) از گراف‌های دانش زیست‌پزشکی که تفکیک درون-دامنه‌ای در برابر میان-دامنه‌ای را تا ۲.۳۰ برابر افزایش داد و شکاف تمایز را به ۰.۳۹۲+ رساند.

در بخش پیاده‌سازی، استفاده از OpenVINO روی پردازنده Intel Xeon 6737P مجهز به AMX، تأخیر تک-پرس‌وجو را از ۱۳۶۷ میلی‌ثانیه به ۱۰ میلی‌ثانیه کاهش داد و به سرعت ۵۵۵ جمله در ثانیه رسید. نکته غافلگیرکننده این است که در این سخت‌افزار خاص، دقت FP16 در تمامی اندازه‌های دسته (Batch Size) عملکرد بهتری نسبت به INT8 داشت.

این یافته‌ها این پیش‌فرض را که رمزگذارهای همه‌منظوره برای کشف علیت در حوزه‌های حساس کافی هستند، به چالش می‌کشد. با اثبات اینکه هندسه‌ی بردار معنایی مستقیماً تعیین‌کننده‌ی صحت خروجی در LBMها است، مشخص شد که استخراج تخصصی منفی‌های سخت برای AI سلامت شخصی‌سازی‌شده اجباری است.

گام بعدی شما

برای بهینه‌سازی خطوط لوله استنتاج زیست‌پزشکی، اسکریپت‌های OpenVINO منتشر شده توسط تیم BODHI را بررسی کنید.
اگر از سخت‌افزارهای Intel با قابلیت AMX استفاده می‌کنید، استراتژی کوانتایزیشن خود را بازنگری کرده و عملکرد FP16 را بسنجید.
مدل‌های رفتاری خود را با جفت‌های نامرتبط (Cross-domain) تست کنید تا میزان رانش معنایی را شناسایی کنید.

اما سؤال کلیدی این است که آیا این رویکرد در مدل‌های رفتاری غیرپزشکی نیز مقیاس‌پذیر است؟ پاسخ این پرسش را در بررسی‌های آینده دنبال خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق مستندات پژوهش، نویسندگان یک اصلاح دو مرحله‌ای را معرفی کرده‌اند:

گذر متضاد (Contrastive Pass): بررسی ۷۲٬۰۳۴ جفت داده که همبستگی BIOSS در مدل PubMedBERT را از ۰.۶۳۳ به ۰.۸۲۸ ارتقا داد.
ژنراتور BODHI: استخراج «منفی‌های سخت» (Hard Negatives) از گراف‌های دانش زیست‌پزشکی که تفکیک درون-دامنه‌ای در برابر میان-دامنه‌ای را تا ۲.۳۰ برابر افزایش داد و شکاف تمایز را به ۰.۳۹۲+ رساند.

گام بعدی شما

برای بهینه‌سازی خطوط لوله استنتاج زیست‌پزشکی، اسکریپت‌های OpenVINO منتشر شده توسط تیم BODHI را بررسی کنید.
اگر از سخت‌افزارهای Intel با قابلیت AMX استفاده می‌کنید، استراتژی کوانتایزیشن خود را بازنگری کرده و عملکرد FP16 را بسنجید.
مدل‌های رفتاری خود را با جفت‌های نامرتبط (Cross-domain) تست کنید تا میزان رانش معنایی را شناسایی کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار BODHI: افزایش ۲.۳ برابری تفکیک مفاهیم در مدل‌های رفتاری زیست‌پزشکی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار BODHI: افزایش ۲.۳ برابری تفکیک مفاهیم در مدل‌های رفتاری زیست‌پزشکی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار BODHI: افزایش ۲.۳ برابری تفکیک مفاهیم در مدل‌های رفتاری زیست‌پزشکی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار BODHI: افزایش ۲.۳ برابری تفکیک مفاهیم در مدل‌های رفتاری زیست‌پزشکی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران