تصور کنید ابزاری داشته باشید که تمام کتب پزشکی را حفظ است، اما وقتی با یک پروندهی پیچیده مواجه میشود، نمیتواند تشخیص دهد کدام سند معتبرتر است. این دقیقاً وضعیتی است که مدلهای فعلی هوش مصنوعی در مواجهه با علوم زیستی تجربه میکنند.
طبق گزارش فنی MarktechPost، محک جدید OpenAI به نام LifeSciBench افشا کرد که مدلهای زبانی حتی در سطح تخصصی، وقتی مجبور شوند شواهد ناقص را بسنجند و تصمیم بگیرند، به شدت تقلا میکنند. این در حالی است که اکثر محکهای فعلی بر پرسشهای چندگزینهای با پاسخهای قطعی متکی هستند.
همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای استدلالی مدلهای زبانی اشاره کردیم، تفاوت میان «بازیابی اطلاعات» و «تفکر علمی» همچنان یک دیوار بلند است. این چالش در حوزههای تخصصیتر نیز دیده میشود؛ برای مثال، برخی پژوهشها نشان دادهاند که حتی در ارزشگذاری دارویی، کیفیت دادههای اختصاصی بیش از ساختارهای استدلالی پیچیده اثرگذار است. LifeSciBench با ۷۵۰ تکلیف پاسخ-باز که توسط ۱۷۳ دانشمند دارای مدرک Ph.D طراحی شده، تلاش میکند محیط واقعی آزمایشگاه را شبیهسازی کند.
بر اساس مستندات این پروژه، این سیستم هفت حوزه زیستشناختی (از جمله ژنومیک و شیمی دارویی) و هفت جریان کاری مختلف را پوشش میدهد. نتایج بهدستآمده از ارزیابیها تکاندهنده است:
- GPT-Rosalind: پیشرو در این حوزه با نرخ موفقیت تنها ۳۶.۱٪ و امتیاز نرمالشده ۰.۵۷۶.
- GPT-5.5: با نرخ موفقیت ۲۵.۷٪ در رتبهی دوم قرار گرفت.
- Gemini 3.1 Pro: نرخ موفقیت ۲۳.۶٪ را ثبت کرد، هرچند در ۲۱۴ تکلیف خاص، بهترین عملکرد را داشت.
- گلوگاه آرتیفکت: عملکرد GPT-Rosalind در تکالیف متنی ۴۵.۱٪ بود، اما به محض نیاز به تحلیل PDFها یا ساختارهای شیمیایی، این عدد به ۲۸.۱٪ سقوط کرد.
این نتایج این فرض را که نمرات بالای استدلال عمومی به کاربرد علمی ترجمه میشوند، باطل میکند. در حالی که مدلهای عمومی در این محک شکست خوردند، مدلهای تخصصیتری مانند LiteOdyssey توانستهاند در تشخیص بیماریهای فوقکمیاب به بازدهی ۵۹.۳ درصدی دست یابند، که نشاندهنده اهمیت تخصصیسازی در علوم پزشکی است. عدم توانایی مدلها در تحلیل اشکال و جداول نشان میدهد که ادغام چندوجهی (Multimodal) همچنان بزرگترین مانع برای ورود هوش مصنوعی به آزمایشگاههای واقعی است.
گام بعدی شما
- پژوهشگران میتوانند از دموی Interactive Rubric Grader برای بررسی دقیق نقاط شکست مدلها در توصیههای دارودرمانی استفاده کنند.
- توسعهدهندگان مدلهای تخصصی باید تمرکز خود را از افزایش حجم دادهها به بهبود تحلیل آرتیفکتهای بصری تغییر دهند. در این راستا، افزایش چشمگیر اشتراکگذاری کد و داده در مقالات اخیر میتواند مسیر دسترسی به دادههای باکیفیت برای آموزش این مدلها را هموار کند.
- بررسی کنید که آیا گردشکارهای پژوهشی شما به تحلیل ساختارهای غیرمتنی وابسته است یا خیر.
اما چالش تحلیل دادههای بصری تنها بخشی از این معادله است؛ برای درک اینکه چرا مدلهای زبانی در ریاضیات پیشرفت سریعتری داشتند، تحلیل ما دربارهی معمارهای استدلالی را بخوانید.




گفتگو