LifeSciBench: مدل‌های برتر زیست‌شناسی در ۶۴٪ تکالیف پژوهشی شکست خوردند

منبع خبر

۲۸ خرداد ۱۴۰۵·۲۸ خرداد ۱۴۰۵۶ دقیقه مطالعه

معیار ارزیابی ۷۵۰ وظیفه‌ای OpenAI برای سنجش هوش مصنوعی در پژوهش‌های علوم زیستی واقعی با راهنمای کارشناسی

اشتراک‌گذاری

آیا هوش مصنوعی واقعاً شبیه به یک زیست‌شناس فکر می‌کند یا فقط کتاب‌های درسی را حفظ کرده است؟ انتشار LifeSciBench توسط OpenAI نشان می‌دهد که هدف اول هنوز بسیار دور است؛ چراکه این بنچمارک فاش می‌کند حتی پیشرفته‌ترین مدل‌ها در حدود دو-سوم تکالیف پژوهشی واقعی شکست می‌خورند.

بیشتر بنچمارک‌های فعلی زیست‌شناسی بر سوالات محدود و چهارگزینه‌ای با پاسخ‌های قطعی تکیه دارند. اما پژوهش‌های واقعی علمی نیازمند سنجش شواهد ناقص و اجرای تصمیم‌گیری‌های چندمرحله‌ای هستند. به گزارش marktechpost.com، بنچمارک LifeSciBench با شبیه‌سازی نحوه دستور دادن یک دانشمند به همکارش، دقیقاً همین شکاف را هدف قرار داده است.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های تخصصی (Domain-specific models) اشاره کردیم، انتقال دانش از متون عمومی به کاربردهای عملی، سخت‌ترین گام در تکامل مدل‌هاست.

زمینه و دامنه (Context and Scope)

این بنچمارک شامل ۷۵۰ تکلیف تخصصی است که توسط متخصصان در هفت حوزه زیست‌شناسی تدوین شده است. این حوزه‌ها شامل ژنومیک (Genomics)، شیمی دارویی (Medicinal Chemistry) و علوم بالینی و ترجمانی (Clinical and Translational Science) هستند. این تکالیف در هفت گردش‌کار (Workflow) متمایز دسته‌بندی شده‌اند:

مدیریت و تحلیل شواهد (Evidence handling and analysis)
طراحی و بهینه‌سازی (Design and optimization)
استدلال علمی (Scientific reasoning)
اعتبارسنجی و عملیات (Validation and operations)
ترجمه (Translation)
ارتباطات علمی (Scientific communication)
تحلیل‌های عمومی زیست‌شناسی (General biological analysis)

نکته کلیدی این است که این تکالیف به‌جای چهارگزینه‌ای بودن، پاسخ-باز (Free-response) هستند. طبق مستندات، حدود ۷۹٪ از این موارد نیازمند چندین مرحله استدلال یا تصمیم‌گیری هستند که به‌طور میانگین هر تکلیف شامل چهار مرحله است.

برای تضمین دقت و سخت‌گیری آکادمیک، گروهی متشکل از ۱۷۳ دانشمند در سطح دکترا (Ph.D) با تجربه در بیوتکنولوژی یا داروسازی، این تکالیف را طراحی کردند. هر تکلیف به‌طور میانگین ۶ چرخه بررسی خودکار و حداقل ۲ بررسی تخصصی را پشت سر گذاشته است. علاوه بر این، گروه جداگانه‌ای متشکل از ۴۵۳ بازبین — که ۹۷٪ آن‌ها دارای مدرک دکترا بودند — کیفیت این موارد را تایید کردند و در مورد مرتبط بودن، استدلال، مستند بودن و مفید بودن تکالیف، به توافقی بالای ۹۶٪ رسیدند.

معماری فنی و سیستم نمره‌دهی

ساختار ارزیابی در LifeSciBench بر پایه یک سیستم رابریک (Rubric) پیچیده با ۱۹,۰۲۰ معیار اتمی است (به‌طور میانگین ۲۵ معیار برای هر تکلیف). برخلاف روش‌های سنتی که پاسخ مدل را با یک رشته متنی واحد مقایسه می‌کنند، این سیستم ویژگی‌های خاص را پاداش می‌دهد. نمونه‌هایی از این معیارها شامل یک حقیقت علمی خاص، یک گام استدلالی مشخص یا یک پاسخ عددی در محدوده تلورانس تعیین‌شده است.

عملکرد مدل‌ها با دو معیار سنجیده می‌شود:

نمره رابریک نرمال‌شده (Normalized Rubric Score): مجموع امتیازات awarded تقسیم بر کل امتیازات ممکن.
نرخ پاس تکالیف (Task Pass Rate): درصد تکالیفی که مدل در آن‌ها نمره ۷۰٪ یا بالاتر کسب کرده است.

این آستانه سخت‌گیرانه ۷۰٪ به‌صورت عمدی طراحی شده است. این کار تضمین می‌کند که یک پاسخ می‌تواند امتیازات جزئی دریافت کند اما همچنان در کل تکلیف شکست بخورد. منطق نمره‌دهی ساده است: سیستم امتیازات شناسه‌های معیارهای awarded را جمع کرده و بر کل امتیازات موجود تقسیم می‌کند تا مشخص شود آیا آستانه پاس ۰.۷۰ رعایت شده است یا خیر.

جزئیات ادغام آثار جانبی (Artifact Integration)

برای شبیه‌سازی محیط واقعی آزمایشگاه، بسیاری از تکالیف همراه با آثار جانبی (Artifacts) ارائه می‌شوند. در مجموع ۱۰۶۲ اثر جانبی در این بنچمارک گنجانده شده است. حدود ۵۳٪ از کل تکالیف برای حل شدن به حداقل یک اثر جانبی نیاز دارند. این آثار شامل موارد زیر است:

توالی‌های ژنتیکی (Genetic sequences)
اشکال علمی (Scientific figures)
جداول داده (Data tables)
اسناد PDF
ساختارهای شیمیایی (Chemical structures)

داده‌های عملکرد مدل‌ها

OpenAI پنج مدل را در حالت تک-مرحله‌ای (Single-turn) و با دسترسی نامحدود به اینترنت ارزیابی کرد. نتایج نشان‌دهنده یک سقف عملکردی شدید است:

GPT-Rosalind (تخصصی): نمره ۰.۵۷۶ | نرخ پاس ۳۶.۱٪
GPT-5.5: نمره ۰.۵۱۹ | نرخ پاس ۲۵.۷٪
Gemini 3.1 Pro: نمره ۰.۵۱۵ | نرخ پاس ۲۳.۶٪
GPT-5.4: نمره ۰.۴۷۹ | نرخ پاس ۲۰.۷٪
Grok 4.3: نمره ۰.۳۹۹ | نرخ پاس ۱۳.۰٪

اگرچه GPT-Rosalind پیشتاز کلی بود و در ۳۸۶ مورد از ۷۵۰ تکلیف برتری داشت، اما Gemini 3.1 Pro به‌طور منحصر‌به‌فردی در ۲۱۴ تکلیف پیشتاز بود. این موضوع نشان می‌دهد که مدل‌های مختلف نقاط قوت متمایزی در حوزه‌های تخصصی دارند و نمرات کلی اغلب این نقاط قوت خاص را می‌پوشانند.

گلوگاه‌های بحرانی

تحلیل شکست‌ها نشان می‌دهد که آثار جانبی (Artifacts) گلوگاه اصلی هستند. نرخ پاس GPT-Rosalind در تکالیف متنی ۴۵.۱٪ بود، اما در تکالیفی که نیاز به تحلیل فایل داشتند، به ۲۸.۱٪ سقوط کرد. به‌طور مشابه، نرخ پاس GPT-5.5 از ۲۹.۹٪ به ۲۱.۹٪ کاهش یافت.

برخی گردش‌کارها تقریباً غیرقابل عبور هستند. دسته‌بندی «طراحی، بهینه‌سازی و پیش‌بینی» یکی از سخت‌ترین‌ها بود و GPT-Rosalind تنها در ۳۰.۷٪ موارد موفق شد. تحلیل شواهد با ۳۰.۳٪ در رده بعدی قرار داشت. سخت‌ترین بخش از همه، تولید خروجی‌های دقیق (Exact outputs) بود؛ موفقیت در معیارهای توالی و ساختار در تمامی مدل‌ها تنها بین ۱۸.۰٪ تا ۴۶.۹٪ متغیر بود. در واقع، برتری GPT-Rosalind بر GPT-5.5 در موارد تولید/ساخت (generate/construct) تنها +۰.۰۰۱ بود که مقدار ناچیزی است.

مدل‌ها همچنین در میانه تکلیف متوقف شدند. برای GPT-Rosalind، ۱۰۹ تکلیف حداقل ۵۰٪ امتیاز رابریک را گرفتند اما باز هم نرخ پاس آن‌ها زیر ۲۰٪ بود. فضای رشد هنوز زیاد است: هیچ مدلی نتوانست ۱۷۱ تکلیف (۲۲.۸٪) را پاس کند و ۲۶۱ مورد (۳۴.۸٪) نرخ پاس زیر ۲۰٪ در بهترین مدل داشتند.

خلاصه نقاط قوت و ضعف

نقاط قوت:

پوشش گسترده در هفت گردش‌کار و هفت دامنه زیست‌شناسی.
رابریک‌های طراحی شده توسط متخصصان با ۱۹,۰۲۰ معیار اتمی قابل نمره‌دهی.
آثار جانبی واقع‌گرایانه شامل توالی‌ها، اشکال، جداول، PDFها و ساختارها.
اعتبارسنجی مستقل توسط ۴۵۳ بازبین متخصص (۹۷٪ دکترا).

نقاط ضعف:

ارزیابی تنها در حالت تک-مرحله‌ای؛ در حالی که پژوهش واقعی تکرارشونده و چند-مرحله‌ای است.
توسط OpenAI ساخته شده، شرکتی که اکثر مدل‌های ارزیابی‌شده را نیز تامین می‌کند.
انتشار عمومی ممکن است به دلیل محدودیت‌های ایمنی و لایسنس محدود شود.
۷۵۰ تکلیف نمی‌تواند تمام تخصص‌های علمی را پوشش دهد.

این تغییر در روش بنچمارک‌گذاری، پیش‌فرض‌های این حوزه را تغییر می‌دهد و ثابت می‌کند که «هوش عمومی» به معنای «صلاحیت علمی» نیست. نرخ بالای شکست در استدلال‌های چندمرحله‌ای و ادغام آثار جانبی نشان می‌دهد که جهش بعدی در Bio-AI نه از داده‌های بیشتر، بلکه از زمینه‌سازی (Grounding) بهتر در ساختارهای فیزیکی و شیمیایی حاصل خواهد شد.

پژوهشگران و توسعه‌دهندگان باید اکنون دموی «Interactive Rubric Grader» را بررسی کنند تا دقیقاً ببینند مدل‌ها کجا شکست می‌خورند. برای مثال، تکلیفی در «ترانسکریپتومیکس فضایی» (Spatial Transcriptomics) نیازمند خوشه‌بندی داده‌های Visium از یک اسلاید سرطان دهانه رحم FFPE به ۴ گروه k-means و توصیه درمان‌هایی مانند Enfortumab vedotin یا Patritumab deruxtecan بر اساس بیان F3، TROP2 یا HER2 است. مشاهده شکاف بین امتیاز جزئی و آستانه پاس ۷۰٪، دقیقاً نشان می‌دهد که LifeSciBench چه چیزی را اندازه‌گیری می‌کند.

گام بعدی شما

اگر توسعه‌دهنده ابزارهای Bio-AI هستید، دمو «Interactive Rubric Grader» را بررسی کنید تا نقاط شکست دقیق مدل‌ها را ببینید.
بر روی بهبود قابلیت‌های استخراج داده از فایل‌های PDF و ساختارهای شیمیایی تمرکز کنید، زیرا این‌ها گلوگاه اصلی عملکرد هستند.
برای ارزیابی مدل‌های خود، به‌جای معیارهای متنی ساده، از رابریک‌های چندوجهی و سخت‌گیرانه استفاده کنید.

اما این شکست‌ها تنها بخشی از تصویر است؛ چالش‌های سخت‌افزاری برای پردازش این حجم از داده‌های ساختاریافته حتی پیچیده‌تر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.