تصور کنید پیچیدهترین معماهای بیولوژیکی نه توسط یک دکترای تخصصی، بلکه با یک پرامپت حل شوند. اگر فکر میکنید هوش مصنوعی زاینده (Generative AI) فقط یک دستیار برای نوشتن ایمیل است، باید بدانید مرزهای تخصص انسانی در آزمایشگاهها همین حالا در حال جابهجایی است.
طبق اعلام Anthropic در ۲۹ آوریل ۲۰۲۶، نتایج حاصل از BioMysteryBench (بیومایستریبنچ) نشان میدهد که نسلهای جدید Claude دیگر تنها همگام با دانشمندان نیستند، بلکه در برخی موارد از آنها پیشی گرفتهاند. این بنچمارک سختگیرانه، توانایی مدلها در حل وظایف پژوهشی باز در حوزه بیوانفورماتیک را میسنجد.
بر اساس مستندات این ارزیابی، BioMysteryBench از ۹۹ پرسش تخصصی استخراج شده از دادههای خام توالییابی DNA و RNA تشکیل شده است. ویژگی کلیدی این سیستم، «متد-ناپذیری» است؛ یعنی مدل صرفنظر از مسیر تحلیلی که طی میکند، تنها بر اساس صحت نتیجهی بیولوژیکی پاداش میگیرد.

در وظایفی که «قابل حل توسط انسان» تشخیص داده شده بودند، مدلها عملکردی برابر با متخصصان داشتند. اما نقطه تکاندهنده اینجاست: در ۲۳ مسئلهی «دشوار برای انسان» که پنلی متشکل از ۵ متخصص حوزه نتوانسته بودند پاسخی برای آنها بیابند، مدل Claude Mythos (کلود میتوس) به نرخ موفقیت ۳۰ درصد دست یافت.

این موفقیت از طریق استراتژی «دانای کل» حاصل شد؛ یعنی ترکیب دانش داخلی مدل از پروفایلهای مولکولی با تحلیل دادههای زنده. همانطور که در پوشش پیشین ما از مدلهای استدلالی پیشرفته دیدیم، توانایی تحلیل دادههای خام در حال تبدیل شدن به مزیت رقابتی اصلی است.
با این حال، یک «شکاف قابلیت» (Reliability Gap) بحرانی وجود دارد. در حالی که Claude مسائل ساده را با ثبات کامل حل میکند، پیروزیهای آن در مسائل دشوار «شکننده» است. به این معنا که مدل ممکن است در ۵ تلاش، تنها یک یا دو بار مسیر استدلالی درست را پیدا کند. این نشان میدهد مدلها بیشتر در حال «تصادفی یافتن» پاسخ درست هستند تا پیروی از یک متد علمی تکرارپذیر.
این نتایج با یافتههای Genentech و Roche در بنچمارک CompBioBench همسو است و تایید میکند که مدلهای پیشرو اکنون ابزارهایی کاربردی برای بیولوژی محاسباتی پیچیده هستند. اما داستان واقعی در اینجا شروع میشود؛ اثر این تحول بر سرعت کشف داروهای جدید را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مستندات BioMysteryBench برای درک متدولوژی ارزیابی مدلهای استدلالی.
- دنبال کردن بهروزرسانیهای Anthropic در زمینه تحلیل دادههای ژنتیکی و توالییابی.
- مطالعه مقایسهای نتایج Claude با بنچمارکهای تخصصی صنعت داروسازی.




گفتگو