شکست GPT-5.5 در برابر Gosset؛ پیروزی داده‌های منتخب بر مدل‌های عمومی

تصور کنید قدرتمندترین مدل‌های زبانی جهان، ۷۰ درصد از حیاتی‌ترین داده‌های یک صنعت را نادیده بگیرند. اگر فکر می‌کنید GPT-5.5 پاسخ تمام سوالات تخصصی شما را دارد، سخت در اشتباهید.

به نقل از پژوهشی که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، پلتفرم Gosset در شناسایی داربست‌های دارویی برای سرطان و ایمنی، مدل‌های پیشرو را به‌طور کامل شکست داد. در این بنچمارک، Gosset با Claude Opus 4.7، GPT-5.5، Gemini 3.1 Pro و Perplexity sonar-pro مقایسه شد.

نتایج طبق گزارش این مطالعه تکان‌دهنده بود:

Gosset برای هر پرس‌وجو، ۳.۲ برابر بیشتر از برترین مدل‌های عمومی، داروهای تأییدشده را یافت.
این پلتفرم به دقت (Precision) کامل و بازخوانی (Recall) ۱۰۰ درصدی دست یافت.
تمرکز اصلی بر داروهای «دم‌بلند» (Long-tail) در مراحل پیش‌بالینی و داروی‌های توسعه‌یافته در آسیا بود.

این شکاف عملکردی به دلیل منبع داده‌هاست. در حالی که مدل‌های غول‌پیکر به جستجوی عمومی وب تکیه می‌کنند، Gosset از یک شاخص منتخب (Curated Index) در سطح هدف، مودالیته و اندیکاسیون استفاده می‌کند.

همان‌طور که در تحلیل قبلی ما درباره‌ی رانش پارامترهای پنهان اشاره کردیم، تکیه بر «جعبه سیاه» مدل زبانی بزرگ (Large Language Model) در حوزه‌های حساس، ریسک حذف داده‌های حیاتی را به شدت افزایش می‌دهد. در واقع، مشکل اینجا نه در استدلال مدل، بلکه در بازیابی داده‌هاست.

برای حل این مشکل، محققان این شاخص را به عنوان یک سرور MCP (Model Context Protocol) معرفی کردند. این یعنی هر مدل پیشرو می‌تواند از این ابزار برای بازیابی دقیق داده‌ها استفاده کند و شکاف بازخوانی را پر کند.

اما این تنها بخشی از معماری جدید است؛ تأثیر این رویکرد بر آینده سخت‌افزارهای استنتاج (Inference) را در تحلیل ما درباره‌ی تراشه‌های Blackwell بررسی کنید.

گام بعدی شما

بررسی پروتکل MCP برای اتصال مدل‌ها به داده‌های اختصاصی.
جایگزینی جستجوی وب با شاخص‌های منتخب در گردش‌کارهای حساس.
مطالعه مقاله arxiv برای درک تفاوت Recall در مدل‌های عمومی.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

نتایج طبق گزارش این مطالعه تکان‌دهنده بود:

Gosset برای هر پرس‌وجو، ۳.۲ برابر بیشتر از برترین مدل‌های عمومی، داروهای تأییدشده را یافت.
این پلتفرم به دقت (Precision) کامل و بازخوانی (Recall) ۱۰۰ درصدی دست یافت.
تمرکز اصلی بر داروهای «دم‌بلند» (Long-tail) در مراحل پیش‌بالینی و داروی‌های توسعه‌یافته در آسیا بود.

گام بعدی شما

بررسی پروتکل MCP برای اتصال مدل‌ها به داده‌های اختصاصی.
جایگزینی جستجوی وب با شاخص‌های منتخب در گردش‌کارهای حساس.
مطالعه مقاله arxiv برای درک تفاوت Recall در مدل‌های عمومی.

شکست GPT-5.5 در برابر Gosset؛ پیروزی داده‌های منتخب بر مدل‌های عمومی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

شکست GPT-5.5 در برابر Gosset؛ پیروزی داده‌های منتخب بر مدل‌های عمومی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

شکست GPT-5.5 در برابر Gosset؛ پیروزی داده‌های منتخب بر مدل‌های عمومی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

شکست GPT-5.5 در برابر Gosset؛ پیروزی داده‌های منتخب بر مدل‌های عمومی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران