این تصور که پیشرفت مدلهای زبانی یک موج یکنواخت است که تمام قابلیتها را همزمان بالا میبرد، یک توهم است. باید بدانید که هوش مصنوعی در مسیر تکامل، نه یک سطح صاف، بلکه چشماندازی ناهموار از توانمندیهای تکهتکه شده را خلق کرده است.
به نقل از پژوهشی که در ۱۱ مه ۲۰۲۶ در arxiv.org منتشر شد، این رشد نامتقارن مهارتهای AI در وظایف و دامنههای مختلف، نه یک نقص فنی، بلکه یک ویژگی ساختاری است که میتواند برای تقویت خلاقیت علمی به کار گرفته شود. همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای بازمتن دیدیم، درک محدودیتهای ساختاری مدلها، اولین قدم برای بهینهسازی آنهاست.
در حالی که صنعت بهشدت به دنبال مقیاسپذیری یکنواخت (Uniform Scaling) است، واقعیت این است که «هوش» یک مدل اغلب موزاییکی از جهشهای عملکردی بالا و شکافهای غافلگیرکننده است. برای کمیسازی این پدیده، پژوهشگران SciAidanBench را معرفی کردند؛ بنچمارکی (Benchmark) که خلاقیت علمی را از طریق شمارش ایدههای منحصربهفرد و منسجم برای پرسشهای باز اندازه میگیرد.
بر اساس مستندات این مطالعه که ۳۰ مدل مختلف (شامل ۱۹ مدل پایه از ۸ ارائهدهنده) را ارزیابی کرده، سه الگوی حیاتی شناسایی شده است:
- پروفایلهای واگرا: بهبود در خلاقیت عمومی لزوماً به معنای افزایش خلاقیت در حوزههای علمی نیست.
- جهشهای عملکردی: حتی قدرتمندترین مدلها نوسان شدیدی دارند؛ یعنی در برخی پرسشهای علمی درخشان و در برخی دیگر کاملاً ناتواناند.
- تکهتکگی دامنهها: هر مدل نقاط قوت نامتقارنی در زیرشاخههای مختلف علمی نشان میدهد.
این یافته، فرض بنیادین دربارهی انتخاب مدل را تغییر میدهد. بهجای جستوجو برای یک مدل «پیشرو» (Frontier Model) که تمام وظایف علمی را مدیریت کند، هدف باید به سمت ساخت مجموعههای فرا-مدلی (Meta-model ensembles) تغییر یابد. پژوهشگران با ترکیب نقاط قوت «ناهموار» چندین مدل از طریق محاسبات (Compute) در زمان استنتاج (Inference) و تجمیع دانش، سیستمهایی ساختند که بهطور مستمر از هر مدل زبانی بزرگ (LLM) منفرد پیشی میگیرند.
گام بعدی شما
- بهجای تکیه بر میانگین نمرات بنچمارک، «پروفایل توانمندی» (Capability Profile) هر مدل را در استک خود ترسیم کنید.
- استراتژیهای تجمیع مدلها را برای طوفان فکری (Brainstorming) بینرشتهای آزمایش کنید.
- منتظر انتشار عمومی مجموعه دادههای SciAidanBench باشید تا استراتژیهای Ensemble خود را بسنجید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این رویکرد بر نیاز به حافظه GPU را در تحلیلهای بعدی بررسی خواهیم کرد.




گفتگو