GPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXINGGPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXING
پرش به محتوای مقاله

حلقه ارزیابی: قطعه گم‌شده‌ای در معماری AI که مانع از کشف علم می‌شود

·۱۳ خرداد ۱۴۰۵۴ دقیقه مطالعه
ریچارد ساتن، برنده جایزه تورینگ: هوش مصنوعی مولد خالص نمی‌تواند علم واقعی انجام دهد
ریچارد ساتن، برنده جایزه تورینگ: هوش مصنوعی مولد خالص نمی‌تواند علم واقعی انجام دهد
اشتراک‌گذاری
واقعاً چه چیز جدید است؟

جدا کردن صریح «تقلید» از «اکتشاف» بر اساس نبود حلقه ارزیابی؛ تفاوتی ساختاری که مدل‌های زبانی را از سیستم‌های موفق مثل AlphaGo متمایز می‌کند و نشان می‌دهد مقیاس بیشتر، لزوماً به معنای هوشمندی علمی نیست.

اگر امروز برای کشف پیشرفت‌های جدید در پزشکی یا فیزیک به مدل‌های زبانی تکیه کرده‌اید، احتمالاً در تعقیب یک سراب هستید. در ۱ ژوئن ۲۰۲۶، ریچارد ساتون، برنده جایزه تورینگ، استدلال کرد که هوش مصنوعی زاینده (Generative AI) معمولی اساساً ناتوان از اکتشافات علمی واقعی است؛ چرا که نمی‌تواند نتایج خود را ارزیابی کند.

این نقد درست زمانی مطرح شد که صنعت روی مدل‌های بزرگتر با داده‌های حجیم‌تر شرط‌بندی کرده است. ساتون که پدر یادگیری تقویت‌شده شناخته می‌شود، باور دارد تمرکز بر تقلید، مکانیسم واقعی دانش را نادیده می‌گیرد. او معتقد است مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیارد‌ها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — فقط یک دستیار است و نه یک دانشمند مستقل.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های استدلالی اشاره کردیم، تفاوت میان «تولید متن» و «رسیدن به حقیقت» در ساختار بازخورد است. طبق گزارش the-decoder.com، ساتون کشف واقعی را در سه مرحله تعریف می‌کند:

  • تنوع (Variation): تولید گزینه‌های مختلف.
  • ارزیابی (Evaluation): سنجش این گزینه‌ها بر اساس یک هدف مشخص.
  • حفظ گزینشی (Selective Retention): نگه داشتن تنها روش‌هایی که واقعاً اثر می‌کنند.

مدل‌های متنی و تصویری فعلی فقط مرحله اول را انجام می‌دهند. بدون راهی برای تشخیص اینکه آیا یک ایده «خوب» است یا نه، نوآوری‌ها صرفاً تصادفی باقی می‌مانند. ساتون به AlphaGo (به‌خصوص حرکت مشهور ۳۷)، AlphaFold، AlphaProof و Claude Code به عنوان استثنا اشاره می‌کند. این سیستم‌ها موفق‌اند چون «حلقه‌های ارزیابی» دارند؛ مثلاً یک رکورد برد/باخت در بازی یا یک تست واحد (Unit Test) در کدنویسی که تولید را به جست‌وجوی حقیقت تبدیل می‌کند.

برای مدیران کسب‌وکار، این یعنی ارزش فعلی AI در بهره‌وری است، نه اختراع. یک مدل زبانی می‌تواند پژوهش‌ها را سریع‌تر خلاصه کند، اما نمی‌تواند به‌طور مستقل یک فرضیه علمی را تغییر دهد. مزیت رقابتی از کسانی که «داده‌های بیشتر» دارند، به سمتی می‌رود که سیستم‌های «یادگیری مستمر» دقیق‌تری بسازند.

گام بعدی شما

  • به جای تکیه بر خروجی خام LLM، برای پروژه‌های فنی از سیستم‌های بازخورد خودکار (مثل تست‌های نرم‌افزاری) استفاده کنید.
  • بر روی معماری‌های عامل‌محور (Agentic) تمرکز کنید که قابلیت تعامل با محیط و اصلاح خطا دارند.
  • رشدهای معماری Oak را دنبال کنید که اولویت را به مدل‌های ذهنی درونی می‌دهد، نه آموزش ایستا.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

چرا این موضوع مهم است؟

این تحلیل توسط یکی از معتبرترین چهره‌های تاریخ علوم کامپیوتر ارائه شده و اعتبار ادعای «ناکارآمدی مدل‌های زبانی در علم» را بالا می‌برد. این موضوع باعث می‌شود استراتژی‌های توسعه از تمرکز صرف روی حجم داده به سمت طراحی سیستم‌های یادگیری مستمر حرکت کنند.

تأثیر برای ایران

این رویکرد برای پژوهشگران ایرانی که با محدودیت‌های سخت‌افزاری دست‌وپنج نرم می‌کنند، امیدوارکننده است؛ زیرا تمرکز از «مقیاس عظیم داده» به «طراحی هوشمندانه حلقه‌های بازخورد» تغییر می‌کند که نیاز به سخت‌افزار کمتری دارد.

·نگاه ما
تحریریه دات‌هوش

تحلیل ما این است که این نقد، پایان توهم «مقیاس‌بندی ساده» را می‌نویسد. اگر هدف ما ابزاری است که قوانین جدید فیزیک را کشف کند، نباید به دنبال مدل‌های بزرگتر، بلکه باید به دنبال معماری‌هایی باشیم که بتوانند در محیط واقعی شکست بخورند و از آن شکست یاد بگیرند؛ چیزی که در معماری فعلی Transformer جایگاهی ندارد.

منابع

گفتگو

شماره ۰۵۳پنج‌شنبه‌های هوش‌محور

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت — به‌علاوه ۳ بخش جدید. بدون هیاهو، هر پنج‌شنبه صبح.

خبر کلیدی
ابزار کاربردی
پرامپت حرفه‌ای
تحلیل پژوهش
به‌زودی
زاویه‌ی ایرانی
به‌زودی
تمرین این هفته
به‌زودی
۰۰:۰۰تا شماره بعدیهفته‌ی ۵۳ بدون وقفه