مدل تخصصی Bridgewater دقت تحلیل اسناد مالی را به ۸۴.۷٪ رساند

تصور کنید یک تحلیلگر ارشد مالی باشید که باید در هر لحظه تصمیم بگیرد کدام خبر از میان هزاران گزارش شرکتی واقعاً حیاتی است. طبق گزارش ۳ جولای ۲۰۲۶ از آزمایشگاه AIA متعلق به Bridgewater و Thinking Machines، مدل‌های عمومی هوش مصنوعی در این «سازه‌بندی سریع» (Triage) شکست می‌خورند.

این اتفاق نشان می‌دهد که برای استدلال‌های سطح بالای مالی، پرامپت‌نویسی ساده دیگر کافی نیست. در واقع، ارزش واقعی نه در دانش عمومی مدل، بلکه در تخصص خصوصی سرمایه‌گذاران انسانی است. مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — در اینجا باید به یک متخصص پوست تبدیل شود؛ یعنی همان فرآیند تنظیم دقیق (Fine-tuning) که مدل کلی را روی یک حوزه تخصصی متمرکز می‌کند.

همان‌طور که در تحلیل قبلی ما درباره‌ی جایگزینی گردش‌های کاری دستی توسط Claude اشاره کردیم، اتوماسیون کارهای پرزحمت در حال پیشرفت است، اما این بار هدف، دقت است نه فقط سرعت. این روند هم‌راستا با تلاش‌های شرکت Anthropic برای جایگزینی نرم‌افزارهای مالی سنتی است که می‌تواند جایگاه ارائه‌دهندگان داده‌های مالی را تغییر دهد. پژوهشگران شش تکلیف پیچیده را بررسی کردند؛ برای مثال، تشخیص اینکه آیا یک سند بانک مرکزی سیگنالی برای تغییر نرخ بهره در آینده دارد یا خیر.

به نقل از این گزارش، مدل‌های Gemini، Claude و GPT با پرامپت‌های ساده تنها به دقت ۵۰٪ رسیدند. حتی با دستورالعمل‌های خبره و سیستم رتبه‌بندی سه سطحی، دقت آن‌ها در محدوده ۷۰ تا ۸۰ درصد باقی ماند و نتوانستند به آستانه ۸۰٪ که برای استقرار قابل‌اعتماد لازم است، برسند.

هوش مصنوعی در آزمون مالی بریج‌واتر شکست خورد چون پاسخ‌ها عمومی نبودند

برای رفع این مشکل، تیم از پلتفرم Tinker استفاده کرد تا مدل Qwen3-235B را تنظیم کند. آن‌ها از یک روش هوشمند برای برچسب‌گذاری استفاده کردند: ابتدا یک مدل ارزان‌قیمت اختلافات بین برچسب‌های پیمانکاران و پیش‌بینی‌های AI را شناسایی می‌کرد و تنها موارد مورد مناقشه برای اصلاح نهایی به سرمایه‌گذاران انسانی گران‌قیمت ارجاع داده می‌شد.

بر اساس مستندات این پروژه، نتایج نهایی خیره‌کننده بود:

مدل تنظیم‌شده به دقت ۸۴.۷٪ دست یافت.
بهترین مدل پیشرو (Frontier) تنها ۷۸.۲٪ صحت داشت.
راهکار وزن‌های باز (Open Weights) — یعنی مدلی که «دستور پخت» آن علناً منتشر شده — ۱۴ برابر ارزان‌تر از مدل‌های تجاری اجرا شد.

علاوه بر این، گزارش اشاره می‌کند که بازگشت سرمایه در مدل‌های پرچم‌دار در حال کاهش است. برای مثال، GPT 5.4 حدود ۴۳٪ گران‌تر از نسخه ۵.۲ بود، اما تنها بهبود اندکی در دقت ایجاد کرد.

این نتیجه یک چرخش استراتژیک برای سازمان‌هاست. ثابت شد که آزمایشگاه‌های بزرگ، داده‌های ارزشمند و اختصاصی شرکت‌ها را جذب نکرده‌اند. شرکت‌هایی که بهترین داده‌های خود را به مدل‌های عمومی می‌دهند، در واقع در حال ساخت ابزاری هستند که روزی رقیب آن‌ها خواهد شد. در واقع، تکیه بر یک مدل واحد می‌تواند به یک ریسک تجاری تبدیل شود و لایه‌های مسیریابی هوشمندتر جایگزین مزیت رقابتی مدل‌های تک‌سویه می‌شوند.

با تنظیم مدل‌های باز، شرکت‌ها کنترل کامل روی داده‌ها، وزن‌ها و سخت‌افزارهای خود دارند. این رویکرد، دانش سازمانی خصوصی را به یک «خندق رقابتی» تبدیل می‌کند که هوش مصنوعی عمومی نمی‌تواند آن را breached کند.

گام بعدی شما

اگر داده‌های تخصصی دارید، به جای تکیه بر پرامپت‌های پیچیده، روی استراتژی‌های تنظیم دقیق (Fine-tuning) مدل‌های باز متمرکز شوید.
هزینه‌های استنتاج مدل‌های تجاری را با دقت مدل‌های باز در حوزه کاری خود مقایسه کنید.
برای پاک‌سازی داده‌های اختصاصی، خط لوله‌های «انسان در حلقه» (Human-in-the-loop) را پیاده‌سازی کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

هوش مصنوعی در آزمون مالی بریج‌واتر شکست خورد چون پاسخ‌ها عمومی نبودند

بر اساس مستندات این پروژه، نتایج نهایی خیره‌کننده بود:

مدل تنظیم‌شده به دقت ۸۴.۷٪ دست یافت.
بهترین مدل پیشرو (Frontier) تنها ۷۸.۲٪ صحت داشت.
راهکار وزن‌های باز (Open Weights) — یعنی مدلی که «دستور پخت» آن علناً منتشر شده — ۱۴ برابر ارزان‌تر از مدل‌های تجاری اجرا شد.

گام بعدی شما

اگر داده‌های تخصصی دارید، به جای تکیه بر پرامپت‌های پیچیده، روی استراتژی‌های تنظیم دقیق (Fine-tuning) مدل‌های باز متمرکز شوید.
هزینه‌های استنتاج مدل‌های تجاری را با دقت مدل‌های باز در حوزه کاری خود مقایسه کنید.
برای پاک‌سازی داده‌های اختصاصی، خط لوله‌های «انسان در حلقه» (Human-in-the-loop) را پیاده‌سازی کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل تخصصی Bridgewater دقت تحلیل اسناد مالی را به ۸۴.۷٪ رساند

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل تخصصی Bridgewater دقت تحلیل اسناد مالی را به ۸۴.۷٪ رساند

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل تخصصی Bridgewater دقت تحلیل اسناد مالی را به ۸۴.۷٪ رساند

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل تخصصی Bridgewater دقت تحلیل اسناد مالی را به ۸۴.۷٪ رساند

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران