اگر هنوز ساعتها وقت خود را صرف پاکسازی دستی مجموعهدادهها میکنید، در واقع در حال جنگیدن با ابزاری منسوخ هستید. باید بدانید که برتری رقابتی در دنیای مدلهای زبانی دیگر در گروی تغییر لایههای شبکه عصبی نیست، بلکه در گروی کیفیت دادههایی است که به مدل خورانده میشوند.
به نقل از گزارش arxiv.org در ۱۲ می ۲۰۲۶، چارچوب DataMaster ثابت کرد که مهندسی دادهی عاملمحور (Agentic) میتواند نرخ موفقیت در بنچمارک MLE-Bench Lite را ۳۲.۲۷٪ افزایش دهد، بدون آنکه هیچ تغییری در الگوریتم یادگیری ایجاد شود. همانطور که در تحلیلهای پیشین ما دربارهی رویکردهای دادهمحور در هوش مصنوعی اشاره کردیم، گلوگاه اصلی پیشرفت، دیگر قدرت محاسباتی نیست، بلکه کیفیت و نحوه انتخاب داده است.
طبق مستندات DataMaster، این سیستم بر سه رکن اصلی استوار است:
- درخت داده (DataTree): سازماندهی شاخههای مختلف مهندسی داده برای بررسی استراتژیهای جایگزین.
- استخر داده (Data Pool): مخزنی مشترک برای منابع دادهی خارجی کشفشده جهت اطمینان از بازاستفاده.
- حافظه جهانی (Global Memory): ثبت نتایج و یافتههای قابل تکرار در تمامی شاخهها.
علاوه بر نتایج در MLE-Bench، این عامل (Agent) در بنچمارک PostTrainBench نیز ارزیابی شد و در آزمون GPQA توانست با کسب امتیاز ۳۱.۰۲٪، مدلهای دستور-پذیر (Instruct models) با امتیاز ۳۰.۳۵٪ را شکست دهد.
این تحول نشان میدهد که مرز بعدی عملکرد در یادگیری ماشین، اتوماسیون فرآیند «شکار داده» است. DataMaster با تبدیل مهندسی داده از یک فرآیند مبتنی بر شهود انسانی به یک مسئلهی بهینهسازی ریاضی، وابستگی به متخصصی که دادهها را دستی گلچین میکند، کاهش داده و چرخه تکرار را به شدت تسریع میکند.
گام بعدی شما
- بررسی قابلیتهای DataMaster برای اتوماسیون خط لولههای داده در پروژههای تخصصی.
- رصد این موضوع که آیا این رویکرد عاملمحور در دادههای چندوجهی (Multimodal) نیز تکرارپذیر است یا خیر.
- تحلیل اثر کاهش نیاز به نظارت انسانی بر هزینههای عملیاتی تیمهای ML.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو