گوگل با TabFM مهندسی ویژگی‌های دستی در داده‌های جدولی را حذف کرد

دوران صرف ساعت‌ها وقت برای استخراج ویژگی‌های دستی از داده‌های جدولی به پایان رسیده است. تصور کنید مدل‌های یادگیری ماشین بتوانند بدون هیچ آموزشی روی داده‌های شما، تنها با دیدن چند نمونه، پیش‌بینی‌های دقیقی ارائه دهند.

طبق اعلام گوگل در ۳۰ ژوئن ۲۰۲۶، مدل TabFM به‌عنوان یک مدل بنیادی (Foundation Model) معرفی شده است که پیش‌بینی‌های طبقه‌بندی (Classification) و رگرسیون (Regression) را تنها در یک گام پیش‌رو (Forward Pass) و به‌صورت Zero-shot انجام می‌دهد.

چالش داده‌های جدولی و ضرورت تغییر

برای دهه‌ها، صنعت بر الگوریتم‌های نظارت‌شده‌ی مبتنی بر درخت مانند XGBoost، Random Forests و AdaBoost تکیه کرده است. با وجود استواری این مدل‌ها، دانشمندان داده مجبور بودند زمان زیادی را صرف «مهندسی ویژگی» (Feature Engineering) کنند تا سیگنال‌های قابل‌اعتماد را از داده‌های خام استخراج کنند. داده‌های جدولی ستون فقرات زیرساخت‌های سازمانی هستند و کاربردهایی حیاتی، از شناسایی کلاهبرداری‌های مالی تا پیش‌بینی ریزش مشتریان را مدیریت می‌کنند.

به نقل از گزارش research.google، چرخه سنتی توسعه مدل‌ها یک گلوگاه عملیاتی ایجاد می‌کند. برازش مدلی مانند XGBoost صرفاً یک دستور ساده مانند .fit() نیست؛ بلکه به‌ناچار نیازمند تلاش‌های دستی خسته‌کننده در بهینه‌سازی ابرپارامترها (Hyperparameter Optimization) است. این فرآیند اغلب بخش اعظم وقت یک دانشمند داده را می‌بلعد تا صرفاً بتواند یک سیگنال معنادار از داده‌های خام استخراج کند.

مدل TabFM با تغییر پارادایم، پیش‌بینی جدولی را به یک مسئله یادگیری در بستر متن (In-Context Learning یا ICL) تبدیل می‌کند. این رویکرد دقیقاً مشابه تکامل مدل‌های زبانی بزرگ (LLM) است که وظایف جدید را از طریق مثال‌ها و دستورات موجود در ورودی یاد می‌گیرند، بدون اینکه وزن‌های زیربنایی مدل تغییر کند. این تلاش برای رسیدن به یک مدل جامع، پاسخی به چالش‌هایی است که پیش‌تر در تحلیل بن‌بست‌های جست‌وجو برای مدل‌های جامع داده‌های جدولی مورد بررسی قرار گرفته بود.

در این ساختار، TabFM به‌جای به‌روزرسانی وزن‌ها برای هر مجموعه داده جدید، کل مجموعه داده — شامل مثال‌های آموزشی تاریخی و ردیف‌های هدف برای آزمون — را به‌عنوان یک «پرامپت» واحد دریافت می‌کند. این مدل روابط بین ستون‌ها و ردیف‌ها را در لحظه استنتاج (Inference) تفسیر می‌کند و نیاز به آموزش دستی مدل و مهندسی ویژگی‌های پیچیده را کاملاً از بین می‌برد.

نمودار عملکرد مدل TabFM در پیش‌بینی بدون آموزش بر روی داده‌های جدولی

جزئیات فنی: معماری ترکیبی

برای مدیریت ماهیت دوبعدی و بدون ترتیب جداول — جایی که جابه‌جایی ردیف‌ها یا ستون‌ها معنای داده را تغییر نمی‌دهد — TabFM نقاط قوت معماری‌های TabPFN و TabICL را ترکیب کرده است. مدل‌های زبانی استاندارد توالی‌های تک‌بعدی و مرتب را پردازش می‌کنند، اما داده‌های جدولی ذاتاً متفاوت‌اند.

بر اساس مستندات گوگل، این مدل از سه مکانیسم اصلی برای پیش‌بینی مقیاس‌پذیر استفاده می‌کند:

توجه متناوب ردیفی و ستونی: داده‌های خام از یک ماژول توجه (Attention) چندلایه عبور می‌کنند. مشابه رویکرد TabPFN، این مرحله به‌صورت متناوب توجه را روی هر دو بُعد ستون‌ها (ویژگی‌ها) و ردیف‌ها (نمونه‌ها) اعمال می‌کند. با تکرار این توجه متقاطع، مدل بازنمایی‌های غنی‌ای می‌سازد که به‌طور بومی تعاملات پیچیده و وابستگی‌های بین ویژگی‌ها را شناسایی می‌کند. این زمینه سازی عمیق، همان کار سنگینی را انجام می‌دهد که در حالت عادی نیازمند مهندسی ویژگی‌های دستی بود.
فشرده‌سازی ردیفی: پس از این مرحله‌ی زمینه‌سازی، اطلاعات غنی حاصل از توجه متقاطع برای هر ردیف مجزا، در قالب یک بردار معنایی (Embedding) متراکم و واحد فشرده می‌شود.
ترنسفورمر ICL: یک ترنسفورمر (Transformer) اختصاصی روی این توالی از بردارهای فشرده عمل می‌کند. با پذیرش رویکرد بسیار بهینه TabICL، اعمال توجه روی این بردارهای فشرده ردیفی — به‌جای شبکه خام و فشرده نشده — هزینه‌های محاسباتی را به‌شدت کاهش می‌دهد. این امر تضمین می‌کند که گام پیش‌بینی حتی برای مجموعه‌های داده بسیار بزرگتر نیز از نظر محاسباتی بهینه باقی بماند.

نمودار معماری مدل پایه TabFM برای داده‌های جدولی بدون نیاز به آموزش مجدد

معرفی TabFM: یک مدل بنیادین بدون نیاز به آموزش مجدد برای داده‌های جدولی

استراتژی آموزش: داده‌های مصنوعی در مقیاس کلان

هوش TabFM حاصل آموزش روی مقیاس بی‌سابقه‌ای از داده‌های مصنوعی است. یکی از موانع اصلی در یادگیری ماشین جدولی، کمبود داده‌های صنعتی باکیفیت و بازمتن است. جداول صنعتی اغلب حاوی طرح‌های اختصاصی و اطلاعات حساس هستند که دسترسی به آن‌ها را برای پیش‌آموزش گسترده غیرممکن می‌کند.

از آنجا که جداول مصنوعی را می‌توان به هر اندازه بزرگی تولید کرد، آن‌ها تنها گزینه عملی برای پیش‌آموزش یک مدل بنیادی در این مقیاس هستند. در نتیجه، گوگل TabFM را کاملاً روی صدها میلیون مجموعه داده مصنوعی آموزش داده است.

این مجموعه‌داده‌ها به‌صورت پویا با استفاده از مدل‌های علّی ساختاری (SCM) تولید شده‌اند که طیف گسترده‌ای از توابع تصادفی را در بر می‌گیرد. این حجم عظیم از تولیدات مصنوعی، توزیع‌های متنوع و روابط پیچیده ویژگی‌ها را که در داده‌های واقعی جدولی رایج است، شبیه‌سازی می‌کند و به مدل اجازه می‌دهد تا روی جداول واقعی و دیده‌نشده تعمیم یابد.

مدل بنیادین بدون نیاز به آموزش مجدد برای داده‌های جدولی

ارزیابی و بنچمارک

در آزمایش‌های رودررو و سخت‌گیرانه روی محک TabArena — سیستمی پویا که امتیاز Elo را بر اساس نرخ برد محاسبه می‌کند — TabFM توانایی‌های Zero-shot قدرتمندی نشان داد. این ارزیابی جامع شامل ۳۸ مجموعه داده طبقه‌بندی و ۱۳ مجموعه رگرسیون بود و حجم نمونه‌ها در آن از ۷۰۰ تا ۱۵۰,۰۰۰ ردیف متغیر بود. این رویکرد ارزیابی پیشرفته، مشابه تغییراتی است که در پروژه‌ی TimeVista برای جایگزینی معیارهای عددی با مدل‌های بینایی-زبانی در تحلیل سری‌های زمانی مشاهده شد.

گوگل دو پیکربندی متمایز را آزمایش کرد:

TabFM: نسخه استاندارد و آماده استفاده. این نسخه پیش‌بینی‌ها را در یک گام پیش‌رو، بدون هیچ‌گونه تنظیم (Tuning)، اعتبارسنجی متقاطع (Cross-validation) یا به‌روزرسانی وزن‌ها تولید می‌کند.
TabFM-Ensemble: این گونه با ادغام SVD (تجزیه مقادیر منفرد) و ویژگی‌های متقاطع (Cross Features)، عملکرد را ارتقا می‌دهد. این مدل از یک حل‌کننده حداقل مربعات غیرمنفی (Non-negative Least Squares) برای محاسبه وزن بهینه یک مجموعه ۳۲-گانه استفاده می‌کند. همچنین برای وظایف طبقه‌بندی، از Platt scaling به‌عنوان یک گام کالیبراسیون اضافی بهره می‌برد.

مدل بنیادین بدون نیاز به آموزش مجدد برای داده‌های جدولی

این تحول، فرض فنی قدیمی مبنی بر نیاز به مرحله آموزش اختصاصی و مجزا برای هر مجموعه داده ساختاریافته را می‌شکند. با تبدیل یک جدول به یک «پرامپت»، TabFM به‌طور مؤثری یادگیری ماشین با عملکرد بالا را برای کاربرانی که تخصص عمیقی در Gradient Boosting یا مقیاس‌بندی ویژگی‌ها ندارند، دموکراتیزه می‌کند.

برای متخصصان، اثر فوری این اتفاق، فروپاشی چرخه «برازش-تنظیم-ارزیابی» (fit-tune-evaluate) است. توانایی تولید پیش‌بینی‌های باکیفیت روی جداولی که پیش‌تر دیده نشده‌اند، بدون نیاز به به‌روزرسانی وزن‌ها، گامی به سوی یک رابط جدولی واقعاً جهانی است.

گوگل در حال ادغام TabFM به‌طور مستقیم در BigQuery است. در هفته‌های آینده، کاربران می‌توانند با استفاده از دستور SQL AI.PREDICT رگرسیون و طبقه‌بندی پیشرفته را اجرا کنند، بدون اینکه نیازی به مدیریت خط لوله‌های سنتی ML داشته باشند یا تخصص خاصی در ML کسب کنند.

گام بعدی شما

اگر از BigQuery استفاده می‌کنید، مستندات دستور AI.PREDICT را برای جایگزینی مدل‌های XGBoost قدیمی رصد کنید.
مجموعه‌های داده کوچک خود را با رویکرد Zero-shot تست کنید تا میزان کاهش نیاز به مهندسی ویژگی را بسنجید.
بررسی کنید که آیا داده‌های شما ساختار علّی دارند تا از پتانسیل‌های TabFM در تعمیم‌پذیری بهره ببرید.

اما تأثیر این مدل بر هزینه‌های پردازشی در مقیاس پترابایت‌ها هنوز مبهم است — به تحلیل ما درباره‌ی بهینه‌سازی‌های جدید در TPUها مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

چالش داده‌های جدولی و ضرورت تغییر

نمودار عملکرد مدل TabFM در پیش‌بینی بدون آموزش بر روی داده‌های جدولی

جزئیات فنی: معماری ترکیبی

بر اساس مستندات گوگل، این مدل از سه مکانیسم اصلی برای پیش‌بینی مقیاس‌پذیر استفاده می‌کند:

توجه متناوب ردیفی و ستونی: داده‌های خام از یک ماژول توجه (Attention) چندلایه عبور می‌کنند. مشابه رویکرد TabPFN، این مرحله به‌صورت متناوب توجه را روی هر دو بُعد ستون‌ها (ویژگی‌ها) و ردیف‌ها (نمونه‌ها) اعمال می‌کند. با تکرار این توجه متقاطع، مدل بازنمایی‌های غنی‌ای می‌سازد که به‌طور بومی تعاملات پیچیده و وابستگی‌های بین ویژگی‌ها را شناسایی می‌کند. این زمینه سازی عمیق، همان کار سنگینی را انجام می‌دهد که در حالت عادی نیازمند مهندسی ویژگی‌های دستی بود.
فشرده‌سازی ردیفی: پس از این مرحله‌ی زمینه‌سازی، اطلاعات غنی حاصل از توجه متقاطع برای هر ردیف مجزا، در قالب یک بردار معنایی (Embedding) متراکم و واحد فشرده می‌شود.
ترنسفورمر ICL: یک ترنسفورمر (Transformer) اختصاصی روی این توالی از بردارهای فشرده عمل می‌کند. با پذیرش رویکرد بسیار بهینه TabICL، اعمال توجه روی این بردارهای فشرده ردیفی — به‌جای شبکه خام و فشرده نشده — هزینه‌های محاسباتی را به‌شدت کاهش می‌دهد. این امر تضمین می‌کند که گام پیش‌بینی حتی برای مجموعه‌های داده بسیار بزرگتر نیز از نظر محاسباتی بهینه باقی بماند.

نمودار معماری مدل پایه TabFM برای داده‌های جدولی بدون نیاز به آموزش مجدد

معرفی TabFM: یک مدل بنیادین بدون نیاز به آموزش مجدد برای داده‌های جدولی

استراتژی آموزش: داده‌های مصنوعی در مقیاس کلان

مدل بنیادین بدون نیاز به آموزش مجدد برای داده‌های جدولی

ارزیابی و بنچمارک

گوگل دو پیکربندی متمایز را آزمایش کرد:

TabFM: نسخه استاندارد و آماده استفاده. این نسخه پیش‌بینی‌ها را در یک گام پیش‌رو، بدون هیچ‌گونه تنظیم (Tuning)، اعتبارسنجی متقاطع (Cross-validation) یا به‌روزرسانی وزن‌ها تولید می‌کند.
TabFM-Ensemble: این گونه با ادغام SVD (تجزیه مقادیر منفرد) و ویژگی‌های متقاطع (Cross Features)، عملکرد را ارتقا می‌دهد. این مدل از یک حل‌کننده حداقل مربعات غیرمنفی (Non-negative Least Squares) برای محاسبه وزن بهینه یک مجموعه ۳۲-گانه استفاده می‌کند. همچنین برای وظایف طبقه‌بندی، از Platt scaling به‌عنوان یک گام کالیبراسیون اضافی بهره می‌برد.

مدل بنیادین بدون نیاز به آموزش مجدد برای داده‌های جدولی

گام بعدی شما

اگر از BigQuery استفاده می‌کنید، مستندات دستور AI.PREDICT را برای جایگزینی مدل‌های XGBoost قدیمی رصد کنید.
مجموعه‌های داده کوچک خود را با رویکرد Zero-shot تست کنید تا میزان کاهش نیاز به مهندسی ویژگی را بسنجید.
بررسی کنید که آیا داده‌های شما ساختار علّی دارند تا از پتانسیل‌های TabFM در تعمیم‌پذیری بهره ببرید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گوگل با TabFM مهندسی ویژگی‌های دستی در داده‌های جدولی را حذف کرد

چالش داده‌های جدولی و ضرورت تغییر

جزئیات فنی: معماری ترکیبی

استراتژی آموزش: داده‌های مصنوعی در مقیاس کلان

ارزیابی و بنچمارک

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گوگل با TabFM مهندسی ویژگی‌های دستی در داده‌های جدولی را حذف کرد

چالش داده‌های جدولی و ضرورت تغییر

جزئیات فنی: معماری ترکیبی

استراتژی آموزش: داده‌های مصنوعی در مقیاس کلان

ارزیابی و بنچمارک

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گوگل با TabFM مهندسی ویژگی‌های دستی در داده‌های جدولی را حذف کرد

چالش داده‌های جدولی و ضرورت تغییر

جزئیات فنی: معماری ترکیبی

استراتژی آموزش: داده‌های مصنوعی در مقیاس کلان

ارزیابی و بنچمارک

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گوگل با TabFM مهندسی ویژگی‌های دستی در داده‌های جدولی را حذف کرد

چالش داده‌های جدولی و ضرورت تغییر

جزئیات فنی: معماری ترکیبی

استراتژی آموزش: داده‌های مصنوعی در مقیاس کلان

ارزیابی و بنچمارک

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران