اگر در حال خودکارسازی مهندسی ویژگیها (Feature Engineering) برای دادههای جدولی هستید، دوران آزمون و خطاهای گرانقیمت را پشت سر گذاشتهاید.
طبق اعلام پژوهشگران در ۹ ژوئن ۲۰۲۶، ترکیب زنجیره تفکر (Chain-of-Thought) و جستجوی درختی مونتکارلو (Monte Carlo Tree Search یا MCTS) بهینهترین رویکرد برای مهندسی ویژگیهای مبتنی بر هوش مصنوعی زاینده (Generative AI) است. این یافته، نقشهراهی دقیق برای کاهش هزینههای بالای استخراج ویژگی از دادههای جدولی ارائه میدهد.
خودکارسازی ایجاد ویژگیها از جداول — که با نام LATTE شناخته میشود — همواره با فقدان بنچمارکهای استاندارد مواجه بود. همانطور که در تحلیل قبلی ما دربارهی چارچوب DiScO و متنوعسازی تفکر در مدلهای ریاضی اشاره کردیم، چالش اصلی در دادههای جدولی نیز تفکیک مؤلفههای استدلالی مؤثر از هزینههای محاسباتی اضافی بود.
به نقل از گزارش منتشرشده در arxiv.org، چارچوب LATTEArena با تجزیه ۱۵ روش شاخص به یک تاکسونومی ششبعدی، سه محور حیاتی را ارزیابی میکند: عملکرد، هزینه و پایداری. یافتههای فنی کلیدی این مطالعه عبارتند از:
- ترکیب زنجیره تفکر و MCTS بالاترین بهرهوری هزینه-به-عملکرد را دارد.
- فرمتهای خروجی RPN (Notation) در وظایف طبقهبندی (Classification) برتری دارند.
- فرمتهای خروجی مبتنی بر کد (Code-based) برای وظایف رگرسیون (Regression) مناسبتر هستند.
برای تضمین شفافیت، محققان این چارچوب ماژولار و بیش از ۴۰۰۰ گزارش اجرای عملیاتی (Execution Logs) را بهصورت عمومی منتشر کردند تا امکان مقایسه مستقیم تکنیکهای جدید فراهم شود.
تحلیل فنی این دادهها نشان میدهد که صنعت از «پرامپتنویسی جعبهسیاه» به سمت یک دیسیپلین مهندسی ماژولار حرکت میکند. این تغییر رویکرد، در راستای خروج از دوران تکیه بر شهودات است؛ موضوعی که در بررسی مفصل مهندسی ارزیابی برای تضمین قابلیت اطمینان LLMها بر لزوم جایگزینی «حس» با متدولوژیهای دقیق تأکید کردیم. LATTEArena ثابت کرد که همافزایی بین ساختارهای استدلالی خاص و فرمتهای خروجی، بسیار مهمتر از افزایش صرفِ اندازه مدل است. برای جامعه فنی، این بدان معناست که بنچمارکها اکنون میتوانند فراتر از امتیازات کلی رفته و دقیقاً دلیل شکست یا موفقیت یک متد LATTE را شناسایی کنند.
گام بعدی شما
- از ۴۰۰۰ گزارش اجرای عمومی برای بنچمارک کردن خط لولههای (Pipelines) مهندسی ویژگی داخلی خود استفاده کنید.
- بر اساس نوع داده (طبقهبندی یا رگرسیون)، فرمت خروجی مدل خود را به RPN یا کد تغییر دهید.
- بررسی کنید آیا مؤلفههای استدلالی ماژولار را میتوان در مدلهای زبانی کوچک (SLM) برای پردازشهای آنی (Real-time) تقطیر کرد؟
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک نحوه بهینهسازی این مدلها روی سختافزارهای لبه، به تحلیل ما دربارهی رایانش لبه مراجعه کنید.
گفتگو