اگر فکر میکنید عصر منطق نمادین به پایان رسیده و فقط مدلهای زبانی بزرگ حرف اول را میزنند، سخت در اشتباهید. تصور کنید بتوانید بدون نیاز به میلیونهای دادهی برچسبدار، دقتی صنعتی در حوزههای فوقتخصصی به دست آورید.
به نقل از پژوهشی که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، یک چارچوب رویکرد عصبی-نمادین (Neurosymbolic approach) معرفی شده است که مشکل بحرانی «کمبود داده» را در شناسایی موجودات نامدار (Named Entity Recognition - NER) برای زبان ویتنامی حل میکند.
طبق اعلام محققان، این سیستم از یک خط لوله دو مرحلهای برای مدیریت پیچیدگیهای زبانی استفاده میکند:
- مرحله اول: یک مؤلفه مبتنی بر قانون (Rule-based) با گروهبندی دستههای رابطهای، پیچیدگی برچسبها را کاهش میدهد.
- مرحله دوم: مدلهای زبانی پیشآموزه برای استخراج با دقت بالا تنظیم دقیق (Fine-tuning) میشوند.
- پسپردازش: یک ماژول نهایی، برچسبهای دقیق را برای کاربر نهایی بازیابی میکند.
برای غلبه بر نبود دادههای برچسبگذاری شده، محققان از هوش مصنوعی زاینده (Generative AI) و مدلهای زبانی بزرگ (Large Language Models - LLMs) برای گسترش مجموعه دادهها استفاده کردند. این استراتژی باعث شد سیستم در پنج دامنه تخصصی، مدلهای پایه RoBERTa را با اختلاف زیاد شکست دهد:
- گونههای نادر: جهش امتیاز F1 از ۳۶٪ به ۶۰٪
- GAM: افزایش از ۷۳٪ به ۸۴٪
- خدمات مشتری: رشد از ۸۳٪ به ۹۰٪
- PhoNER_Covid19: بهبود از ۹۱٪ به ۹۴٪
- AI Fluent: رشد از ۸۰٪ به ۸۳٪
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای مدلهای زبانی در زبانهای کممنبع اشاره کردیم، وابستگی مطلق به دادههای حجیم، بزرگترین مانع پیش روی زبانهایی است که منابع دیجیتال محدودی دارند.
این نتایج ثابت میکند که در دامنههای تخصصی و کممنبع، همافزایی قوانین «سخت» نمادین و شبکههای «نرم» عصبی بسیار مؤثرتر از یادگیری عمیق به تنهایی است. این چارچوب مسیری عملی برای استقرار هوش مصنوعی با دقت بالا در صنایع خاص مانند لجستیک و بهداشت و درمان میگشاید.
اما این تنها بخشی از پازل است؛ تأثیر این رویکرد بر مدلهای استدلالی نسل بعد را در گزارش آتی بررسی میکنیم.
گام بعدی شما
- اگر در حوزههای تخصصی با کمبود داده مواجهید، ترکیب قوانین زبانی با مدلهای عصبی را جایگزین جمعآوری دادههای دستی کنید.
- از هوش مصنوعی زاینده برای تولید دادههای مصنوعی (Synthetic Data) جهت تقویت مجموعههای آموزشی استفاده کنید.
- بر روی معماریهای ترکیبی (Hybrid) برای کاهش توهمات مدل در استخراج موجودات نامدار تمرکز کنید.




گفتگو