مطالعهای تازه منتشرشده در پلتفرم arXiv بررسی کرده است که افزایش داده در چه شرایطی واقعاً برای پردازش زبانهای کممنبع آفریقایی مفید است. این پژوهش دو روش افزایش داده را آزمایش کرد: تولید مبتنی بر LLM با استفاده از مدل Gemini 2.5 Flash و بازنویسی معکوس با مدل NLLB-200 در دو زبان هausa و فونگبه که از نظر توانایی تولید متن توسط LLMها تفاوتهای اساسی دارند.
محققان اثربخشی این روشها را روی دو وظیفه سنجشیدهاند: شناسایی موجودیت نامدار (NER) با استفاده از معیار MasakhaNER 2.0 و برچسبگذاری اجزای کلام (POS) با معیار MasakhaPOS. برای شناسایی موجودیت نامدار، هیچکدام از روشهای افزایش داده عملکرد بهتری نسبت به خط پایه در هیچکدام از زبانها نشان ندادند. روش تولید مبتنی بر LLM حتی امتیاز F1 زبان هausa را ۰.۲۴ درصد و فونگبه را ۱.۸۱ درصد کاهش داد.
نتایج در برچسبگذاری اجزای کلام پیچیدهتر بود: روش تولید مبتنی بر LLM دقت فونگبه را ۰.۳۳ درصد بهبود بخشید، در حالی که بازنویسی معکوس هausa را ۰.۱۷ درصد بهتر کرد. اما بازنویسی معکوس دقت POS فونگبه را ۰.۳۵ درصد کاهش داد و تأثیر ناچیزی روی هausa داشت.
یافته قابل توجه این است که دادههای مصنوعی یکسان تولیدشده توسط LLM اثرات متضادی روی وظایف مختلف فونگبه داشتند؛ یعنی شناسایی موجودیت نامدار را بهبود داد اما برچسبگذاری اجزای کلام را تضعیف کرد. این موضوع نشان میدهد که ساختار وظیفه، بیش از کیفیت دادههای مصنوعی یا خود زبان هدف، نتایج افزایش داده را تعیین میکند.
این نتایج یک پیشفرض رایج در حوزه را به چالش میکشد: این باور که کیفیت بالاتر تولید LLM بهطور خودکار به نتایج بهتر افزایش داده منجر میشود. پژوهش راهنمایی عملی ارائه میدهد که افزایش داده باید بهعنوان مداخلهای وابسته به نوع وظیفه و نه راهحلی جهانی برای پردازش زبانهای کممنبع در نظر گرفته شود.
برای متخصصان پردازش زبان که روی زبانهای آفریقایی و سایر زبانهای کممنبع کار میکنند، پیام روشن است: پیش از استفاده گسترده، روشهای افزایش داده را روی وظیفه خاص خود آزمایش کنید، چون بهبود در یک حوزه ممکن است به قیمت افت عملکرد در حوزه دیگر تمام شود.

گفتگو