تصور کنید هوش مصنوعی بتواند زبانی باستانی را بدون نیاز به یک تک معلم انسانی بیاموزد. اگر فکر میکنید کمبود دادههای متنی، بنبست مدلهای زبانی در زبانهای قدیمی است، باید نگاهی به پروژه Naamah بیندازید.
به نقل از مقاله پژوهشی منتشر شده در arxiv.org در ۲۹ آوریل ۲۰۲۶، تیمی از محققان موفق به ایجاد یک کورپوس «استاندارد نقرهای» برای شناسایی موجودات نامگذاری شده (Named Entity Recognition - NER) شدند که شامل ۱۰۲,۹۴۲ جمله است. این اقدام، پاسخی مستقیم به بحران شدید کمبود منابع برچسبگذاری شده در زبان سانسکریت کلاسیک است؛ مشکلی که تا پیش از این، تلاشهای سنتی یادگیری ماشین را با شکست مواجه میکرد.
بر اساس مستندات این پروژه، متدولوژی Naamah بر یک خط لوله دو مرحلهای برای تضمین دقت زبانی استوار است:
- بذرپاشی DBpedia: سیستم ابتدا موجودات کلیدی را از DBpedia استخراج میکند تا یک بنیاد واقعگرایانه ایجاد شود.
- تولید ترکیبی: یک مدل استدلالی (Reasoning Model) با ۲۴ میلیارد پارامتر، این بذرها را به جملاتی تبدیل میکند که از نظر دستوری طبیعی و از نظر ساختاری متنوع هستند.
این مجموعهداده سپس به عنوان معیاری برای ارزیابی دو معماری ترنسفورمر متفاوت به کار گرفته شد: مدل حجیم و چندزبانه XLM RoBERTa و مدل بهینهتر IndicBERTv2.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای مدلهای زبانی در زبانهای کممنبع اشاره کردیم، تمرکز صنعت در حال تغییر است. در حالی که ما پیشتر بررسی کردیم چگونه معماری DUAL-BLADE با کاهش ۴۲.۴ درصدی تأخیر در رمزگشایی، عملکرد لبه را بهبود بخشید، Naamah روی ضلع دیگر معادله یعنی «داده» تمرکز کرده است تا مشکل زبانهای کممنبع را حل کند.
با تکامل هوش مصنوعی زاینده (Generative AI)، نبرد بعدی بر سر این خواهد بود که آیا مجموعههای «استاندارد نقرهای» میتوانند بهطور کامل جایگزین برچسبهای «استاندارد طلایی» انسانی شوند یا خیر.
اما این تنها بخشی از پازل است؛ تأثیر این رویکرد بر مدلهای چندوجهی را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی متدولوژی تولید دادههای مصنوعی برای زبانهای محلی یا تخصصی.
- مقایسه عملکرد مدلهای IndicBERTv2 در برابر مدلهای عمومی در زبانهای کممنبع.
- مطالعه اثر مدلهای استدلالی در کاهش وابستگی به دادههای دستنویس.




گفتگو