اگر تصور میکنید سیستمهای تولید بازیابیافزا (Retrieval-Augmented Generation - RAG) تنها در زبان انگلیسی به بلوغ رسیدهاند، نتایج جدید در زبان اوکراینی این باور را به چالش میکشد. باید بدانید که دستیابی به دقت بالای ۹۵ درصد در درک اسناد پیچیده، دیگر یک هدف دوردست نیست، بلکه با تغییر استراتژی در مرحله بازیابی، اکنون قابل دستیابی است.
طبق گزارش منتشرشده در ۱۲ مه ۲۰۲۶ در وبسایت arxiv.org، یک خطلوله RAG مبتنی بر مدلهای Qwen3 توانست در لیدربورد خصوصی پنجمین تسک مشترک UNLP به دقت ۹۵.۹۸ درصد برسد. این دستاورد نشان میدهد که اولویت دادن به رابطه میان «پرسش» و «گزینههای پاسخ» در فاز بازیابی، کلید موفقیت در زبانهای غیرانگلیسی است.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای مدلهای زبانی در زبانهای کممنبع اشاره کردیم، ساختار پیچیده PDFها و ظرافتهای زبانی همواره سدی در برابر دقت مدلها بوده است. تسک UNLP تنها به دنبال پاسخ به سؤالات چندگزینهای نیست، بلکه سیستم باید دقیقاً سند و صفحهای که حاوی مدرک است را مکانیابی کند؛ امری که استانداردهای سختگیرانهای برای مبنیسازی (Grounding) و دقت بازیابی تعریف میکند.
بر اساس مستندات فنی، این سیستم از یک معماری سهمرحلهای بهره میبرد:
- بازیابی: استفاده از مدل Qwen3-Embedding-8B (بردار معنایی) با تکنیک تکهبندی متنی (Contextual Chunking) برای حفظ ساختار PDF.
- بازرتببندی: بهکارگیری مدل Qwen3-Reranker-8B که بهطور تخصصی تنظیم دقیق (Fine-tuning) شده تا رتبهبندی را بر اساس هر دو عامل «پرسش» و «گزینههای پاسخ» انجام دهد.
- تولید: مدل Qwen3-32B که وظیفه انتخاب پاسخ نهایی را از میان ۲ پاساژ برتر بازرتببندیشده بر عهده دارد.
دادههای بخش ارزیابی نشان میدهد که مرحله بازرتببندی، نرخ Recall@1 را از ۰.۶۹۵۷ به ۰.۷۹۳۵ رسانده است. همچنین، محدود کردن تولید نهایی به ۲ پاساژ برتر، دقت پاسخها را از ۰.۹۳۴۸ به ۰.۹۶۷۴ افزایش داد.
این تغییر رویکرد، نشاندهنده گذار از روشهای اکتشافی (Heuristics) پیچیده به سمت «آگاهی از فضای پاسخ» است. برای متخصصان فنی، این بدان معناست که بیشترین بهبود در عملکرد RAG نه از طریق افزایش اندازه مدل تولیدکننده، بلکه از طریق بهینهسازی مرحله بازرتببندی برای تطبیق با فرمت خروجی مورد انتظار حاصل میشود.
گام بعدی شما
- بررسی قابلیت تعمیم روش «بازرتببندی آگاه از پاسخ» به سایر زبانهای کممنبع یا تسکهای پرسش و پاسخ باز.
- ارزیابی نسخههای تقطیری (Distilled) و کوچکتر Qwen3-Reranker برای استقرار در لبه (Edge Deployment).
- تست اثر تکهبندی متنی بر مدلهای بازمتن برای کاهش نرخ توهم (Hallucination) در اسناد طولانی.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گفتگو