تصور کنید هوش مصنوعی شما در میانه یک تحلیل پیچیده فارسی، ناگهان به انگلیسی تغییر زبان دهد. این اتفاق صرفاً یک خطای ظاهری نیست، بلکه نشانهای از فروپاشی استدلال و ناتوانی مدل در پیروی از دستورات است.
به نقل از مقالهای که در ۳۰ آوریل ۲۰۲۶ در arxiv.org منتشر شد، چارچوب TLPO یا بهینهسازی سیاست در سطح توکن (Token-Level Policy Optimization)، مشکل مزمن «سردرگمی زبانی» را در مدلهای زبانی بزرگ (Large Language Models - LLM) حل میکند. این متد تضمین میکند که مدلها در میانه جملات دچار تغییر زبان ناخواسته نشوند.
بر اساس مستندات این پژوهش، استراتژیهای پیشین مانند DPO، ORPO و GRPO در سطح «توالی» (Sequence) عمل میکردند؛ یعنی کل پاسخ مدل را بهطور یکجا بهروزرسانی میکردند. این رویکرد خشن باعث میشد هوش کلی و تواناییهای استدلالی مدل در سایر وظایف کاهش یابد.
TLPO اما با یک مداخله جراحیگونه و در سه گام عمل میکند:
- شناسایی دقیق موقعیت توکنهای خطادار در پاسخ.
- جستوجو میان توکنهای جایگزین برای یافتن مسیر زبانی صحیح.
- اعمال یک هدف (Objective) اختصاصی برای سرکوب خروجیهای خطادار در سطح ذرهبینی.
همانطور که در تحلیلهای قبلی ما دربارهی همراستاسازی (Alignment) مدلهای زبانی اشاره کردیم، حرکت به سمت دقتهای محلی، کلید حفظ کیفیت در مدلهای چندزبانه است. اگرچه پژوهشگران درصد دقیقی از بهبود را در چکیده مقاله ذکر نکردند، اما تأکید دارند که TLPO بهطور قابلتوجهی از مدلهای پایه در حفظ ثبات زبانی پیشی گرفته است، بدون اینکه دقت در وظایف پاییندستی را فدا کند.
این تغییر رویکرد، نشاندهنده ترندی بزرگتر در تحقیقات هوش مصنوعی زاینده (Generative AI) است: گذار از پاداشهای کلی به اصلاحات نقطهای. در بازارهایی با تنوع زبانی بالا، توانایی حفظ مرزهای زبانی بدون از دست دادن هوش، به یک مزیت رقابتی حیاتی تبدیل شده است.
اما آیا این دقت در سطح توکن، سرعت استنتاج (Inference) را در زمان واقعی کاهش میدهد؟ پاسخ این پرسش در تحلیلهای بعدی ما دربارهی بهینهسازی لایههای مدل نهفته است.
گام بعدی شما
- اگر از مدلهای چندزبانه در محیط عملیاتی استفاده میکنید، پاسخها را برای «نشت زبانی» (Language Leakage) پایش کنید.
- مقالات مرتبط با «بهینهسازی سطح توکن» را برای بهبود دقت مدلهای محلی دنبال کنید.
- تستهای A/B را برای مقایسه مدلهای همراستاسازی شده با متدهای کلی در برابر متدهای نقطهای اجرا کنید.




گفتگو