اگر در حال طراحی سیستمهایی هستید که دادههای حیاتی پزشکی را استخراج میکنند، باید بدانید که یک توکن اشتباه میتواند کل پروندهی بیمار را بیاعتبار کند. تصور کنید سیستمی داشته باشید که تفاوت ظریف بین دو کد پزشکی مشابه را تشخیص نمیدهد؛ این دقیقاً همان نقطهای است که مدلهای فعلی شکست میخورند.
در ۱۶ ژوئن ۲۰۲۶، پژوهشگران مدل PVminerLLM2 را معرفی کردند. این مدل بهجای تقلید ساده از دادهها، استخراج ساختاریافته را به عنوان یک مسئلهی «ترجیحی» میبیند. همانطور که در تحلیلهای قبلی ما دربارهی چارچوبهای بهینهسازی سیاستها (Policy Optimization) اشاره کردیم، گذار از آموزشهای تکلیفی به سمت همراستاسازی هدفمند، کلید رسیدن به دقت سطح بالاست.
طبق مستندات منتشرشده در arxiv.org، این مدل سه تغییر فنی بنیادین را اعمال کرده است:
- پیادهسازی یک عبارت تثبیتکنندهی گیتدار در سطح توکن برای جلوگیری از افت احتمال توکنها حین بهینهسازی.
- ساخت جفتهای ترجیحی با رویکرد «آگاهی از سردرگمی» (Confusion-aware) برای تفکیک کدهای پزشکی بسیار مشابه.
- ترکیب وزندهی بر اساس اهمیت توکن و وزندهی معکوس فرکانس برای مدیریت عدم توازن کلاسها در دادههای بیماران.
به گزارش این مقاله، این تغییرات منجر به جهش قابلاندازهگیری در دقت مدل شد. بهطور مشخص، PVminerLLM2 در مقایسه با مدلهای پایه، افزایش دقت ۴.۴۳ درصدی در استخراج کدها، ۳.۵۰ درصد در زیرکدها و ۱.۵۵ درصد در استخراج بازهها (Span) را ثبت کرده است.
برای جامعهی فنی، این نتیجه به معنای آن است که تنظیم دقیق (Fine-tuning) در وظایف «حساس به توکن» به سقف توانایی خود رسیده است. ثابت شد که آموزش مدل دربارهی «آنچه باید اجتناب کند»، بسیار مؤثرتر از این است که صرفاً به او نشان دهیم «چه چیزی را تقلید کند».
گام بعدی شما
- اگر روی استخراج دادههای تخصصی کار میکنید، مدلهای آموزشدیده و اسکریپتهای ارزیابی این پروژه را از مخزن عمومی (Repository) دریافت کنید.
- روش «ساخت جفتهای ترجیحی» را برای تفکیک دادههای مشابه در دامنهی تخصصی خود پیادهسازی کنید.
- اثر بهینهسازی ترجیحی را در مقابل SFT سنتی روی خطاهای تکرارشوندهی مدل خود بسنجید.
اما تأثیر این رویکرد بر کاهش هزینههای استنتاج در مقیاس صنعتی، بحثی است که در گزارشهای بعدی به آن خواهیم پرداخت.




گفتگو