اگر تصور میکنید شناسایی دقیق دادههای حساس (PII) مستلزم مدلهای غولپیکر است، یک مدل ۰.۳ میلیارد پارامتری همین حالا این باور را به چالش کشیده است. باید بدانید که دقت در استخراج اطلاعات شناسایی شخصی، دیگر در انحصار مدلهای تجاری با مقیاس عظیم نیست.
شناسایی اطلاعات شناسایی شخصی (Personally Identifiable Information - PII) ستون فقرات خطوط لولهی دادههای مدرن است، اما جمعآوری دادههای واقعی برای آموزش مدلها بهدلیل قوانین سختگیرانه حریم خصوصی تقریباً غیرممکن است. همانطور که در تحلیلهای پیشین ما دربارهی مدلهای با وزنهای باز (Open Weights) اشاره کردیم، دسترسی به دادههای باکیفیت، تعیینکنندهی برنده در رقابت مدلهای کوچک است.
به نقل از مقاله منتشر شده در arxiv.org در تاریخ ۱۲ مه ۲۰۲۶، مدل GLiNER2-PII توانسته است بالاترین امتیاز F1 را در سطح بازه (span-level) در بنچمارک SPY کسب کند. این مدل کوچک-مقیاس در رقابت با پنج سیستم رقیب، از جمله فیلتر حریم خصوصی اختصاصی OpenAI، عملکرد بهتری داشته است.
برای حل بحران کمبود داده، تیم پژوهشی یک خط لولهی تولید دادههای مصنوعی مبتنی بر محدودیت (Constraint-driven generation) طراحی کرد که منجر به ایجاد یک مجموعه داده چندزبانه شامل ۴٬۹۱۰ متن برچسبگذاری شده شد. ویژگیهای فنی این مدل عبارتند از:
- معماری فشرده با ۰.۳ میلیارد پارامتر (برگرفته از GLiNER2)
- پشتیبانی از تاکسونومی گسترده شامل ۴۲ نوع مختلف از موجودیتهای PII
- تفکیک در سطح کاراکتر برای تشخیص دقیق مرزهای موجودیتها
بر اساس مستندات پژوهشی، این نتیجه فرضیه رایج مبنی بر نیاز به مجموعهدادههای عظیم واقعی یا پارامترهای غولپیکر برای رسیدن به دقت بالا را میشکند. این دستاورد مسیری عملی برای پیادهسازی سیستمهای پاکسازی دادههای حساس بهصورت محلی، سبک و حافظهمحور فراهم میکند.
گام بعدی شما
- توسعهدهندگان میتوانند مدل را از طریق Hugging Face دریافت و در استکهای تولیدی خود ادغام کنند.
- بررسی قابلیت تعمیم این روش تولید دادههای مصنوعی به حوزههای حساستر مانند پروندههای پزشکی.
- مقایسه هزینه استنتاج (Inference) این مدل در مقایسه با APIهای ابری برای بهینهسازی هزینهها.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ به تحلیل ما دربارهی بهینهسازی مدلهای کوچک روی سختافزارهای لبه مراجعه کنید.
گفتگو