غلبه مدل ۰.۳ میلیارد پارامتری GLiNER2-PII بر فیلتر حریم خصوصی OpenAI

اگر تصور می‌کنید شناسایی دقیق داده‌های حساس (PII) مستلزم مدل‌های غول‌پیکر است، یک مدل ۰.۳ میلیارد پارامتری همین حالا این باور را به چالش کشیده است. باید بدانید که دقت در استخراج اطلاعات شناسایی شخصی، دیگر در انحصار مدل‌های تجاری با مقیاس عظیم نیست.

شناسایی اطلاعات شناسایی شخصی (Personally Identifiable Information - PII) ستون فقرات خطوط لوله‌ی داده‌های مدرن است، اما جمع‌آوری داده‌های واقعی برای آموزش مدل‌ها به‌دلیل قوانین سخت‌گیرانه حریم خصوصی تقریباً غیرممکن است. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های با وزن‌های باز (Open Weights) اشاره کردیم، دسترسی به داده‌های باکیفیت، تعیین‌کننده‌ی برنده در رقابت مدل‌های کوچک است.

به نقل از مقاله منتشر شده در arxiv.org در تاریخ ۱۲ مه ۲۰۲۶، مدل GLiNER2-PII توانسته است بالاترین امتیاز F1 را در سطح بازه (span-level) در بنچمارک SPY کسب کند. این مدل کوچک-مقیاس در رقابت با پنج سیستم رقیب، از جمله فیلتر حریم خصوصی اختصاصی OpenAI، عملکرد بهتری داشته است.

برای حل بحران کمبود داده، تیم پژوهشی یک خط لوله‌ی تولید داده‌های مصنوعی مبتنی بر محدودیت (Constraint-driven generation) طراحی کرد که منجر به ایجاد یک مجموعه داده چندزبانه شامل ۴٬۹۱۰ متن برچسب‌گذاری شده شد. ویژگی‌های فنی این مدل عبارتند از:

معماری فشرده با ۰.۳ میلیارد پارامتر (برگرفته از GLiNER2)
پشتیبانی از تاکسونومی گسترده شامل ۴۲ نوع مختلف از موجودیت‌های PII
تفکیک در سطح کاراکتر برای تشخیص دقیق مرزهای موجودیت‌ها

بر اساس مستندات پژوهشی، این نتیجه فرضیه رایج مبنی بر نیاز به مجموعه‌داده‌های عظیم واقعی یا پارامترهای غول‌پیکر برای رسیدن به دقت بالا را می‌شکند. این دستاورد مسیری عملی برای پیاده‌سازی سیستم‌های پاک‌سازی داده‌های حساس به‌صورت محلی، سبک و حافظه‌محور فراهم می‌کند.

گام بعدی شما

توسعه‌دهندگان می‌توانند مدل را از طریق Hugging Face دریافت و در استک‌های تولیدی خود ادغام کنند.
بررسی قابلیت تعمیم این روش تولید داده‌های مصنوعی به حوزه‌های حساس‌تر مانند پرونده‌های پزشکی.
مقایسه هزینه استنتاج (Inference) این مدل در مقایسه با APIهای ابری برای بهینه‌سازی هزینه‌ها.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ به تحلیل ما درباره‌ی بهینه‌سازی مدل‌های کوچک روی سخت‌افزارهای لبه مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

معماری فشرده با ۰.۳ میلیارد پارامتر (برگرفته از GLiNER2)
پشتیبانی از تاکسونومی گسترده شامل ۴۲ نوع مختلف از موجودیت‌های PII
تفکیک در سطح کاراکتر برای تشخیص دقیق مرزهای موجودیت‌ها

گام بعدی شما

توسعه‌دهندگان می‌توانند مدل را از طریق Hugging Face دریافت و در استک‌های تولیدی خود ادغام کنند.
بررسی قابلیت تعمیم این روش تولید داده‌های مصنوعی به حوزه‌های حساس‌تر مانند پرونده‌های پزشکی.
مقایسه هزینه استنتاج (Inference) این مدل در مقایسه با APIهای ابری برای بهینه‌سازی هزینه‌ها.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

غلبه مدل ۰.۳ میلیارد پارامتری GLiNER2-PII بر فیلتر حریم خصوصی OpenAI

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

غلبه مدل ۰.۳ میلیارد پارامتری GLiNER2-PII بر فیلتر حریم خصوصی OpenAI

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

غلبه مدل ۰.۳ میلیارد پارامتری GLiNER2-PII بر فیلتر حریم خصوصی OpenAI

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

غلبه مدل ۰.۳ میلیارد پارامتری GLiNER2-PII بر فیلتر حریم خصوصی OpenAI

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران