درون معماری Privacy Filter: چگونه OpenAI حجم محاسبات را ۳۰ برابر کاهش داد

داده‌های حساس شما احتمالاً همین حالا در حال نشت به خطوط آموزش مدل‌ها هستند، اما راهکار جدید دیگر نیازی به اتصال به ابر ندارد. تصور کنید ابزاری داشته باشید که پیش از خروج هر تکه داده از سیستم شما، تمام ردپاهای شناسایی شخصی را پاک کند، بدون اینکه ذره‌ای از حریم خصوصی شما به سرورهای خارجی ارسال شود.

در ۱۸ می ۲۰۲۴، شرکت OpenAI مدل Privacy Filter را تحت مجوز Apache 2.0 در Hugging Face منتشر کرد. به نقل از گزارش MarkTechPots، این ابزار یک سیستم طبقه‌بندی توکن‌های دوجهته (Bidirectional token-classification) است که به‌طور تخصصی برای پاک‌سازی داده‌ها در محیط‌های محلی (On-premises) طراحی شده است.

این مدل ۸ دسته‌ی حساس شامل شماره حساب‌ها، آدرس‌های خصوصی، ایمیل‌ها، نام افراد، شماره تلفن‌ها، URLها، تاریخ‌ها و «رمزها» (Secrets) را شناسایی می‌کند. بر اساس مستندات این شرکت، دسته‌ی «رمزها» برای شکار رشته‌های با آنتروپی بالا و فرمت‌های اعتبارنامه‌ای طراحی شده، هرچند ممکن است برخی فرمت‌های بسیار جدید را شناسایی نکند.

The user wants a short Persian (Farsi) translation for an image alt text in an article titled: "Top 7 Benchmarks That Actuall

دستاورد فنی این مدل در معماری ترکیب متخصصان پراکنده (Sparse Mixture-of-Experts یا MoE) نهفته است. در حالی که مدل در مجموع ۱.۵ میلیارد پارامتر دارد، اما در لحظه‌ی استنتاج (Inference) تنها از ۵۰ میلیون پارامتر فعال استفاده می‌کند. این کاهش ۳۰ برابری در محاسبات فعال، اجازه می‌دهد مدل روی سخت‌افارهای معمولی یا حتی مستقیماً در مرورگر وب اجرا شود.

مشخصات فنی کلیدی عبارتند از:

۸ بلوک ترنسفورمر pre-norm با عرض جریان باقی‌مانده ۶۴۰.
استفاده از توجه پرس‌وجوی گروهی (GQA) و جاسازی‌های موقعیتی دورانی (RoPE) برای پشتیبانی از پنجره بافت (Context window) ۱۲۸ هزار توکنی.
خط لوله‌ی آموزشی سه‌مرحله‌ای: پیش‌آموزش خودرگرسیونی، تبدیل معماری به توجه باندی دوجهته و پس‌آموزش نظارت‌شده.

برای تضمین دقت در حذف داده‌ها، این مدل به‌جای روش‌های ساده، از یک رمزگشای ویتربی (Viterbi decoder) با طرح برچسب‌گذاری BIOES (BIOES label scheme) استفاده می‌کند. این سیستم به مهندسان اجازه می‌دهد بدون نیاز به آموزش مجدد مدل، توازن بین دقت (Precision) و بازخوانی (Recall) را در زمان اجرا تنظیم کنند.

همان‌طور که در تحلیل قبلی ما درباره‌ی استراتژی OpenAI برای متن‌باز کردن ترمینال‌های عامل‌محور (Agentic Terminal) اشاره کردیم، این انتشار نشان‌دهنده‌ی یک چرخش راهبردی است. هدف، تجهیز توسعه‌دهندگان به مدل‌های کاربردی و سبک است تا نیاز به ارسال داده‌های حساس به APIهای شخص ثالث به‌طور کلی حذف شود.

گام بعدی شما

مدل Privacy Filter را از Hugging Face دریافت کرده و روی داده‌های محلی خود آزمایش کنید.
پارامترهای بایاس انتقال (transition-bias) را برای بهینه‌سازی دقت و بازخوانی متناسب با دیتای خود تنظیم کنید.
بررسی کنید که آیا فرمت‌های خاص شناسه‌های سازمان شما توسط دسته‌ی «secrets» شناسایی می‌شوند یا خیر.

اما این تنها بخشی از پازل است؛ تأثیر این مدل بر حاکمیت داده‌های سازمانی را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

The user wants a short Persian (Farsi) translation for an image alt text in an article titled: "Top 7 Benchmarks That Actuall

مشخصات فنی کلیدی عبارتند از:

۸ بلوک ترنسفورمر pre-norm با عرض جریان باقی‌مانده ۶۴۰.
استفاده از توجه پرس‌وجوی گروهی (GQA) و جاسازی‌های موقعیتی دورانی (RoPE) برای پشتیبانی از پنجره بافت (Context window) ۱۲۸ هزار توکنی.
خط لوله‌ی آموزشی سه‌مرحله‌ای: پیش‌آموزش خودرگرسیونی، تبدیل معماری به توجه باندی دوجهته و پس‌آموزش نظارت‌شده.

گام بعدی شما

مدل Privacy Filter را از Hugging Face دریافت کرده و روی داده‌های محلی خود آزمایش کنید.
پارامترهای بایاس انتقال (transition-bias) را برای بهینه‌سازی دقت و بازخوانی متناسب با دیتای خود تنظیم کنید.
بررسی کنید که آیا فرمت‌های خاص شناسه‌های سازمان شما توسط دسته‌ی «secrets» شناسایی می‌شوند یا خیر.

اما این تنها بخشی از پازل است؛ تأثیر این مدل بر حاکمیت داده‌های سازمانی را در گزارش بعدی بررسی خواهیم کرد.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون معماری Privacy Filter: چگونه OpenAI حجم محاسبات را ۳۰ برابر کاهش داد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون معماری Privacy Filter: چگونه OpenAI حجم محاسبات را ۳۰ برابر کاهش داد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون معماری Privacy Filter: چگونه OpenAI حجم محاسبات را ۳۰ برابر کاهش داد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون معماری Privacy Filter: چگونه OpenAI حجم محاسبات را ۳۰ برابر کاهش داد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران