تیمی پژوهشی مطالعهای را منتشر کرده که چارچوب Safe-FedLLM را معرفی میکند؛ راهکاری نوآورانه برای رفع آسیبپذیریهای امنیتی در آموزش فدرال مدلهای زبانی بزرگ (FedLLM). این پژوهش که در arxiv.org منتشر شده، نگاهی مقدماتی اما قابلتوجه به جنبهای کمتوجه از یادگیری فدرال است.
یادگیری فدرال به سازمانها اجازه میدهد مدلهای زبانی را بهصورت مشترک آموزش دهند و دادهها را محلی نگه دارند. با این حال، بیشتر پژوهشهای موجود بر بهبود بهرهوری تمرکز کردهاند و مسائل امنیتی را نادیده گرفتهاند.
Safe-FedLLM این خلأ را با بررسی سطوح حمله احتمالی و توسعه سازوکارهای دفاعی هدفمند پر میکند.
پژوهشگران دو ویژگی بحرانی را شناسایی کردند. نخست، مدلهای زبانی در برابر حملات کلاینتهای مخرب آسیبپذیرند. دوم، بهروزرسانیهای LoRA (تطبیق رتبه پایین) الگوهای رفتاری متمایزی نشان میدهند.
{{img:0}}
این کشف کلیدی به Safe-FedLLM امکان میدهد با تحلیل این بهروزرسانیها، رفتار کلاینتها را ارزیابی کند.
معماری دفاعی سهسطحی این چارچوب شامل تحلیل در سطح گام (Step-Level)، ارزیابی مشارکت هر شرکتکننده (Client-Level)، و مقایسه با خطوط پایه (Shadow-Level) است. با تبدیل بهروزرسانیهای LoRA به نشانگرهای رفتاری چندبعدی، سیستم میتواند قبل از ادغام در مدل جهانی تشخیص دهد آیا کلاینتی مخربانه عمل میکند.
نتایج آزمایشی نشان میدهد Safe-FedLLM مقاومت در برابر کلاینتهای مخرب را بهبود میدهد و عملکرد رقابتی روی دادههای سالم حفظ میکند. این روش تأثیر دادههای مخرب را بدون کاهش محسوس سرعت آموزش سرکوب میکند و حتی با نسبتهای بالای کلاینت مخرب مؤثر باقی میماند.
این پژوهش را Mingxiang Tao و همکارانش انجام دادهاند. نسخه اول در ۱۲ ژانویه ۲۰۲۶ و نسخه بازنگریشده در ۱۴ آوریل ۲۰۲۶ ارائه شده است.

گفتگو