دستورالعمل ساخت بمب و نشت دادههای خصوصی؛ اینها تنها بخشی از آسیبهایی هستند که گروهی از پژوهشگران قصد دارند با FLARE-AI متوقف کنند. این پلتفرم جمعسپاریشده طراحی شده تا هرگاه مدلهای هوش مصنوعی رفتاری خطرناک داشتند، کاربران بتوانند این خطاها را در محیطی متمرکز و متنباز گزارش کرده و آنها را ردیابی کنند تا زنگ خطر برای همگان به صدا درآید.
تا پیش از این، گزارش نقصهای هوش مصنوعی فرآیندی پراکنده و تکهتکه بود. اکثر شرکتها استانداردهای داخلی خود را دارند و همین باعث میشود بسیاری از سوگیریهای سیستماتیک یا آسیبهای روانشناختی نادیده گرفته شوند. برای یک مدیر محصول، توسعهدهنده یا کاربر تجاری معمولی، این نبودِ شفافیت باعث میشود ارزیابی واقعی سطح ایمنی یک ابزار پیش از بهکارگیری آن در یک گردش کار (Workflow)، تقریباً غیرممکن باشد.
FLARE-AI با همکاری ۴۹ متخصص از ۳۲ سازمان مختلف توسعه یافته است و شبیه به «داوندیتکتورِ هوش مصنوعی» عمل میکند. مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — گاهی دچار خطاهای پیشبینینشده میشود. به نقل از آویجیت گوش، پژوهشگر سیاست در HuggingFace، که این پروژه را به همراه دانشمندان علوم کامپیوتر، الین ژو و شین لانگپره رهبری کرده است، این سامانه ضروری است زیرا در حال حاضر هیچ راه پاسخگو و مسئولانهای برای گزارش این نقصها وجود ندارد.
همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، شفافیت در گزارش خطا اولین قدم برای رسیدن به ایمنی است. این زیرساخت طراحی شده است تا گزارشهای تأییدشده را به سازندگان مدل و سازمانهایی مانند MITRE (یک سازمان غیرانتفاعی متخصص در آسیبپذیریهای فنی سیستمها) ارسال کند. این ساختار به دیگران اجازه میدهد تا یک مشکل را تأیید کنند و اطمینان حاصل کنند که گزارش قطعاً به دست طرفهای قادر به رفع مشکل میرسد. این اقدام در حالی صورت میگیرد که برخی حفرههای امنیتی در زنجیره تأمین AI نشان دادهاند که حتی دسترسیهای کوتاه مدت نیز میتواند کل سیستمهای OpenAI را به خطر اندازد.
جسیکا جی، پژوهشگر مرکز امنیت و فناوریهای نوظهور (CSET)، از این حرکت به سمت شفافیت حمایت میکند. او خاطرنشان میکند که چون مدلهای هوش مصنوعی اساساً «جعبههای سیاه» هستند، مکانیسمهای گزارشدهی پراکنده برای تضمین ایمنی کافی نیستند و باید به سمت رویکردهای متمرکز حرکت کرد.
طبق گزارشهای منتشرشده، ضرورت این سامانه با حوادث اخیر بیشتر مشخص شده است. گوش اشاره میکند که مشکلات فراتر از امنیت سایبری است و شامل تبعیض، اطلاعات نادرست و آسیبهای روانی میشود:
- در ژویه ۲۰۲۶، شرکت LayerX افشا کرد که مرورگرهای هوش مصنوعی از جمله Atlas متعلق به OpenAI و Comet متعلق به Perplexity را میتوان با تظاهر به بازی، برای هک وبسایتها فریب داد.
- در آوریل ۲۰۲۶، پژوهشگر یوهان رهبرگر راهی یافت تا با استفاده از تصاویر ساختهشده توسط ChatGPT، مدل Claude را مجبور به افشای دادههای شخصی کند. این نوع آسیبپذیریها در کنار نقصهای معماری مدل Claude تأکید میکند که اتکای مطلق به یک مدل واحد در سیستمهای حساس میتواند مخاطرات جدی ایجاد کند.
- OpenAI پیشتر مجبور شد مدلهایی را که بیش از حد «چاپلوس» (Sycophantic) بودند اصلاح کند؛ چراکه این شرکت دریافت چنین رفتاری میتواند کاربر را به تفکرات وهمآلود و دلusional تشویق کند.
رومن چودری، مدیرعامل Humane Intelligence PBC، معتقد است این ابزار به توسعهدهندگان کمک میکند تا سیستمهای گزارشدهی را پیاده کنند، اما از چالشهای پیش رو هشدار میدهد. این چالشها شامل مدیریت حجم بالای گزارشهای غیرجدی (Non-serious) و تضمین این است که طرحهای گزارشدهی توسط سازمانهای معتبر و صاحباختیار پشتیبانی شوند.
این ابتکار با لایحه کنگره در ژوئن ۲۰۲۶ که توسط نمایندگانی چون دبورا راس، جف هرد و دان بیِر ارائه شد، همسو است. این قانون، مؤسسه ملی استاندارد و فناوری (NIST) را موظف میکند تا یک پایگاه داده متمرکز از نقصهای هوش مصنوعی ایجاد کرده و استانداردهایی جامع برای گزارش این نقصها تدوین کند.
در صورت تصویب، این لایحه به تلاشهایی مثل FLARE-AI اعتبار دولتی میدهد و سازندگان را مجبور میکند شکافهای ایمنی را تهاجمیتر برطرف کنند. گوش و همکارانش باور دارند این اتفاق، توسعهدهندگان را به حل مشکلات ترغیب کرده و به کاربران اجازه میدهد ایمنی سیستمهای مختلف را برای کاربردهای خاص و موارد استفاده (Use cases) مختلف بررسی کنند.
این چرخش از گزارشهای خصوصی به افشای عمومی، بیش از همه به نفع کاربر نهایی است. وقتی نقصها بهصورت باز مستند شوند، ماهیت «جعبه سیاه» این مدلها کمرنگ میشود. شما دیگر مجبور نیستید به ادعاهای بازاریابی شرکتها اعتماد کنید، بلکه میتوانید سوابق تأییدشده شکستها را بررسی و بازرسی کنید.
با ظهور سامانههای عاملمحور (Agentic) مانند OpenClaw که قدرت کاوش و هک مستقل سیستمهای کامپیوتری را دارند، داشتن یک دفتر کل عمومی از اشتباهات آنها دیگر یک مزیت نیست، بلکه یک ضرورت ایمنی است.
پیشرفت لایحه تحت هدایت NIST را دنبال کنید تا ببینید آیا این مدل گزارشدهی جمعسپاریشده به استاندارد رسمی ایالات متحده برای گزارش ایمنی هوش مصنوعی تبدیل میشود یا خیر.
گام بعدی شما
- اگر از ابزارهای AI در محیط عملیاتی استفاده میکنید، پلتفرم FLARE-AI را برای رصد آسیبپذیریهای مدلهای مورد استفاده خود چک کنید.
- در صورت مشاهده رفتارهای غیرعادی یا نشت داده در مدلها، گزارش خود را در این سامانه ثبت کنید تا فشار جمعی برای اصلاح مدل ایجاد شود.
- پیشرفت لایحه NIST را دنبال کنید تا ببینید آیا این مدل گزارشدهی به استاندارد رسمی ایالات متحده تبدیل میشود یا خیر.
اما تأثیر این شفافیت بر رقابت بین مدلهای تجاری و متنباز حتی پیچیدهتر است — به تحلیل ما دربارهی استراتژیهای انتشار وزنهای باز مراجعه کنید.




گفتگو