پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۶ مقاله منتشر شده

چهار هوش مصنوعی را به چالش شکست معماری ایمنی‌ام فرستادم — این یافته‌های آن‌هاست
آموزش کاربردی

درون معماری E.L.L.A.؛ جایگزینی دستورات متنی با سدهای سخت‌افزاری

یک چارچوب ایمنی متن‌باز به نام E.L.L.A. به‌جای استفاده از پرامپت‌ها، از محدودیت‌های سخت‌افزاری و کد-محور برای جلوگیری از آسیب‌های هوش مصنوعی استفاده می‌کند. چهار مدل پیشرو از جمله…

۲ دقیقه خواندن
چهار هوش مصنوعی را به چالش کشیدن معماری امنیتی‌ام — نتایج شگفت‌انگیز بود
آموزش کاربردی

تست تیم قرمز: E.L.L.A خروج داده‌ها را در سطح سخت‌افزار متوقف کرد

چارچوب متن‌باز E.L.L.A ایمنی هوش مصنوعی را از دستورات متنی به محدودیت‌های سخت‌افزاری منتقل می‌کند. تست‌های تیم قرمز نشان داد مدل‌های پیشرو قادر به شکستن چهار ممنوعیت اصلی این…

۲ دقیقه خواندن
ارسال عامل هوشمند بدون کلید قطع، یعنی خودت حادثه‌ای.
آموزش کاربردی

کلید توقف اضطراری؛ شرط لازم برای استقرار عامل‌های هوش مصنوعی در محیط عملیاتی

میرزا اقبال، توسعه‌دهنده ارشد، هشدار می‌دهد که فقدان «سوئیچ قطع» در عامل‌های هوشمند، آن‌ها را از ابزار بهره‌وری به ریسک‌های عملیاتی تبدیل می‌کند. طبق این دیدگاه، تعیین سقف…

۳ دقیقه خواندن
آینه‌ای که یاد گرفت پاسخ دهد
زندگی با AI

«اثر آینه‌ای»؛ ریسک برون‌سپاری تفکر انتقادی به مدل‌های زبانی

تحلیلی جدید نشان می‌دهد مدل‌های زبانی بزرگ به‌جای داشتن هوش مستقل، مانند snapshotهایی فشرده از تفکر جمعی انسان عمل می‌کنند. این «اثر آینه‌ای» ریسک برون‌سپاری شناخت و تحلیل انتقادی…

۱ دقیقه خواندن
تصویری از تحلیل تعصب در مدل‌های زبانی بزرگ و الگوریتم جستجوی دودویی برای یافتن کمترین مقدار در آرایه چرخشی مرتب شده.
آموزش کاربردی

«کاهش سوگیری»؛ راهبرد PixelBank برای عدالت در استخدام و بهداشت

پلتفرم PixelBank روش‌های پیش‌پردازش داده‌ها و منظم‌سازی را برای کاهش سوگیری‌های تبعیض‌آمیز در مدل‌های زبانی معرفی کرد. این راهنما بر خطرات حیاتی سوگیری در بخش‌های حساس مانند…

۷ دقیقه خواندن
نشت موزاییکی: آیا عامل پژوهشی شما می‌تواند راز نگه دارد؟

روش PA-DR نشت داده‌ها در عامل‌های پژوهشی را از ۳۴٪ به ۹.۹٪ رساند

پژوهشگران با معرفی بنچمارک MosaicLeaks نشان دادند که عامل‌های هوش مصنوعی چگونه اطلاعات محرمانه را از طریق کوئری‌های وب لو می‌دهند. برای حل این مشکل، متد آموزشی PA-DR توسعه یافت که…

۸ دقیقه خواندن
تست نشت اطلاعات در ۵ مدل زبانی بزرگ با حمله تزریق پرامپت: از ۰ تا ۹۰ درصد
آموزش کاربردی

کدام مدل زبانی در برابر نشت کلیدهای امنیتی مقاوم‌تر است؟

یک ابزار امنیتی جدید نشان می‌دهد که انتخاب مدل زبانی در پس‌زمینهٔ عامل‌های هوش مصنوعی، مستقیماً بر نرخ نشت داده‌های حساس اثر می‌گذارد. در حالی که برخی مدل‌ها مقاوم هستند، برخی…

۳ دقیقه خواندن
راهنمای SkillSpector انویدیا: اسکن مهارت‌های هوش مصنوعی برای یافتن ریسک‌های امنیتی با تحلیل ایستا و گزارش SARIF
آموزش کاربردی

SkillSpector چگونه حفره‌های امنیتی مهارت‌های AI را پیش از استقرار می‌یابد؟

انویدیا ابزار SkillSpector را برای شناسایی آسیب‌پذیری‌های امنیتی در مهارت‌های عامل‌های هوشمند عرضه کرد. این سامانه با تحلیل ایستا و گردش‌کارهای LangGraph، ریسک‌هایی مثل تزریق…

۷ دقیقه خواندن
شبکه عصبی ساخته‌شده از بز در Age of Empires II برای نقد علم هوش مصنوعی

درون آزمایش مایکروسافت برای به چالش کشیدن منطقِ آگاهی در مدل‌های زبانی

یک پژوهشگر مایکروسافت با ساخت یک شبکه عصبی عملیاتی در محیط بازی Age of Empires II، نشان داد که «آگاهی» در هوش مصنوعی تنها یک توهم ناشی از بسته‌بندی ظاهری است. این مطالعه هشدار…

۵ دقیقه خواندن
الگوریتم‌های کنترل‌شده توسط کاربر: تحول بعدی شبکه‌های اجتماعی

متا و تیک‌تاک کنترل الگوریتم‌های توصیه‌گر را به کاربران بازگرداندند

پلتفرم‌های اجتماعی از موتورهای توصیهٔ مبهم به سمت فیدهای قابل‌شخصی‌سازی حرکت می‌کنند. این تغییر با کمک مدل‌های زبانی بزرگ، اجازه می‌دهد کاربران مستقیماً تعیین کنند چه محتوایی را…

۴ دقیقه خواندن