موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۶ مقاله منتشر شده

چهار هوش مصنوعی را به چالش شکست معماری ایمنی‌ام فرستادم — این یافته‌های آن‌هاست

درون معماری E.L.L.A.؛ جایگزینی دستورات متنی با سدهای سخت‌افزاری

یک چارچوب ایمنی متن‌باز به نام E.L.L.A. به‌جای استفاده از پرامپت‌ها، از محدودیت‌های سخت‌افزاری و کد-محور برای جلوگیری از آسیب‌های هوش مصنوعی استفاده می‌کند. چهار مدل پیشرو از جمله…

۲ دقیقه خواندن

چهار هوش مصنوعی را به چالش کشیدن معماری امنیتی‌ام — نتایج شگفت‌انگیز بود

آموزش کاربردیهفتهٔ گذشته

تست تیم قرمز: E.L.L.A خروج داده‌ها را در سطح سخت‌افزار متوقف کرد

چارچوب متن‌باز E.L.L.A ایمنی هوش مصنوعی را از دستورات متنی به محدودیت‌های سخت‌افزاری منتقل می‌کند. تست‌های تیم قرمز نشان داد مدل‌های پیشرو قادر به شکستن چهار ممنوعیت اصلی این…

۲ دقیقه خواندن

نمایش یک نشت عامل هوش مصنوعی و توانایی‌ها و محدودیت‌های اسکنر من در شناسایی آن

آموزش کاربردیهفتهٔ گذشته

OWASP: حملات تزریق پرامپت ۳۴۰٪ افزایش یافت

تزریق پرامپت به خطر امنیتی شماره یک مدل‌های زبانی تبدیل شده است. ابزار جدید agentproof نشان می‌دهد که درخواست‌های «مبهم» می‌توانند با دور زدن حفاظ‌ها، کلیدهای API و دستورات سیستمی…

۴ دقیقه خواندن

ارسال عامل هوشمند بدون کلید قطع، یعنی خودت حادثه‌ای.

آموزش کاربردیهفتهٔ گذشته

کلید توقف اضطراری؛ شرط لازم برای استقرار عامل‌های هوش مصنوعی در محیط عملیاتی

میرزا اقبال، توسعه‌دهنده ارشد، هشدار می‌دهد که فقدان «سوئیچ قطع» در عامل‌های هوشمند، آن‌ها را از ابزار بهره‌وری به ریسک‌های عملیاتی تبدیل می‌کند. طبق این دیدگاه، تعیین سقف…

۳ دقیقه خواندن

زندگی با AIهفتهٔ گذشته

«اثر آینه‌ای»؛ ریسک برون‌سپاری تفکر انتقادی به مدل‌های زبانی

تحلیلی جدید نشان می‌دهد مدل‌های زبانی بزرگ به‌جای داشتن هوش مستقل، مانند snapshotهایی فشرده از تفکر جمعی انسان عمل می‌کنند. این «اثر آینه‌ای» ریسک برون‌سپاری شناخت و تحلیل انتقادی…

۱ دقیقه خواندن

تصویری از تحلیل تعصب در مدل‌های زبانی بزرگ و الگوریتم جستجوی دودویی برای یافتن کمترین مقدار در آرایه چرخشی مرتب شده.

آموزش کاربردیهفتهٔ گذشته

«کاهش سوگیری»؛ راهبرد PixelBank برای عدالت در استخدام و بهداشت

پلتفرم PixelBank روش‌های پیش‌پردازش داده‌ها و منظم‌سازی را برای کاهش سوگیری‌های تبعیض‌آمیز در مدل‌های زبانی معرفی کرد. این راهنما بر خطرات حیاتی سوگیری در بخش‌های حساس مانند…

۷ دقیقه خواندن

نشت موزاییکی: آیا عامل پژوهشی شما می‌تواند راز نگه دارد؟

تحلیل و بررسی تخصصیهفتهٔ گذشته

روش PA-DR نشت داده‌ها در عامل‌های پژوهشی را از ۳۴٪ به ۹.۹٪ رساند

پژوهشگران با معرفی بنچمارک MosaicLeaks نشان دادند که عامل‌های هوش مصنوعی چگونه اطلاعات محرمانه را از طریق کوئری‌های وب لو می‌دهند. برای حل این مشکل، متد آموزشی PA-DR توسعه یافت که…

۸ دقیقه خواندن

تست نشت اطلاعات در ۵ مدل زبانی بزرگ با حمله تزریق پرامپت: از ۰ تا ۹۰ درصد

آموزش کاربردیهفتهٔ گذشته

کدام مدل زبانی در برابر نشت کلیدهای امنیتی مقاوم‌تر است؟

یک ابزار امنیتی جدید نشان می‌دهد که انتخاب مدل زبانی در پس‌زمینهٔ عامل‌های هوش مصنوعی، مستقیماً بر نرخ نشت داده‌های حساس اثر می‌گذارد. در حالی که برخی مدل‌ها مقاوم هستند، برخی…

۳ دقیقه خواندن

ارتقای حافظه ChatGPT هیجان‌انگیز است، اما یک نقطه ضعف آشکار شده است.

زندگی با AIهفتهٔ گذشته

درون Dreaming V3؛ تضاد میان کارایی حافظه و دقت شناخت کاربر

اوپن-ای-آی سیستم حافظه ChatGPT را به نسخه Dreaming V3 ارتقا داد تا پرونده‌ای دائمی از کاربران بسازد. با وجود افزایش کارایی، این سیستم ممکن است با تکیه بر داده‌های قدیمی، تصویری…

۸ دقیقه خواندن

راهنمای SkillSpector انویدیا: اسکن مهارت‌های هوش مصنوعی برای یافتن ریسک‌های امنیتی با تحلیل ایستا و گزارش SARIF

آموزش کاربردیهفتهٔ گذشته

SkillSpector چگونه حفره‌های امنیتی مهارت‌های AI را پیش از استقرار می‌یابد؟

انویدیا ابزار SkillSpector را برای شناسایی آسیب‌پذیری‌های امنیتی در مهارت‌های عامل‌های هوشمند عرضه کرد. این سامانه با تحلیل ایستا و گردش‌کارهای LangGraph، ریسک‌هایی مثل تزریق…

۷ دقیقه خواندن

شبکه عصبی ساخته‌شده از بز در Age of Empires II برای نقد علم هوش مصنوعی

تحلیل و بررسی تخصصی۲ هفته پیش

درون آزمایش مایکروسافت برای به چالش کشیدن منطقِ آگاهی در مدل‌های زبانی

یک پژوهشگر مایکروسافت با ساخت یک شبکه عصبی عملیاتی در محیط بازی Age of Empires II، نشان داد که «آگاهی» در هوش مصنوعی تنها یک توهم ناشی از بسته‌بندی ظاهری است. این مطالعه هشدار…

۵ دقیقه خواندن

الگوریتم‌های کنترل‌شده توسط کاربر: تحول بعدی شبکه‌های اجتماعی

اخبار کوتاه روزانه۲ هفته پیش

متا و تیک‌تاک کنترل الگوریتم‌های توصیه‌گر را به کاربران بازگرداندند

پلتفرم‌های اجتماعی از موتورهای توصیهٔ مبهم به سمت فیدهای قابل‌شخصی‌سازی حرکت می‌کنند. این تغییر با کمک مدل‌های زبانی بزرگ، اجازه می‌دهد کاربران مستقیماً تعیین کنند چه محتوایی را…

۴ دقیقه خواندن