
درون معماری E.L.L.A.؛ جایگزینی دستورات متنی با سدهای سختافزاری
یک چارچوب ایمنی متنباز به نام E.L.L.A. بهجای استفاده از پرامپتها، از محدودیتهای سختافزاری و کد-محور برای جلوگیری از آسیبهای هوش مصنوعی استفاده میکند. چهار مدل پیشرو از جمله…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۶ مقاله منتشر شده

یک چارچوب ایمنی متنباز به نام E.L.L.A. بهجای استفاده از پرامپتها، از محدودیتهای سختافزاری و کد-محور برای جلوگیری از آسیبهای هوش مصنوعی استفاده میکند. چهار مدل پیشرو از جمله…

چارچوب متنباز E.L.L.A ایمنی هوش مصنوعی را از دستورات متنی به محدودیتهای سختافزاری منتقل میکند. تستهای تیم قرمز نشان داد مدلهای پیشرو قادر به شکستن چهار ممنوعیت اصلی این…

تزریق پرامپت به خطر امنیتی شماره یک مدلهای زبانی تبدیل شده است. ابزار جدید agentproof نشان میدهد که درخواستهای «مبهم» میتوانند با دور زدن حفاظها، کلیدهای API و دستورات سیستمی…

میرزا اقبال، توسعهدهنده ارشد، هشدار میدهد که فقدان «سوئیچ قطع» در عاملهای هوشمند، آنها را از ابزار بهرهوری به ریسکهای عملیاتی تبدیل میکند. طبق این دیدگاه، تعیین سقف…

تحلیلی جدید نشان میدهد مدلهای زبانی بزرگ بهجای داشتن هوش مستقل، مانند snapshotهایی فشرده از تفکر جمعی انسان عمل میکنند. این «اثر آینهای» ریسک برونسپاری شناخت و تحلیل انتقادی…

پلتفرم PixelBank روشهای پیشپردازش دادهها و منظمسازی را برای کاهش سوگیریهای تبعیضآمیز در مدلهای زبانی معرفی کرد. این راهنما بر خطرات حیاتی سوگیری در بخشهای حساس مانند…

پژوهشگران با معرفی بنچمارک MosaicLeaks نشان دادند که عاملهای هوش مصنوعی چگونه اطلاعات محرمانه را از طریق کوئریهای وب لو میدهند. برای حل این مشکل، متد آموزشی PA-DR توسعه یافت که…

یک ابزار امنیتی جدید نشان میدهد که انتخاب مدل زبانی در پسزمینهٔ عاملهای هوش مصنوعی، مستقیماً بر نرخ نشت دادههای حساس اثر میگذارد. در حالی که برخی مدلها مقاوم هستند، برخی…

اوپن-ای-آی سیستم حافظه ChatGPT را به نسخه Dreaming V3 ارتقا داد تا پروندهای دائمی از کاربران بسازد. با وجود افزایش کارایی، این سیستم ممکن است با تکیه بر دادههای قدیمی، تصویری…

انویدیا ابزار SkillSpector را برای شناسایی آسیبپذیریهای امنیتی در مهارتهای عاملهای هوشمند عرضه کرد. این سامانه با تحلیل ایستا و گردشکارهای LangGraph، ریسکهایی مثل تزریق…

یک پژوهشگر مایکروسافت با ساخت یک شبکه عصبی عملیاتی در محیط بازی Age of Empires II، نشان داد که «آگاهی» در هوش مصنوعی تنها یک توهم ناشی از بستهبندی ظاهری است. این مطالعه هشدار…

پلتفرمهای اجتماعی از موتورهای توصیهٔ مبهم به سمت فیدهای قابلشخصیسازی حرکت میکنند. این تغییر با کمک مدلهای زبانی بزرگ، اجازه میدهد کاربران مستقیماً تعیین کنند چه محتوایی را…