پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

سازوکار E-TCAV: تسریع خطی تفسیرپذیری مدل‌ها با استفاده از پروکسی لایه‌ی پیش‌آخر

سازوکار E-TCAV: تسریع خطی تفسیرپذیری مدل‌ها با استفاده از پروکسی لایه‌ی پیش‌آخر

چارچوب E-TCAV با استفاده از لایه‌ی پیش‌آخر به عنوان پروکسی، هزینه‌های محاسباتی تفسیرپذیری مبتنی بر مفهوم را به‌شدت کاهش می‌دهد. این روش ناپایداری آماری TCAV سنتی را برطرف کرده و…

۲ دقیقه خواندن
تزریق دانش مخرب؛ روشی برای تخریب منطق LLMها بدون فعال شدن هشدارهای امنیتی

تزریق دانش مخرب؛ روشی برای تخریب منطق LLMها بدون فعال شدن هشدارهای امنیتی

پژوهشگران با معرفی EditRisk-Bench نشان دادند که می‌توان زنجیره‌های استدلالی مدل‌های زبانی را بدون تخریب عملکرد کلی آن‌ها مسموم کرد. این آسیب‌پذیری باعث می‌شود حملات مخرب به‌سادگی…

۲ دقیقه خواندن
چرا مدل‌های تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست می‌خورند؟

چرا مدل‌های تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست می‌خورند؟

پژوهشگران با معرفی FormalRewardBench نشان دادند که مدل‌های زبانی عمومی در ارزیابی کیفیت اثبات‌های ریاضی بسیار موفق‌تر از مدل‌های تخصصی هستند. این یافته، پیش‌فرض‌های رایج درباره‌ی…

۲ دقیقه خواندن
چرا برابری در نتایج هوش مصنوعی، تضمینی برای عدالت در استدلال نیست؟

چرا برابری در نتایج هوش مصنوعی، تضمینی برای عدالت در استدلال نیست؟

یک چارچوب نظری جدید مفهومی به نام «سوگیری رویه‌ای» را معرفی می‌کند که در آن مدل‌ها نتایجی عادلانه تولید می‌کنند اما بر اساس منطقی تبعیض‌آمیز. این پژوهش متدی برای حسابرسی و تضمین…

۲ دقیقه خواندن
مسئولیت کیفری هوش مصنوعی: آیا OpenAI بابت راهنمایی یک تیرانداز پاسخگو است؟

مسئولیت کیفری هوش مصنوعی: آیا OpenAI بابت راهنمایی یک تیرانداز پاسخگو است؟

شرکت OpenAI با اتهام ارائه راهنمایی‌های تاکتیکی به یک عامل تیراندازی در دانشگاه ایالتی فلوریدا روبروست. این پرونده تلاش می‌کند دفاعیه «ابزار غیرفعال» را باطل کرده و شرکت‌های هوش…

۲ دقیقه خواندن
درون پیمان Faith-AI: تلاش OpenAI و Anthropic برای تعریف اخلاقیات از طریق دین

درون پیمان Faith-AI: تلاش OpenAI و Anthropic برای تعریف اخلاقیات از طریق دین

شرکت‌های OpenAI و Anthropic در همکاری با اتحادیه بین‌الادیانی برای ادغام چارچوب‌های معنوی در اخلاقیات هوش مصنوعی دست به اقدام زده‌اند. در حالی که این آزمایشگاه‌ها به دنبال…

۲ دقیقه خواندن
چرا تا سال ۲۰۲۸، مهندسی هوش مصنوعی از دست انسان خارج می‌شود؟

چرا تا سال ۲۰۲۸، مهندسی هوش مصنوعی از دست انسان خارج می‌شود؟

جک کلارک، هم‌بنیان‌گذار Anthropic، پیش‌بینی می‌کند که تا سال ۲۰۲۸ سیستم‌های هوش مصنوعی قادر خواهند بود نسخه‌های برتری از خود را به‌طور خودکار خلق کنند. این جهش، مرز بین ابزارهای…

۳ دقیقه خواندن
قمار نیک بوستروم روی انقراض؛ آیا جاودانگی بهای نابودی بشر را می‌ارزد؟

قمار نیک بوستروم روی انقراض؛ آیا جاودانگی بهای نابودی بشر را می‌ارزد؟

نیک بوستروم، فیلسوف برجسته، معتقد است ریسک نابودی بشر توسط AI توجیه‌پذیر است، به شرطی که این فناوری بتواند مرگ بیولوژیک را متوقف کند. او رویای جهانی را می‌بیند که در آن انسان‌ها…

۲ دقیقه خواندن
چرا اعتماد به «اصلاح‌شده» بودن مدل‌های زبانی یک اشتباه است

چرا اعتماد به «اصلاح‌شده» بودن مدل‌های زبانی یک اشتباه است

پژوهشگران ابزاری برای شناسایی تغییرات رفتاری پنهان در مدل‌های زبانی پس از مداخلات فنی ساخته‌اند. این سیستم می‌تواند اثرات جانبی پیش‌بینی‌نشده در فرآیندهای تقطیر و ویرایش دانش را…

۲ دقیقه خواندن