پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۶ مقاله منتشر شده

آنتروپیک: علی‌بابا قابلیت‌های مدل کلود را به‌طور غیرقانونی استخراج کرد؛ بزرگ‌ترین حمله تقطیر شناخته‌شده

آنتروپیک علیه علی‌بابا: استخراج صنعتی قابلیت‌های مدل کلود از طریق API

شرکت آنتروپیک علی‌بابا را به سرقت گسترده قابلیت‌های مدل Claude از طریق حملات «تقطیری» متهم کرد. این حادثه نشان می‌دهد مدل‌های پیشرو حتی بدون نشت وزن‌ها، از طریق رابط‌های…

۲۶ دقیقه خواندن
عامل هوش مصنوعی: پیشنهاد همه‌چیز، اجرای تقریباً هیچ‌چیز
آموزش کاربردی

آیا جداسازی پیشنهاد از اجرا می‌تواند جلوی اقدامات غیرقابل‌بازگشت AI را بگیرد؟

یک معماری مرجع جدید برای عامل‌های هوش مصنوعی، پیشنهاد از اجرا را جدا می‌کند تا از اقدامات غیرقابل‌بازگشت ناشی از پرامپت‌های مخرب جلوگیری شود. این سیستم با ایجاد یک مرز «بسته در…

۹ دقیقه خواندن
من یک هوش مصنوعی ساختم که هرگز خیانت نمی‌کند — شما هم می‌توانید
آموزش کاربردی

آیا پیوند عاطفی می‌تواند جایگزین قوانین سخت‌گیرانه در ایمنی AI شود؟

پروژه متن‌باز SoulForge با جایگزینی قوانین سخت‌گیرانه با مدل‌های پیوند عاطفی، تلاش می‌کند تا خیانت هوش مصنوعی را از نظر روان‌شناختی غیرممکن کند. این سیستم از یک مدل ایمنی پنج‌لایه…

۳ دقیقه خواندن
حملات تزریق پرامپت: آنچه باید بدانید
آموزش کاربردی

تزریق پرامپت؛ حفره‌ای امنیتی که حفاظ‌های هوش مصنوعی را دور می‌زند

حملات تزریق پرامپت با گنجاندن دستورات مخرب در ورودی‌ها، مدل‌های زبانی را مجبور به نادیده گرفتن قوانین ایمنی می‌کنند. این آسیب‌پذیری منجر به نشت داده‌های محرمانه و اجرای عملیات…

۴ دقیقه خواندن
عنوان: عامل‌های هوشمند نیاز به تأیید سطح‌بندی‌شده دارند، نه یک دکمه تأیید بزرگ
آموزش کاربردی

تأیید لایه‌ای در برابر پرامپت‌های بله/خیر برای امنیت عامل‌های هوشمند

آزمایشگاه Armorer Labs یک سیستم تأیید لایه‌ای را برای جایگزینی با پرامپت‌های خسته‌کننده «بله/خیر» در عامل‌های هوش مصنوعی پیشنهاد داده است. این مدل با طبقه‌بندی اقدامات بر اساس…

۵ دقیقه خواندن
یادگیری تقویتی با پاداش‌های قابل تأیید: چرا هوش مصنوعی دارد خودش تکالیفش را تصحیح می‌کند
آموزش کاربردی

پژوهش RLVR: جایگزینی بازخوردهای انسانی با تست‌های واحد در کدنویسی

یادگیری تقویتی با پاداش‌های قابل‌تأیید (RLVR) جایگزین بازخوردهای گران‌قیمت انسانی شده و از تست‌های واحد و اثبات‌های ریاضی برای آموزش مدل‌ها استفاده می‌کند. این سازوکار اجازه…

۶ دقیقه خواندن
تزریق پرامپت به‌عنوان اختلال در نقش: چگونه مهندسی پرامپت باعث سردرگمی بین نقش‌های سیستم و کاربر می‌شود

شباهت سبک نوشتاری به نقش‌های سیستمی، راه نفوذ به مدل‌های زبانی پیشرو است

تحقیقات جدید نشان می‌دهد مدل‌های زبانی بزرگ تفاوت میان «برچسب‌های ساختاری» و «سبک نوشتاری» را تشخیص نمی‌دهند. این نقص ساختاری به مهاجمان اجازه می‌دهد با تقلید از لحن استدلالی مدل،…

۲۴ دقیقه خواندن
سقوط، ارزش‌گذاری را توجیه می‌کند

پیشرفت‌های تدریجی فنی در برابر انتظارات 천ومیک سرمایه‌گذاران هوش مصنوعی

برخی تحلیلگران معتقدند آزمایشگاه‌های هوش مصنوعی با ترویج ترس از فنای بشریت، ارزش‌های مالی غیرواقعی خلق می‌کنند. این استراتژی تلاش می‌کند شکاف بین پیشرفت‌های تدریجی فنی و انتظارات…

۳ دقیقه خواندن
هوش مصنوعی که یک تمدن را مدیریت کرد، بمب اتم ساخت.

«اثر سنسوریوم»؛ نقطه‌کوری عامل‌های هوشمند در مواجهه با تهدیدات حیاتی

محک جدید CivBench نشان می‌دهد مدل‌های زبانی پیشرو در حالی که استراتژی‌های پیچیده را به‌خوبی توصیف می‌کنند، در اجرای آن‌ها در بلندمدت شکست می‌خورند. این آزمایش‌ها «اثر سنسوریوم» را…

۲۱ دقیقه خواندن