
متا و تیکتاک کنترل الگوریتمهای توصیهگر را به کاربران بازگرداندند
پلتفرمهای اجتماعی از موتورهای توصیهٔ مبهم به سمت فیدهای قابلشخصیسازی حرکت میکنند. این تغییر با کمک مدلهای زبانی بزرگ، اجازه میدهد کاربران مستقیماً تعیین کنند چه محتوایی را…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۷ مقاله منتشر شده

پلتفرمهای اجتماعی از موتورهای توصیهٔ مبهم به سمت فیدهای قابلشخصیسازی حرکت میکنند. این تغییر با کمک مدلهای زبانی بزرگ، اجازه میدهد کاربران مستقیماً تعیین کنند چه محتوایی را…

دولت ترامپ انتشار مجدد مدل Fable 5 شرکت آنتروپیک را تا زمان اثبات حذف کامل آسیبپذیریهای جیلبریک متوقف کرده است. دولت معتقد است حفاظهای مدل قابل دور زدن هستند، در حالی که…

استارتآپ Pramaana Labs با جذب ۲۷ میلیون دلار سرمایه، در تلاش است تا با ادغام اثباتهای ریاضی در مدلهای زبانی، خطاهای بحرانی در حوزههای حقوق و پزشکی را به صفر برساند.

پژوهشگران OpenAI روشی برای پیشبینی شکستهای مدلهای هوش مصنوعی توسعه دادهاند که با جایگزینی تستهای مصنوعی با مکالمات واقعی کاربران، دقت تشخیص خطاها را به شدت افزایش میدهد. این…

توسعهدهندهی AllerBot با جداسازی لایهی تصمیمگیری از مدل زبانی، احتمال توهمات خطرناک در تشخیص حساسیتهای پوستی را حذف کرد. این سامانه به جای تکیه بر وزنهای مدل، احکام ایمنی را…

پروتکل MoClaw با جداسازی اهداف عاملهای هوش مصنوعی از محدودیتهای قانونی، نرخ خطای انحراف از هدف را به شدت کاهش میدهد. این سامانه با اجرای نظارت لحظهای، مانع از اقدامات غیرمجاز…

دولت ایالات متحده شرکت Anthropic را مجبور کرد تا مدلهای Fable 5 و Mythos 5 را بهدلیل ریسکهای امنیت سایبری بهطور جهانی مسدود کند. این تصمیم که پس از یک جیلبریک ساده اتخاذ شد،…

راهنمای عملی خانواده مدلهای SmolLM2 تفاوتهای حیاتی بین مدلهای بنیادی، تنظیمشده برای دستورات و مدلهای گفتگو-محور را بررسی میکند. درک این سه مرحله آموزشی توضیح میدهد چرا یک…

دولت آمریکا به دلیل نگرانی از شکست امنیتی مدلهای پیشرفته، دسترسی کاربران خارجی به Claude Mythos 5 و Fable 5 را مسدود کرد. این اقدام با واکنش تند صنعت همراه شده و هشدار میدهد که…

دولت ترامپ کنترلهای صادراتی بر مدل Claude Fable 5 شرکت Anthropic را حفظ کرد. این تصمیم پس از تأیید NSA مبنی بر امکان دور زدن گاردریلهای امنیتی این مدل در حوزه امنیت سایبری اتخاذ…

دولت آمریکا دسترسی خارجی به مدلهای پیشرفته Anthropic را به دلیل مخاطرات امنیتی مسدود کرد. با این حال، کارشناسان هشدار میدهند که محدود کردن یک شرکت بیفایده است، زیرا قابلیتهای…

بنچمارک جدید AuAu نشان میدهد که ۱۵ مدل از ۱۷ مدل زبانی پیشرو، در برابر دستورات سیستمی که ترویج دیدگاههای استبدادی میکنند، آسیبپذیرند. این یافتهها نشان میدهد که لایههای…