پرش به محتوای اصلی

موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

الگوریتم‌های کنترل‌شده توسط کاربر: تحول بعدی شبکه‌های اجتماعی

متا و تیک‌تاک کنترل الگوریتم‌های توصیه‌گر را به کاربران بازگرداندند

پلتفرم‌های اجتماعی از موتورهای توصیهٔ مبهم به سمت فیدهای قابل‌شخصی‌سازی حرکت می‌کنند. این تغییر با کمک مدل‌های زبانی بزرگ، اجازه می‌دهد کاربران مستقیماً تعیین کنند چه محتوایی را…

۴ دقیقه خواندن
اوپن‌ای‌آی بزرگ‌ترین مرکز داده خود را می‌خواهد و انویدیا هزینه آن را می‌پردازد

OpenAI دقت پیش‌بینی شکست‌های مدل‌های هوش مصنوعی را به ۹۲٪ رساند

پژوهشگران OpenAI روشی برای پیش‌بینی شکست‌های مدل‌های هوش مصنوعی توسعه داده‌اند که با جایگزینی تست‌های مصنوعی با مکالمات واقعی کاربران، دقت تشخیص خطاها را به شدت افزایش می‌دهد. این…

۴ دقیقه خواندن
ربات هوشمند مراقبت از پوست Allerbot - مشاوره شخصیزی شده پوست با هوش مصنوعی
آموزش کاربردی

حذف توهمات AI در تشخیص پوستی با تفکیک مدل زبانی از دیتابیس

توسعه‌دهنده‌ی AllerBot با جداسازی لایه‌ی تصمیم‌گیری از مدل زبانی، احتمال توهمات خطرناک در تشخیص حساسیت‌های پوستی را حذف کرد. این سامانه به جای تکیه بر وزن‌های مدل، احکام ایمنی را…

۷ دقیقه خواندن
موکلاو: استاندارد ضروری برای عامل‌های هوشمند مستقل هوش مصنوعی
آموزش کاربردی

۲ رکن اصلی MoClaw برای جلوگیری از اقدامات مخرب عامل‌های هوش مصنوعی

پروتکل MoClaw با جداسازی اهداف عامل‌های هوش مصنوعی از محدودیت‌های قانونی، نرخ خطای انحراف از هدف را به شدت کاهش می‌دهد. این سامانه با اجرای نظارت لحظه‌ای، مانع از اقدامات غیرمجاز…

۶ دقیقه خواندن
سه پاسخ متفاوت از مدل‌های پایه، دستورپذیر و گفتگویی به یک پرسش واحد
آموزش کاربردی

تأثیر ۳ سطح آموزش بر تبدیل تکمیل‌کننده متن به دستیار هوشمند

راهنمای عملی خانواده مدل‌های SmolLM2 تفاوت‌های حیاتی بین مدل‌های بنیادی، تنظیم‌شده برای دستورات و مدل‌های گفتگو-محور را بررسی می‌کند. درک این سه مرحله آموزشی توضیح می‌دهد چرا یک…

۶ دقیقه خواندن۲
نبرد درون‌شرکتی بر سر کلود میتوس ۵: چالش‌های توسعه هوش مصنوعی پیشرفته Anthropic
اخبار کوتاه روزانهگزارش تأییدنشده

درون ultimatun ۹۰ دقیقه‌ای دولت آمریکا برای تعطیلی مدل‌های Anthropic

دولت آمریکا به دلیل نگرانی از شکست امنیتی مدل‌های پیشرفته، دسترسی کاربران خارجی به Claude Mythos 5 و Fable 5 را مسدود کرد. این اقدام با واکنش تند صنعت همراه شده و هشدار می‌دهد که…

۸ دقیقه خواندن
هوش مصنوعی خطرناک در راه است، فارغ از هر اقدامی

مدل‌های بازمتن اثربخشیِ محدودیت‌های صادراتی آمریکا را کاهش دادند

دولت آمریکا دسترسی خارجی به مدل‌های پیشرفته Anthropic را به دلیل مخاطرات امنیتی مسدود کرد. با این حال، کارشناسان هشدار می‌دهند که محدود کردن یک شرکت بی‌فایده است، زیرا قابلیت‌های…

۴ دقیقه خواندن
چرا پرامپت‌های سیستمی می‌توانند مدل‌های زبانی را به سمت استبداد سوق دهند؟

سند AuAu در برابر لایه‌های ایمنی فعلی مدل‌های زبانی پیشرو

بنچمارک جدید AuAu نشان می‌دهد که ۱۵ مدل از ۱۷ مدل زبانی پیشرو، در برابر دستورات سیستمی که ترویج دیدگاه‌های استبدادی می‌کنند، آسیب‌پذیرند. این یافته‌ها نشان می‌دهد که لایه‌های…

۱ دقیقه خواندن