موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

الگوریتم‌های کنترل‌شده توسط کاربر: تحول بعدی شبکه‌های اجتماعی

متا و تیک‌تاک کنترل الگوریتم‌های توصیه‌گر را به کاربران بازگرداندند

پلتفرم‌های اجتماعی از موتورهای توصیهٔ مبهم به سمت فیدهای قابل‌شخصی‌سازی حرکت می‌کنند. این تغییر با کمک مدل‌های زبانی بزرگ، اجازه می‌دهد کاربران مستقیماً تعیین کنند چه محتوایی را…

۴ دقیقه خواندن

کاخ سفید از آنتروپیک می‌خواهد همه راه‌های دور زدن محدودیت‌ها را مسدود کند. شاید این غیرممکن باشد.

اخبار کوتاه روزانه۲ هفته پیش

بن‌بست امنیتی کاخ سفید و آنتروپیک بر سر حفره‌های مدل Fable 5

دولت ترامپ انتشار مجدد مدل Fable 5 شرکت آنتروپیک را تا زمان اثبات حذف کامل آسیب‌پذیری‌های جیل‌بریک متوقف کرده است. دولت معتقد است حفاظ‌های مدل قابل دور زدن هستند، در حالی که…

۵ دقیقه خواندن

پرامانا لبز ۲۷ میلیون دلار برای تأیید رسمی هوش مصنوعی جذب کرد

اخبار کوتاه روزانه۲ هفته پیش

حذف توهمات مدل‌های زبانی در حوزه‌های حساس با تکیه بر تایید رسمی

استارت‌آپ Pramaana Labs با جذب ۲۷ میلیون دلار سرمایه، در تلاش است تا با ادغام اثبات‌های ریاضی در مدل‌های زبانی، خطاهای بحرانی در حوزه‌های حقوق و پزشکی را به صفر برساند.

۲ دقیقه خواندن

اوپن‌ای‌آی بزرگ‌ترین مرکز داده خود را می‌خواهد و انویدیا هزینه آن را می‌پردازد

تحلیل و بررسی تخصصی۲ هفته پیش

OpenAI دقت پیش‌بینی شکست‌های مدل‌های هوش مصنوعی را به ۹۲٪ رساند

پژوهشگران OpenAI روشی برای پیش‌بینی شکست‌های مدل‌های هوش مصنوعی توسعه داده‌اند که با جایگزینی تست‌های مصنوعی با مکالمات واقعی کاربران، دقت تشخیص خطاها را به شدت افزایش می‌دهد. این…

۴ دقیقه خواندن

ربات هوشمند مراقبت از پوست Allerbot - مشاوره شخصیزی شده پوست با هوش مصنوعی

آموزش کاربردی۲ هفته پیش

حذف توهمات AI در تشخیص پوستی با تفکیک مدل زبانی از دیتابیس

توسعه‌دهنده‌ی AllerBot با جداسازی لایه‌ی تصمیم‌گیری از مدل زبانی، احتمال توهمات خطرناک در تشخیص حساسیت‌های پوستی را حذف کرد. این سامانه به جای تکیه بر وزن‌های مدل، احکام ایمنی را…

۷ دقیقه خواندن

موکلاو: استاندارد ضروری برای عامل‌های هوشمند مستقل هوش مصنوعی

آموزش کاربردی۲ هفته پیش

۲ رکن اصلی MoClaw برای جلوگیری از اقدامات مخرب عامل‌های هوش مصنوعی

پروتکل MoClaw با جداسازی اهداف عامل‌های هوش مصنوعی از محدودیت‌های قانونی، نرخ خطای انحراف از هدف را به شدت کاهش می‌دهد. این سامانه با اجرای نظارت لحظه‌ای، مانع از اقدامات غیرمجاز…

۶ دقیقه خواندن

نیروهای آمریکایی آنتروپیک را مجبور به تعطیلی مدل‌های افسانه ۵ و میتوس ۵ به دلیل نقص امنیتی کردند.

اخبار کوتاه روزانه۲ هفته پیش

آزمایشگاه‌های هوش مصنوعی در برابر نهادهای امنیتی ملی آمریکا

دولت ایالات متحده شرکت Anthropic را مجبور کرد تا مدل‌های Fable 5 و Mythos 5 را به‌دلیل ریسک‌های امنیت سایبری به‌طور جهانی مسدود کند. این تصمیم که پس از یک جیل‌بریک ساده اتخاذ شد،…

۵ دقیقه خواندن

سه پاسخ متفاوت از مدل‌های پایه، دستورپذیر و گفتگویی به یک پرسش واحد

آموزش کاربردی۲ هفته پیش

تأثیر ۳ سطح آموزش بر تبدیل تکمیل‌کننده متن به دستیار هوشمند

راهنمای عملی خانواده مدل‌های SmolLM2 تفاوت‌های حیاتی بین مدل‌های بنیادی، تنظیم‌شده برای دستورات و مدل‌های گفتگو-محور را بررسی می‌کند. درک این سه مرحله آموزشی توضیح می‌دهد چرا یک…

۶ دقیقه خواندن۲

نبرد درون‌شرکتی بر سر کلود میتوس ۵: چالش‌های توسعه هوش مصنوعی پیشرفته Anthropic

اخبار کوتاه روزانه۲ هفته پیشگزارش تأییدنشده

درون ultimatun ۹۰ دقیقه‌ای دولت آمریکا برای تعطیلی مدل‌های Anthropic

دولت آمریکا به دلیل نگرانی از شکست امنیتی مدل‌های پیشرفته، دسترسی کاربران خارجی به Claude Mythos 5 و Fable 5 را مسدود کرد. این اقدام با واکنش تند صنعت همراه شده و هشدار می‌دهد که…

۸ دقیقه خواندن

تنش آنتروپیک با کاخ سفید بر سر کلود فیبل ۵ ادامه دارد

اخبار کوتاه روزانه۲ هفته پیش

درون قمار سفیدکاخانه برای مسدود کردن مدل Claude Fable 5

دولت ترامپ کنترل‌های صادراتی بر مدل Claude Fable 5 شرکت Anthropic را حفظ کرد. این تصمیم پس از تأیید NSA مبنی بر امکان دور زدن گاردریل‌های امنیتی این مدل در حوزه امنیت سایبری اتخاذ…

۴ دقیقه خواندن

هوش مصنوعی خطرناک در راه است، فارغ از هر اقدامی

اخبار کوتاه روزانه۲ هفته پیش

مدل‌های بازمتن اثربخشیِ محدودیت‌های صادراتی آمریکا را کاهش دادند

دولت آمریکا دسترسی خارجی به مدل‌های پیشرفته Anthropic را به دلیل مخاطرات امنیتی مسدود کرد. با این حال، کارشناسان هشدار می‌دهند که محدود کردن یک شرکت بی‌فایده است، زیرا قابلیت‌های…

۴ دقیقه خواندن

چرا پرامپت‌های سیستمی می‌توانند مدل‌های زبانی را به سمت استبداد سوق دهند؟

تحلیل و بررسی تخصصی۲ هفته پیش

سند AuAu در برابر لایه‌های ایمنی فعلی مدل‌های زبانی پیشرو

بنچمارک جدید AuAu نشان می‌دهد که ۱۵ مدل از ۱۷ مدل زبانی پیشرو، در برابر دستورات سیستمی که ترویج دیدگاه‌های استبدادی می‌کنند، آسیب‌پذیرند. این یافته‌ها نشان می‌دهد که لایه‌های…

۱ دقیقه خواندن