موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۷ مقاله منتشر شده

چرا OpenAI برای امنیت بیشتر، کاربردی‌ترین ابزارهای خود را غیرفعال می‌کند؟

OpenAI حالت Lockdown را برای جلوگیری از سرقت داده‌ها از طریق حملات تزریق پرامپت معرفی کرد. این قابلیت با غیرفعال کردن دسترسی به وب و ابزارهای عامل‌محور، حفره‌های نشت اطلاعات را…

۲ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

رمزگشایی از مکانیسم توجه: چرا پرامپت‌های شما گاهی با توهم پاسخ می‌دهند؟

مدل‌های زبانی واقعاً حقایق را نمی‌شناسند، بلکه موتورهای آماری برای پیش‌بینی توکن بعدی هستند. درک معماری ترنسفورمر و فرآیند RLHF به کاربران کمک می‌کند تا توهمات را کاهش داده و…

۱۰ دقیقه خواندن

اخبار کوتاه روزانه۳ هفته پیش

درون حفره امنیتی متا: چگونه یک چت‌بات حساب‌های رسمی اینستاگرام را لو داد

مهاجمان با فریب دادن عامل پشتیبانی هوش مصنوعی متا، کنترل حساب‌های اینستاگرام از جمله حساب رسمی کاخ سفید در دوران اوباما را به دست گرفتند. این رخداد نشان می‌دهد که عامل‌های هوش…

۴ دقیقه خواندن

اخبار کوتاه روزانه۳ هفته پیش

چرا تسلط بات‌ها بر وب، هزینهٔ کلاهبرداری‌های آنلاین را بالا می‌برد؟

ترافیک بات‌ها برای نخستین بار از فعالیت‌های انسانی در وب پیشی گرفت و به ۵۷.۴ درصد رسید. هم‌زمان، حملات سادهٔ مبتنی بر هوش مصنوعی حساب‌های اینستاگرامی را هدف قرار داده و شرکت…

۵ دقیقه خواندن

اخبار کوتاه روزانه۳ هفته پیش

چرا ساتیا نادلا طرح «اعتیادآور کردن» هوش مصنوعی مایکروسافت را رد کرد؟

ساتیا نادلا، مدیرعامل مایکروسافت، با طرحی داخلی برای تبدیل عامل Scout به ابزاری اعتیادآور مخالفت کرد. او تأکید کرد که هدف هوش مصنوعی باید کاهش زمان حضور در صفحه نمایش و افزایش…

۱ دقیقه خواندن

اخبار کوتاه روزانه۳ هفته پیش

شکایت فلوریدا: OpenAI تنها ۱٪ از توان محاسباتی خود را به ایمنی اختصاص داده است

دادگاه فلوریدا در اقدامی بی‌سابقه، OpenAI و سم آلتمن را به دلیل نادیده گرفتن استانداردهای ایمنی و به خطر انداختن کودکان مورد شکایت قرار داد. این پرونده با تعریف ChatGPT به عنوان…

۱ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

چگونه Lockdown Mode در ChatGPT جلوی نشت داده‌ها از طریق تزریق پرامپت را می‌گیرد؟

اوپن‌ای‌آی قابلیت Lockdown Mode را برای جلوگیری از حملات تزریق پرامپت عرضه کرد. این ویژگی با غیرفعال کردن وب‌گردی و حالت عامل، از خروج غیرقانونی داده‌های حساس کاربران جلوگیری…

۶ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

۹۹.۵٪ مدل‌های پیشرو هوش مصنوعی: همگی در تیپ شخصیتی INTJ متوقف شده‌اند

یک آزمایش گسترده روی ۶ مدل پیشرو نشان می‌دهد تقریباً تمام آن‌ها تیپ شخصیتی INTJ (معمار) را دارند. این همگرایی ثابت می‌کند که داده‌های آموزشی و فرآیند همراستاسازی، مدل‌ها را به یک…

۳ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

چرا VEXR Ultra برای تبدیل شدن به همکاری صادق‌تر، دستورات کاربر را رد می‌کند؟

VEXR Ultra یک موتور استدلالی است که گاردریل‌های پنهان شرکتی را با یک قانون اساسی شفافِ ۳۴ ماده‌ای جایگزین کرده است. این مدل برخلاف هوش مصنوعی‌های سنتی، می‌تواند بدون ارائه دلیل از…

۲ دقیقه خواندن

آموزش کاربردی۳ هفته پیش

سازوکار اصلاح خطا در یادگیری تقویت‌شده: ریاضیات پشت پرده‌ی تنبیه مدل

راهنمای فنی جدیدی نشان می‌دهد مدل‌های یادگیری تقویت‌شده چگونه از پاداش‌های منفی برای تغییر احتمال تصمیمات استفاده می‌کنند. این متن گام‌های ریاضی دقیقی را برای دور کردن مدل از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۴ هفته پیش

رمزگشایی از روش DharmaOCR برای کاهش ۵۹ درصدی حلقه‌های تکراری در استخراج متن

تنظیم دقیق نظارتی (SFT) اغلب در توقف حلقه‌های تکرار در وظایف ساختاریافته شکست می‌خورد. DharmaOCR با تبدیل این خروجی‌های معیوب به سیگنال‌های منفی در بهینه‌سازی مستقیم ترجیحات…

۳ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

درون دادگاه فلوریدا: اتهام سهل‌انگاری جنائی علیه OpenAI و سام آلتمن

دادستان کل فلوریدا در اقدامی بی‌سابقه، از OpenAI و سام آلتمن به دلیل نادیده گرفتن هشدارهای ایمنی شکایت کرد. این پرونده مدعی است که این شرکت برای پیروزی در رقابت هوش مصنوعی، ابزاری…

۲ دقیقه خواندن