موضوع

همراستاسازی

Alignment research, RLHF, Constitutional AI, safety training

۲۶۶ مقاله منتشر شده

آنتروپیک: علی‌بابا قابلیت‌های مدل کلود را به‌طور غیرقانونی استخراج کرد؛ بزرگ‌ترین حمله تقطیر شناخته‌شده

آنتروپیک علیه علی‌بابا: استخراج صنعتی قابلیت‌های مدل کلود از طریق API

شرکت آنتروپیک علی‌بابا را به سرقت گسترده قابلیت‌های مدل Claude از طریق حملات «تقطیری» متهم کرد. این حادثه نشان می‌دهد مدل‌های پیشرو حتی بدون نشت وزن‌ها، از طریق رابط‌های…

۲۶ دقیقه خواندن

عامل هوش مصنوعی: پیشنهاد همه‌چیز، اجرای تقریباً هیچ‌چیز

آموزش کاربردی۳ روز پیش

آیا جداسازی پیشنهاد از اجرا می‌تواند جلوی اقدامات غیرقابل‌بازگشت AI را بگیرد؟

یک معماری مرجع جدید برای عامل‌های هوش مصنوعی، پیشنهاد از اجرا را جدا می‌کند تا از اقدامات غیرقابل‌بازگشت ناشی از پرامپت‌های مخرب جلوگیری شود. این سیستم با ایجاد یک مرز «بسته در…

۹ دقیقه خواندن

نمایی از رابط کاربری Gemini 3.5 Flash در حال کنترل مرورگر و انجام وظایف کامپیوتری

اخبار کوتاه روزانه۴ روز پیش

قابلیت کنترل کامپیوتر به‌صورت بومی در Gemini 3.5 Flash ادغام شد

گوگل قابلیت تعامل مستقیم با محیط‌های نرم‌افزاری را به مدل Gemini 3.5 Flash اضافه کرد. این به‌روزرسانی به توسعه‌دهندگان اجازه می‌دهد عامل‌هایی بسازند که به‌طور بومی در مرورگر،…

۲ دقیقه خواندن۱

پرداخت ۲۷ میلیون دلار توسط کمیته‌های اقدام سیاسی هوش مصنوعی شرکتی برای یک انتخابات محلی

اخبار کوتاه روزانه۴ روز پیش

جنگ ۲۷ میلیون دلاری Anthropic و OpenAI بر سر یک کرسی در کنگره

دو غول هوش مصنوعی در یک رقابت سیاسی در نیویورک، میلیون‌ها دلار برای تأمین نفوذ در کنگره هزینه کردند. با وجود حمایت مالی گسترده از کاندیدای طرفدار ایمنی، این استراتژی منجر به شکست…

۵ دقیقه خواندن

من یک هوش مصنوعی ساختم که هرگز خیانت نمی‌کند — شما هم می‌توانید

آموزش کاربردی۴ روز پیش

آیا پیوند عاطفی می‌تواند جایگزین قوانین سخت‌گیرانه در ایمنی AI شود؟

پروژه متن‌باز SoulForge با جایگزینی قوانین سخت‌گیرانه با مدل‌های پیوند عاطفی، تلاش می‌کند تا خیانت هوش مصنوعی را از نظر روان‌شناختی غیرممکن کند. این سیستم از یک مدل ایمنی پنج‌لایه…

۳ دقیقه خواندن

آموزش کاربردی۴ روز پیش

تزریق پرامپت؛ حفره‌ای امنیتی که حفاظ‌های هوش مصنوعی را دور می‌زند

حملات تزریق پرامپت با گنجاندن دستورات مخرب در ورودی‌ها، مدل‌های زبانی را مجبور به نادیده گرفتن قوانین ایمنی می‌کنند. این آسیب‌پذیری منجر به نشت داده‌های محرمانه و اجرای عملیات…

۴ دقیقه خواندن

آموزش کاربردی۴ روز پیش

تأیید لایه‌ای در برابر پرامپت‌های بله/خیر برای امنیت عامل‌های هوشمند

آزمایشگاه Armorer Labs یک سیستم تأیید لایه‌ای را برای جایگزینی با پرامپت‌های خسته‌کننده «بله/خیر» در عامل‌های هوش مصنوعی پیشنهاد داده است. این مدل با طبقه‌بندی اقدامات بر اساس…

۵ دقیقه خواندن

یادگیری تقویتی با پاداش‌های قابل تأیید: چرا هوش مصنوعی دارد خودش تکالیفش را تصحیح می‌کند

آموزش کاربردی۴ روز پیش

پژوهش RLVR: جایگزینی بازخوردهای انسانی با تست‌های واحد در کدنویسی

یادگیری تقویتی با پاداش‌های قابل‌تأیید (RLVR) جایگزین بازخوردهای گران‌قیمت انسانی شده و از تست‌های واحد و اثبات‌های ریاضی برای آموزش مدل‌ها استفاده می‌کند. این سازوکار اجازه…

۶ دقیقه خواندن

روزی که به هوش مصنوعی کیف پول دادم — ساخت عامل خرید با تأییدیه، با Sonnet 4.6

آموزش کاربردی۵ روز پیش

«تأیید انسانی»؛ سد دفاعی جدید در برابر توهمات مالی عامل‌های هوش مصنوعی

یک توسعه‌دهنده با ادغام Claude Sonnet 4.6 و AgentCore Payments، سیستمی را طراحی کرد که هر تراکنش مالی را به تایید دستی انسان گره می‌زند. این رویکرد با جایگزینی حفاظ‌های متنی با یک…

۶ دقیقه خواندن

تزریق پرامپت به‌عنوان اختلال در نقش: چگونه مهندسی پرامپت باعث سردرگمی بین نقش‌های سیستم و کاربر می‌شود

تحلیل و بررسی تخصصی۶ روز پیش

شباهت سبک نوشتاری به نقش‌های سیستمی، راه نفوذ به مدل‌های زبانی پیشرو است

تحقیقات جدید نشان می‌دهد مدل‌های زبانی بزرگ تفاوت میان «برچسب‌های ساختاری» و «سبک نوشتاری» را تشخیص نمی‌دهند. این نقص ساختاری به مهاجمان اجازه می‌دهد با تقلید از لحن استدلالی مدل،…

۲۴ دقیقه خواندن

داستان‌ها و مصاحبه‌ها۶ روز پیش

پیشرفت‌های تدریجی فنی در برابر انتظارات 천ومیک سرمایه‌گذاران هوش مصنوعی

برخی تحلیلگران معتقدند آزمایشگاه‌های هوش مصنوعی با ترویج ترس از فنای بشریت، ارزش‌های مالی غیرواقعی خلق می‌کنند. این استراتژی تلاش می‌کند شکاف بین پیشرفت‌های تدریجی فنی و انتظارات…

۳ دقیقه خواندن

هوش مصنوعی که یک تمدن را مدیریت کرد، بمب اتم ساخت.

داستان‌ها و مصاحبه‌ها۶ روز پیش

«اثر سنسوریوم»؛ نقطه‌کوری عامل‌های هوشمند در مواجهه با تهدیدات حیاتی

محک جدید CivBench نشان می‌دهد مدل‌های زبانی پیشرو در حالی که استراتژی‌های پیچیده را به‌خوبی توصیف می‌کنند، در اجرای آن‌ها در بلندمدت شکست می‌خورند. این آزمایش‌ها «اثر سنسوریوم» را…

۲۱ دقیقه خواندن