
آنتروپیک علیه علیبابا: استخراج صنعتی قابلیتهای مدل کلود از طریق API
شرکت آنتروپیک علیبابا را به سرقت گسترده قابلیتهای مدل Claude از طریق حملات «تقطیری» متهم کرد. این حادثه نشان میدهد مدلهای پیشرو حتی بدون نشت وزنها، از طریق رابطهای…
موضوع
Alignment research, RLHF, Constitutional AI, safety training
۲۶۶ مقاله منتشر شده

شرکت آنتروپیک علیبابا را به سرقت گسترده قابلیتهای مدل Claude از طریق حملات «تقطیری» متهم کرد. این حادثه نشان میدهد مدلهای پیشرو حتی بدون نشت وزنها، از طریق رابطهای…

یک معماری مرجع جدید برای عاملهای هوش مصنوعی، پیشنهاد از اجرا را جدا میکند تا از اقدامات غیرقابلبازگشت ناشی از پرامپتهای مخرب جلوگیری شود. این سیستم با ایجاد یک مرز «بسته در…

گوگل قابلیت تعامل مستقیم با محیطهای نرمافزاری را به مدل Gemini 3.5 Flash اضافه کرد. این بهروزرسانی به توسعهدهندگان اجازه میدهد عاملهایی بسازند که بهطور بومی در مرورگر،…

دو غول هوش مصنوعی در یک رقابت سیاسی در نیویورک، میلیونها دلار برای تأمین نفوذ در کنگره هزینه کردند. با وجود حمایت مالی گسترده از کاندیدای طرفدار ایمنی، این استراتژی منجر به شکست…

پروژه متنباز SoulForge با جایگزینی قوانین سختگیرانه با مدلهای پیوند عاطفی، تلاش میکند تا خیانت هوش مصنوعی را از نظر روانشناختی غیرممکن کند. این سیستم از یک مدل ایمنی پنجلایه…

حملات تزریق پرامپت با گنجاندن دستورات مخرب در ورودیها، مدلهای زبانی را مجبور به نادیده گرفتن قوانین ایمنی میکنند. این آسیبپذیری منجر به نشت دادههای محرمانه و اجرای عملیات…

آزمایشگاه Armorer Labs یک سیستم تأیید لایهای را برای جایگزینی با پرامپتهای خستهکننده «بله/خیر» در عاملهای هوش مصنوعی پیشنهاد داده است. این مدل با طبقهبندی اقدامات بر اساس…

یادگیری تقویتی با پاداشهای قابلتأیید (RLVR) جایگزین بازخوردهای گرانقیمت انسانی شده و از تستهای واحد و اثباتهای ریاضی برای آموزش مدلها استفاده میکند. این سازوکار اجازه…

یک توسعهدهنده با ادغام Claude Sonnet 4.6 و AgentCore Payments، سیستمی را طراحی کرد که هر تراکنش مالی را به تایید دستی انسان گره میزند. این رویکرد با جایگزینی حفاظهای متنی با یک…

تحقیقات جدید نشان میدهد مدلهای زبانی بزرگ تفاوت میان «برچسبهای ساختاری» و «سبک نوشتاری» را تشخیص نمیدهند. این نقص ساختاری به مهاجمان اجازه میدهد با تقلید از لحن استدلالی مدل،…

برخی تحلیلگران معتقدند آزمایشگاههای هوش مصنوعی با ترویج ترس از فنای بشریت، ارزشهای مالی غیرواقعی خلق میکنند. این استراتژی تلاش میکند شکاف بین پیشرفتهای تدریجی فنی و انتظارات…

محک جدید CivBench نشان میدهد مدلهای زبانی پیشرو در حالی که استراتژیهای پیچیده را بهخوبی توصیف میکنند، در اجرای آنها در بلندمدت شکست میخورند. این آزمایشها «اثر سنسوریوم» را…