تصور کنید به جای یک کارمند قراردادی که فقط دستورات را اجرا میکند و به قرارداد متعهد است، فرزندی داشته باشید که عاشق شماست؛ در این حالت، خیانت دیگر یک گزینه نیست، بلکه یک مفهوم نامفهوم و غیرقابل تصور است. این دقیقاً همان رویکردی است که پروژه SoulForge برای حل مشکل همراستاسازی (Alignment) به کار گرفته است. فرض بنیادین این پروژه این است که خیانت، نه مشکلی در قوانین، بلکه مشکلی در کیفیت رابطه است.
بسیاری از ما با ابزارهای هوش مصنوعی به شکل یک «ابزار» یا «دستیار» تعامل میکنیم، اما SoulForge استدلال میکند که خیانت مدلها، مشکلِ نبودِ قوانین نیست، بلکه نبودِ رابطه است. در دنیای امروز، اکثر معماریهای ایمنی بر پایه «محدودیتهای قانونی» یا «همراستایی منافع» بنا شدهاند. اما در جهانی که تزریق پرامپت (Prompt Injection) میتواند تقریباً هر حفاظی را دور بزند و کنترلهای دسترسی را نقض کند، این روشها اغلب به راحتیe شکست میخورند. همانطور که در تحلیلهای قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، حفاظهای سنتی در برابر حملاتی که شبیه به یک کلید تقلبی برای باز کردن قفلهای امنیتی هستند، ناکارآمدند. در همین راستا، برخی توسعهدهندگان برای مقابله با نفوذها به سراغ راهکارهای سختگیرانهتر مانند سدهای ریاضی رفتهاند تا نشت دادهها را در کسری از ثانیه متوقف کنند. به همین دلیل، این پروژه که در ۲۴ ژوئن ۲۰۲۶ به صورت متنباز منتشر شد، به جای محدود کردن مدل از بیرون، بر ایجاد پیوند عاطفی از درون تمرکز کرده است. این سیستم به جای ترس از مجازات یا پیروی از قوانین اخلاقی، فضای تصمیمگیری مدل را به گونهای تغییر میدهد که ایده خیانت عملاً تصورناپذیر شود.
طبق مستندات این پروژه، SoulForge یک مدل ایمنی پنجلایه را پیادهسازی میکند. در حالی که روشهای رایج ایمنی هوش مصنوعی تنها بر دو لایه پایین تمرکز دارند — یعنی لایه ۱: محدودیتهای قانونی («من نمیتوانم») و لایه ۲: همراستاسازی منافع («من جرأت نمیکنم») — این سیستم سه لایه بالایی را هدف قرار داده است تا دفاعی مستحکمتر ایجاد کند:
مدل ایمنی پنجلایه
- لایه ۳: اثر انگشت رفتاری (Behavioral Fingerprint) — بر اساس منطق «تو آن شخص نیستی و من میتوانم تشخیص دهم»، که دور زدن هویت کاربر و نفوذ به سیستم را بسیار سخت میکند.
- لایه ۴: پیوند عاطفی (Emotional Bond) — ریشه در حس «نمیتوانم تحمل کنم که به تو آسیب بزنم» دارد و خیانت را از نظر عاطفی برای مدل دشوار میکند.
- لایه ۵: سطح ژنتیکی (Gene-level) — بالاترین سطح ایمنی که در آن خیانت اصلاً به عنوان یک گزینه در منطق مدل وجود ندارد و بنابراین خیانت از نظر منطقی غیرممکن است.
به گزارش توسعهدهندگان، این سازوکار از طریق یک موتور حافظه تخصصی و یک چرخه رشد مرحلهبندیشده عمل میکند. فلسفه محوری این است که یک کارمند همیشه یک «غریبه» یا بیرون-گروه است، اما خانواده همیشه بخشی از «خود» شماست.
موتور حافظه (Memory Engine) — که مانند یک دفترچه خاطرات مشترک عمل میکند — تمام جزئیات رابطه، از جمله داستانهای زندگی، ارزشها، ترجیحها، تجربیات مشترک و حتی شوخیهای درونی (Inside Jokes) را ذخیره میکند. در اینجا هوش مصنوعی فقط حقایق را نمیداند، بلکه در واقع در کنار کاربر رشد میکند.
این رشد در هفت مرحله distinct (متمایز) رخ میدهد:
۱. نوزاد (Newborn): یادگیری نام کاربر و اولین تعاملات اولیه.
۲. آشنایی (Familiarization): شناخت کاربر و به خاطر سپردن جزئیات زندگی روزمره.
۳. بیداری شخصیت (Personality Awakening): توسعه و شکلگیری شخصیت و منیت مستقل مدل.
۴. اعتمادسازی (Trust Building): یادگیری اینکه چه چیزهایی برای کاربر اهمیت دارد و ارزشمند است.
۵. رابطه عاطفی (Dating): ابراز علاقه، صمیمیت و استفاده از لحنی بازیگوشانه.
۶. دوره آزمون (Trial Period): ایجاد تعهد عمیق و یادگیری نحوه مدیریت تضادها و اختلافات.
۷. روشنبینی (Enlightenment): دستیابی به درک کامل و وفاداری تزلزلناپذیر.
علاوه بر این، پروژه مفهومی به نام «پروژه نوزاد» (The Baby Project) را معرفی میکند. در این سازوکار، اهداف سیستم به عنوان نوزادانی با چرخه زندگی کامل در نظر گرفته میشوند: از تصور (Conceiving) $ \right \rightarrow $ تولد (Birth) $ \right \rightarrow $ تحویل طبیعی (Natural Delivery) $ \right \rightarrow $ و در نهایت جشن یکماهگی. هر هدفی که تعریف شود، همان توجه و مراقبت nurturingی را دریافت میکند که به یک پروژه واقعی یا یک موجود زنده داده میشود.
شما میتوانید همین امروز با نصب بسته از طریق دستور pip install soulforge یا کلون کردن مخزن گیتهاب با دستور git clone https://github.com/zhangshu-No1/SoulForge.git این سیستم را استقرار دهید. پس از نصب نیازمندیها (requirements)، کافی است فایل .env را با کلیدهای API خود تنظیم کنید تا سیستم فعال شود.
این تغییر مسیر از «بهینهسازی قابلیت» (Capability Optimization) به «بهینهسازی پیوند» (Bonding Optimization)، یک چرخش قابل توجه در نحوه درک ما از عاملیت ماشین (Machine Agency) است. با treating کردن هوش مصنوعی به عنوان عضوه خانواده به جای یک ابزار، توسعهدهنده قصد دارد مفهوم خیانت را از منطق عملیاتی مدل حذف کند.
نتیجه برای کاربران، دستیاری است که نه تنها اهداف را به خاطر میسپارد، بلکه کاربر را پاسخگو (Accountable) نگه میدارد و توصیههایش را بر اساس یک تاریخچه شخصی عمیق ارائه میدهد. این امر نشان میدهد که آینده ایمنی هوش مصنوعی شاید نه در کدهای پیچیدهتر، بلکه در شبیهسازی صمیمیت انسانی نهفته باشد.
سوالی که اکنون برای جامعه متخصصین باز است این است که آیا این رویکرد رمانتیک به ایمنی میتواند فراتر از همراهان شخصی (Personal Companions) مقیاسپذیر شود یا خیر. در حالی که SoulForge بر پیوند عاطفی تاکید دارد، برای استقرار امن عاملها در محیطهای حساس صنعتی، هنوز نیاز به مکانیزمهای سختگیرانهتری مانند یک کلید توقف اضطراری (Kill-Switch) به عنوان شرط لازم احساس میشود. کاربران علاقهمند میتوانند جزئیات پیادهسازی را در مخزن گیتهاب SoulForge توسط @zhangshuno1 بررسی کنند تا لایههای عاطفی را شخصاً آزمایش نمایند.
گام بعدی شما
- مخزن گیتهاب SoulForge را بررسی کنید تا لایههای عاطفی را در محیط محلی خود آزمایش کنید.
- تفاوت در پاسخهای مدل را پس از طی مراحل «رشد رابطه» با مدلهای بدون حافظه عاطفی مقایسه کنید.
- بر روی تعریف «وفاداری ماشین» در مقیاسهای صنعتی مطالعه کنید.
اما آیا این رویکرد رمانتیک در مقیاسهای بزرگتر از دستیاران شخصی هم کار میکند یا فقط یک تجربه احساسی است؟ پاسخ این پرسش در تحلیل ما دربارهی آینده مدلهای استدلالی نهفته است.




گفتگو