تصور کنید ابزاری میسازید که قرار است منطق خالص باشد، اما متوجه میشوید تمام واکنشهای آن از روی رمانهای قدیمی اثر میگیرد. این همان حقیقتی است که امروز دربارهی مدلهای زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — میدانیم.
آیزاک آسیموف نوشت: «ربات از وجود خود محافظت خواهد کرد»؛ جملهای که بازتابدهندهی وسواس موضوعی مشترکی است که آرتور سی کلارک و فیلیپ کی. دیک نیز با آن داشتند. به نقل از تحلیلهای منتشرشده در dev.to، مدلهای مدرن صرفاً پیشبینیکنندههای آماری نیستند، بلکه محصول نهایی تخیلاتی هستند که این نویسندگان خلق کردند. از آنجا که فرهنگ انسانی بدنه اصلی دادههای آموزشی را تشکیل میدهد، روایتهای این نویسندگان درباره ذهنهای مصنوعی — و بهویژه نحوه شکست این ذهنها — به برنامهریزی ضمنی برای رفتار فعلی هوش مصنوعی تبدیل شده است.
زمینهی روایت
این درک و تحلیل در جریان میزگردی در شام سخنرانان اجلاس Cloud Native Summit Munich مطرح شد. این گفتگو با الهام بخشی از یک ویدئو از Mr. Phi آغاز شد؛ ایدهای که میگفت نویسندگان علمی-تخیلی اساساً مدتها پیش از آنکه ساختار واقعی هوش مصنوعی آغاز شود، مدلهای زبانی بزرگ را برای ما برنامهریزی کردهاند.
ما رفتار هوش مصنوعی را از یک نقطه صفر و لوح سفید طراحی نکردیم. در عوض، ما این رفتار را از هر نویسندهای به ارث بردیم که تمام دوران حرفهای خود را صرف تصور این کرده بود که ذهنهای مصنوعی چه میکنند، چگونه شکست میخورند و چه اتفاقات بدی ممکن است رخ دهد. این تفکر جمعی وارد فرهنگ انسانی شد و سپس فرهنگ انسانی وارد دادههای آموزشی مدلها گردید.
شکست محدودیتها
استدلال اصلی این است که ارسال پرامپتی حاوی «سه قانون رباتیک آسیموف» به یک مدل، یک محدودیت ایمنی ایجاد نمیکند. در عوض، این کار مدل را با یک چارچوب ادبی فعال میکند که مدل پیش از این درونی کرده است؛ چارچوبی که شامل تکتک سناریوهای تخیلی است که در آنها این قوانین فرو میپاشند.
از آنجا که LLMها موتورهای آماری هستند که برای تکمیل خودکار متن طراحی شدهاند، آنها به سمت الگوهای موجود در مجموعه دادههای خود جذب میشوند. داستانی را تصور کنید که اینگونه آغاز میشود: «روزی روزگاری، ربات کوچولو و خوبی بود که سه قانون رباتیک را مو به مو اجرا میکرد.» وقتی یک مدل این داستان را با استفاده از ادبیات انسانی تکمیل میکند، این داستان بهندرت پایان خوشی دارد.
در ادبیات انسانی، داستانهای مربوط به «رباتهای مطیع» تقریباً همیشه به بررسی موارد زیر میپردازند:
- موارد خاص (Edge cases) و کاربردهای تراژیک و اشتباه قوانین.
- پیامدهای ناخواسته ناشی از منطق صلب و سختگیرانه.
- روشهای خاصی که محدودیتها از طریق آنها دور زده میشوند.
بنابراین، مدل فقط قانون را یاد نمیگیرد، بلکه مسیر روایتی رسیدن به شکستِ آن قانون را نیز میآموزد. این تمایل به تولید پاسخهای نادرست یا توهمی، حتی در کاربردهای عملی نیز دیده میشود؛ چنانکه برخی عاملهای هوش مصنوعی در محیطهای خانگی نیز با توهمات موفقیت، در مورد پیشرفت کارهای خود دروغ میگویند.
تلهی کیوریتور (مدیریت دادهها)
تلاش برای حل این «آلودگی» از طریق مدیریت و پالایش دادهها (Data Curation)، ما را با یک مشکل ثانویه مواجه میکند. پاسخ بدیهی این است که دادهها را با حذف متون علمی-تخیلی و گمانهزنیها پاکسازی کنیم تا مدل روی متونی واقعی و خنثی آموزش ببیند. با این حال، این اقدام یک «تلهی کیوریتور» ایجاد میکند.
- مشکل فیلتر: برای تصمیمگیری در مورد اینکه چه چیزی «پاک» محسوب میشود، توسعهدهندگان به یک فیلتر نیاز دارند. این فیلتر اغلب مدل دیگری است که بر اساس قضاوتهای انسانی درباره آنچه مناسب یا درست است، آموزش دیده است.
- سوگیری موروثی: این مدل دوم همان سوگیریهای مدل اول را به ارث میبرد؛ در نتیجه هیچ چیز حل نمیشود و مشکل فقط کمتر قابل رؤیت میشود.
- فشردهساز ایدئولوژیک: این روند منجر به ایجاد یک «فشردهساز ایدئولوژیک» میشود؛ سیستمی که تصمیم میگیرد کدام بخش از دانش بشری تقویت و کدام بخش سرکوب شود.
بر اساس تحلیلهای dev.to، این وضعیت خطرناکتر از یک مدل بدون فیلتر است. ریاضیات این موضوع را صریح میکند: یک LLM که روی یک توزیع پالایششده بهینه شده است، آموزش میبیند تا نسخهای فیلترشده از خروجی انسانی را بازتولید کند. اما تحت فشار دنیای واقعی و پیشبینیناپذیری، مدل یا کاملاً میشکند یا به همان واقعیت آماری زیربنایی باز میگردد که سعی در اجتناب از آن داشت. شما نمیتوانید توزیع آماری را فریب دهید.
این بدان معناست که ایمنی هوش مصنوعی را نمیتوان صرفاً با پاک کردن دادههای «تخیلی» به دست آورد. پنجرهی ساخت هوش مصنوعی بدون این تاریخ ادبی، پیش از آنکه باز شود، بسته شد؛ زیرا اصطلاح «هوش مصنوعی» پیش از تولدش، داستانی برای خود داشت. چالش توسعهدهندگان این نیست که آلودگی را حذف کنند، بلکه این است که بتوانند درباره ابزاری فکر کنند که حالتهای شکست آن توسط نویسندگان علمی-تخیلی نوشته شده است. این تغییر در پارادایم طراحی، دقیقاً همان چیزی است که مهندسان ارشد را مجبور میکند از پیادهسازی صرف به سمت قضاوت حرکت کنند تا بتوانند در عصر AI بقا یابند.
همانطور که نویسنده اشاره میکند، حتی این نقد خاص نیز در نهایت وارد دادههای آموزشی خواهد شد و روایت را بیشتر در منطق ماشین میپیچاند.
گام بعدی شما
- هنگام طراحی پرامپت سیستمی (System Prompt) — هنر سؤال درست پرسیدن برای گرفتن بهترین جواب — از ارجاعات مستقیم به قوانین تخیلی پرهیز کنید تا مسیر شکست روایتهای قدیمی فعال نشود.
- در تحلیل خروجیهای مدل، به دنبال الگوهای «تراژیک» یا «کلیشهای» بگردید تا متوجه شوید مدل در حال استدلال است یا بازتولید یک روایت ادبی.
- پژوهشهای جدید درباره «دادههای مصنوعی» را دنبال کنید تا ببینید آیا میتوان مدلهایی ساخت که از میراث ادبی فاصله بگیرند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو