تصور کنید دستیاری دارید که نه تنها دستورات شما را اجرا میکند، بلکه پیش از هر پاسخ، آن را با یک منشور اخلاقی تطبیق میدهد تا مطمئن شود آسیبناپذیر است. این دقیقاً همان چیزی است که Claude را از یک مدل زبانی معمولی به یک ابزار قابلاعتماد تبدیل میکند.
باید بدانید Claude را نباید یک موتور جستوجو یا پایگاه داده از حقایق دانست؛ او یک مدل زبانی بزرگ (LLM) است. در واقع، این ابزار یک شبکه عصبی پیچیده است که طراحی شده تا محتملترین توالی بعدی از توکنها را بر اساس الگوهایی که در طول یک فرآیند آموزشی عظیم آموخته است، پیشبینی کند. اگرچه ممکن است به نظر برسد که مدل در حال «تفکر» یا «بازیابی» اطلاعات است، اما Claude در حقیقت در حال انجام محاسبات احتمالی پیچیده در میان میلیاردها پارامتر است تا متنی تولید کند که شبیه به نوشتار انسان باشد. مسیر فنی از یک مجموعه داده خام تا رسیدن به یک دستیار هوش مصنوعی مفید، شامل چندین مرحله متمایز است که هر یک برای بهبود استدلال، دقت و ایمنی مدل طراحی شدهاند.
اساس کار کلاود بر معماری ترنسفورمر (Transformer) استوار است که استاندارد طلایی برای مدلهای زبانی بزرگ مدرن محسوب میشود. این معماری به مدل اجازه میدهد متن ورودی را نه به صورت یک رشته خطی از کلمات، بلکه به عنوان مجموعهای از توکنها (Token) پردازش کند؛ توکنها تکههایی از کاراکترها هستند که میتوانند کلمات کامل یا بخشهایی از یک کلمه باشند. نوآوری کلیدی در ترنسفورمر، «مکانیسم توجه» (Attention Mechanism) است. این مکانیسم به کلاود اجازه میدهد تا اهمیت کلمات مختلف در یک جمله را، فارغ از اینکه چقدر از یکدیگر فاصله دارند، بسنجد و وزندهی کند. برای مثال، اگر کاربر یک سند طولانی ارائه دهد و درباره جزئیاتی در پاراگراف اول سوال بپرسد، مکانیسم توجه به مدل اجازه میدهد تا هنگام تولید پاسخ، دقیقاً به آن زمینه خاص «توجه» کند و بدین ترتیب، انسجام و ارتباط متنی را در طول هزاران کلمه حفظ کند.
فرآیند خلق Claude با پیشآموزش (Pre-training) آغاز میشود. در این فاز، کلاود در معرض حجم عظیمی از متون متنوع، شامل کتابها، وبسایتها، کدهای برنامهنویسی و مقالات دانشگاهی قرار میگیرد. هدف در این مرحله این نیست که «حقیقت» به معنای انسانی به مدل آموزش داده شود، بلکه هدف این است که مدل ساختار آماری زبان را بیاموزد. با پیشبینی میلیاردها بارِ کلمه بعدی در یک جمله، مدل دستور زبان، استدلالهای مبتنی بر عقل سلیم، تداعیهای واقعی و حتی جزئیات ظریف زبانهای مختلف برنامهنویسی را میآموزد. با این حال، پیشآموزش به تنهایی منجر به ایجاد یک «مدل پایه» (Base Model) میشود که اغلب غیرقابلپیشبینی است؛ چنین مدلی ممکن است یک پرامپت را با تقلید از یک پست سمی در یک انجمن یا یک قطعه تصادفی از داستان تکمیل کند، به جای اینکه مانند یک دستیار مفید عمل کند.
برای تبدیل این غول آماری به نسخهای از Claude که ما با آن تعامل داریم، شرکت Anthropic از فرآیند تخصصی تنظیم دقیق (Fine-tuning) استفاده میکند. اکثر مدلهای هوش مصنوعی از روش «یادگیری تقویتی با بازخورد انسانی» (RLHF) بهره میبرند که در آن انسانها پاسخهای مختلف هوش مصنوعی را رتبهبندی میکنند و مدل برای انتخاب پاسخی که انسانها ترجیح میدهند، پاداش میگیرد. در حالی که Claude نیز از بازخوردهای انسانی استفاده میکند، اما یک تمایز حیاتی را معرفی میکند: هوش مصنوعی قانونمدار (Constitutional AI).
این یک چارچوب است که در آن به مدل یک «قانون اساسی» مکتوب داده میشود؛ مجموعهای از اصول مبتنی بر مفاهیمی چون مفید بودن، صداقت و بیضرر بودن. به جای تکیه صرف بر برچسبهای انسانی که ممکن است متناقض یا دارای سوگیری باشند، کلاود آموزش میبیند تا پاسخهای خود را بر اساس این اصول نقد کند. اگر یک پیشنویس پاسخ، قانونی را در قانون اساسیاش نقض کند، مدل آموزش میبیند تا آن را بازبینی کند تا زمانی که با ارزشهای بیانشده همسو شود. این رویکرد، روشی شفافتر و مقیاسپذیرتر برای اطمینان از ایمنی ایجاد میکند، بدون اینکه هوشمندی مدل سرکوب شود.
یکی از خیرهکنندهترین دستاوردهای فنی کلاود، پنجرهٔ زمینه (Context Window) عظیم آن است. پنجره زمینه در واقع «حافظه کوتاه-مدت» مدل است. در حالی که مدلهای اولیه تنها میتوانستند چند هزار کلمه از یک گفتگو را به خاطر بسپارند، کلاود میتواند صدها هزار توکن را در یک پرامپت واحد پردازش کند. این قابلیت به کاربران اجازه میدهد تا کل دفترچههای راهنمای فنی، قراردادهای حقوقی طولانی یا پایگاههای کد بسیار حجیم را آپلود کنند و از هوش مصنوعی بخواهند کل مجموعه دادهها را یکجا تحلیل کند. از نظر فنی، این امر مستلزم مدیریت بهینه حافظه و مکانیسمهای توجه کارآمد است تا از انفجار هزینههای محاسباتی با رشد ورودی جلوگیری شود. این توانایی، کلاود را برای تکالیف پیچیده سنتز (ترکیب اطلاعات) و پژوهشهای عمیق بسیار مؤثر میسازد.
فراتر از معماری و آموزش، منطق عملیاتی Claude بر مفهوم «تولید احتمالی» (Probabilistic Generation) متمرکز است. وقتی شما از کلاود سوالی میپرسید، او یک پاسخ پیشنویس شده را جستوجو نمیکند. در عوض، او یک توزیع احتمالی برای توکن بعدی را محاسبه میکند. اگر پرامپت این باشد که «پایتخت فرانسه است...»، مدل احتمال بسیار بالایی برای توکن «پاریس» میبیند. با این حال، برای پرامپتهای پیچیدهتر، مدل در یک فضای چندبعدی از معانی حرکت میکند و دانش پیشآموزشدیده خود را با محدودیتهای خاص ارائه شده در پرامپت کاربر ترکیب میکند. پارامتر دما (Temperature) که در محافل هوش مصنوعی زیاد بحث میشود، این تصادفی بودن را کنترل میکند؛ دمای پایینتر، مدل را قطعیتر و واقعگرایهتر میکند، در حالی که دمای بالاتر، اجازه خروجیهای خلاقانهتر و متنوعتر را میدهد.
ایمنی در طراحی کلاود یک موضوع ثانویه نیست، بلکه در تار و پود معماری آن تنیده شده است. از طریق فرآیند هوش مصنوعی قانونمدار، مدل یاد میگیرد شناسایی کند که چه زمانی تلاشهای jailbreak (دور زدن حفاظها) در حال رخ دادن است؛ یعنی پرامپتهایی که طراحی شدهاند تا هوش مصنوعی را فریب دهند تا دستورالعملهای ایمنی خود را نادیده بگیرد. چون مدل آموزش دیده است که درباره قوانین خودش استدلال کند، میتواند تشخیص دهد چه زمانی یک درخواست از او میخواهد محتوای مضر تولید کند و میتواند محترمانه درخواست را رد کرده و بر اساس اصول داخلیاش توضیح دهد چرا این کار را میکند. این امر یک حلقه بازخورد ایجاد میکند که در آن مدل با گذشت زمان مستحکمتر شده و یاد میگیرد با موارد خاصی (Edge Cases) برخورد کند که شاید آموزشدهندگان انسانی پیشبینی نکرده بودند.
به طور خلاصه، Claude حاصل ترکیب یک شبکه عصبی قدرتمند مبتنی بر ترنسفورمر با یک فرآیند همسوسازی (Alignment) دقیق و 基于 اصول است. شرکت Anthropic با انتقال از یادگیری آماری خام در مرحله پیشآموزش به یک مرحله پالایش هدایتشده توسط قانون اساسی، ابزاری خلق کرده است که قدرت خام یک مدل زبانی بزرگ را با یک شخصیت پیشبینیپذیر، ایمن و مفید متعادل میکند. چه در حال خلاصهسازی یک فایل PDF صد صفحهای باشد و چه در حال نوشتن یک اسکریپت پیچیده پایتون، کلاود بهطور مداوم این الگوهای آموختهشده و محدودیتهای اخلاقی را به کار میگیرد تا مرتبطترین و ایمنترین پاسخ ممکن را ارائه دهد. در عین حال، وقتی این توانمندیها در ابزارهای تخصصیتر بهکار میروند، چالشهای جدیدی ظهور میکند؛ برای مثال، در ابزارهای توسعه کد، برخی تصمیمات فنی میتوانند سرعت بالا را به یک «بدهی بهرهوری» تبدیل کنند که باید با دقت مدیریت شوند. همافزایی پنجره زمینه عظیم، مکانیسم توجه و هوش مصنوعی قانونمدار است که باعث میشود کلاود در چشمانداز رقابتی هوش مصنوعی متمایز شود و نمایی از آیندهای ارائه دهد که در آن AI نه تنها توانمند، بلکه اساساً با ارزشهای انسانی همسو است.
گام بعدی شما
- برای تست قدرت پنجره متنی، یک سند بالای ۵۰ صفحه را آپلود کرده و از مدل بخواهید تناقضات داخلی آن را پیدا کند.
- تغییرات پارامتر Temperature را برای درک تفاوت بین «پاسخهای دقیق فنی» و «ایدههای خلاقانه» بررسی کنید.
- در پرامپتهای خود از مدل بخواهید پاسخ خود را بر اساس اصول «صداقت» نقد کند تا کیفیت استخراج دادهها را ببینید.
اما این ساختار قانونمدار تنها بخشی از بازی است؛ اثر این رویکرد بر کاهش نرخ توهم در مدلهای نسل بعد را در گزارش بعدی بررسی خواهیم کرد.




گفتگو