اگر فکر میکنید کیفیت متون تولید شده توسط هوش مصنوعی صرفاً یک موضوع سلیقهای و غیرقابل اندازهگیری است، سخت در اشتباهید. تصور کنید فرمولی وجود داشته باشد که بتواند تفاوت بین یک متن «متوسط و خستهکننده» و یک اثر «خلاقانه و اثرگذار» را با دقت ریاضی تشخیص دهد.
به نقل از مقالهای که در ۳۰ آوریل ۲۰۲۶ در arxiv.org منتشر شد، کیفیت خلاقانه دیگر یک «حس» نیست، بلکه وضعیتی قابل اندازهگیری به نام غافلگیری کالیبره شده (Calibrated Surprise) است. طبق اعلام بو زو (Bo Zou) و تیمش، این رویکرد جدید که همراستاسازی کیفیت خلاقانه (Creative Quality Alignment - CQA) نام دارد، بر این باور است که نویسندگی سطح بالا زمانی رخ میدهد که سه ضلع «قصد نویسنده»، «انتظار منطقی خواننده» و «منطق واقعیت» در یک نقطه تلاقی کنند.
برای عملیاتی کردن این مفهوم، پژوهشگران از اطلاعات متقابل شانون (Shannon's mutual information) استفاده کردهاند. این چارچوب بر دو ستون اصلی استوار است:
- ستون ایستا: محدودیتهای مربوط به اخلاق، اسطورهشناسی و واژگان، دامنهی کلمات ممکن را بهشدت محدود میکنند تا تنها گزینههای دقیق باقی بمانند.
- ستون پویا: قانون زنجیرهای اطلاعات تضمین میکند که هر انتخاب بر اساس متن قبلی باشد و مسیر متن بعدی را تعیین کند؛ بنابراین تصمیمات کلان بدون نیاز به تنظیم دستی، وزن بیشتری میگیرند.
همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای همراستاسازی (Alignment) و تکراری شدن خروجیهای مدلها اشاره کردیم، مشکل اصلی مدلهای فعلی، تمایل آنها به تولید پاسخهای «میانگین» است. بر اساس مستندات این پژوهش، دقت ابعادی کامل و «متوسط بودن» در واقع دو روی یک سکه هستند و با استفاده از این مدل ریاضی، میتوان از خروجیهای بیروحِ حاصل از فرآیندهای RLHF عبور کرد.
این مطالعه با استفاده از محاسبات logprob در مدلهای زبانی بزرگ (Large Language Models)، ثابت کرد که میتوان یک بنچمارک حرفهای برای ارزیابی خلاقیت ایجاد کرد، هرچند نویسندگان درصد دقیقی از بهبود عملکرد را منتشر نکردند.
اما این مدل ریاضی تنها بخشی از پازل است؛ تأثیر این رویکرد بر آیندهی مدلهای استدلالی را در گزارش بعدی بررسی میکنیم.
گام بعدی شما
- بررسی متون تولید شده با دیدگاه «محدودیتهای سخت» بهجای درخواستهای کلی.
- دنبال کردن معیارهای جدید CQA در مقالات آتی برای سنجش کیفیت محتوا.
- آزمایش پرامپتهایی که تضاد میان «انتظار خواننده» و «منطق واقعیت» را ایجاد میکنند تا غافلگیری کالیبره شده را تجربه کنید.




گفتگو