تصور کنید مدل زبانی شما نه تنها بتواند بنویسد، بلکه دقیقاً بداند چه چیزی یک داستان را برای مخاطب انسانی جذاب میکند. اگر هنوز تصور میکنید مشکل مدلهای زبانی در داستاننویسی فقط کمبود داده است، سخت در اشتباهید.
در ۷ مه ۲۰۲۶، چارچوبی به نام StoryAlign معرفی شد تا این خلأ را پر کند. به نقل از گزارش arxiv.org، مدلهای پاداش (Reward Models) فعلی در تشخیص داستانهای مورد پسند انسانها بهشدت ناتوان هستند؛ بهطوری که دقیقترین مدلها تنها ۶۶.۳ درصد موفقیت در انتخاب روایتهای انسانی داشتند.
برای حل این بحران، پژوهشگران دو ابزار کلیدی توسعه دادند:
- StoryRMB: اولین بنچمارک (Benchmark) برای ارزیابی مدلهای پاداش در ترجیحات داستانی، شامل ۱,۱۳۳ مورد تأییدشده توسط انسان.
- StoryReward: یک مدل پاداش پیشرفته که روی ۱۰۰,۰۰۰ جفت ترجیح باکیفیت در حوزههای متنوع آموزش دیده است.
مدل StoryReward اکنون استانداردهای جدیدی را در سطح صنعت تعریف کرده و حتی از مدلهایی با ابعاد بسیار بزرگتر نیز پیشی گرفته است. این مدل در فرآیندهای انتخاب «بهترین از n» (Best-of-n یا BoN) به کار میرود؛ جایی که هوش مصنوعی زاینده (Generative AI) چندین کاندیدای داستانی تولید میکند و سپس StoryReward گزینهای را که بیشترین احتمال پذیرش توسط انسان دارد، برمیگزیند.
همانطور که در تحلیلهای پیشین ما دربارهی همراستاسازی (Alignment) مدلهای زبانی اشاره کردیم، تمرکز صنعت از دقت واقعی به سمت کیفیت ذهنی در حال تغییر است. در حالی که یادگیری تقویتشده از بازخورد انسانی (RLHF) دقت و ایمنی را بالا برد، اما مفهوم «جذابیت» در روایتگری تا امروز نادیده گرفته شده بود. بر اساس مستندات StoryAlign، کوانتیزه کردن ترجیحات روایی، مدلها را به استقلال خلاقانه واقعی نزدیکتر میکند.
اما این تنها بخشی از معماست؛ آیا این «سلیقهسازها» میتوانند ثبات خود را در رمانهای طولانی و چندفصلی نیز حفظ کنند؟
گام بعدی شما
- بررسی متدولوژی BoN برای بهبود خروجیهای خلاقانه در پروژههای محتوایی.
- مطالعهی بنچمارک StoryRMB برای درک معیارهای جذابیت روایت از دیدگاه انسان.
- دنبال کردن تکامل مدلهای پاداش تخصصی در حوزههای هنری و ادبی.




گفتگو