اگر برای تولید ویدیو از هوش مصنوعی استفاده میکنید، احتمالاً متوجه شدهاید که مدلها میل عجیبی به نمایش کلیشههای غربی دارند، حتی وقتی از آنها میخواهید صحنهای در آفریقا خلق کنند. شما با محیطهایی مواجه میشوید که به جای واقعیت، شبیه به یک «تصور کلی» از یک قاره هستند.
به نقل از Afrigen، مدلهای تولید ویدیو معمولاً روی مجموعهدادههای جهانی آموزش دیدهاند که آفریقا را یک موجود واحد و یکسان میبینند. این اتفاق باعث میشود معماری شهر لاگوس با خیابانهای کانو اشتباه گرفته شود و نتیجه، ویدیوهایی مصنوعی باشد که هیچ پیوندی با واقعیت ندارند. همانطور که در تحلیل قبلی ما دربارهی سوگیریهای مدلهای بنیادی اشاره کردیم، مشکل اصلی در اینجا نبودِ دادههای متنی دقیق است، نه لزوماً ضعف در توان پردازشی مدل.
این شرکت در ۲۵ ژوئن ۲۰۲۶ چارچوب راهنمایی را منتشر کرد که هدف آن انتقال تولیدکنندگان از توصیفات مبهم به دقت فوقمحلی است. طبق مستندات Afrigen، برای رسیدن به اصالت بصری باید از صفتها فاصله گرفت و به سراغ «اسمهای concrete» رفت. سه اهرم اصلی در این مسیر تعریف شده است:
دقت مکانی
- نام بردن از مکانهای واقعی: به جای عبارت «خیابان آفریقایی»، از «ایستگاه شلوغ اتوبوسهای دانفو در اوشودی» استفاده کنید.
- نقشهبرداری معماری: نام بردن از شهرهای خاص باعث میشود مدل چگالی ساختمانی و اتمسفر درست هر منطقه را بازیابی کند.
نورپردازی منطقهای
- استفاده از نشانگرهای جوی: به جای «نور خوب»، از «نور مهآلود صبحهای هارماتان» یا «خورشید شدید ظهرهای گرم استوایی با سایههای عمیق» استفاده کنید.
- شکار نور طلایی: نور شدید طلایی پیش از طوفانهای بارانی، یکی از نشانگرهای recognized منطقهای است.
بافتهای لمسشونده
- گنجاندن متریالهای خاص: خاک سرخ لترایت، سقفهای رویهای زنگزده و تابلوهای دستنویس.
- افزودن نشانگرهای فرهنگی: پارچههای آنکارا و آدیره، گالنهای ذخیره سوخت و صدای ژنراتورهای بیرون فروشگاهها.
با جایگزین کردن توصیفات ضعیفی مثل «بازار اصیل آفریقایی» با لیستهای دقیق از غرفههای چوبی و سبدهای فلفل، سازنده میتواند مدل را مجبور کند تا به جای یک «دکور»، یک «مکان» زنده تولید کند. این رویکرد در واقع نوعی مهندسی پرامپت (Prompt Engineering) — شبیه به هنر سؤال درست پرسیدن از یک مشاور باتجربه برای گرفتن بهترین جواب — است.
این متدولوژی نشاندهنده چرخش گسترده به سمت «پرامپتنویسی فرهنگی» است. این یعنی مسیر رسیدن به تنوع در هوش مصنوعی، لزوماً از طریق دادههای آموزشی بهتر نیست، بلکه از طریق جهتدهی آگاهانه کاربران میگذرد.
گام بعدی شما
- در هر پرامپت، لایهبندی را امتحان کنید: یک شهر خاص + یک وضعیت نوری آبوهوایی + سه بافت محلی.
- صفتهای کلی (مثل Authentic یا Traditional) را کاملاً حذف و با اسمهای خاص جایگزین کنید.
- خروجیهای مدل را با تصاویر واقعی از گوگل مپس (Street View) مقایسه کنید تا کلمات کلیدی دقیقتری بیابید.
اما داستان سختافزاری این تحول و نحوه پردازش این جزئیات در مدلهای انتشار حتی شگفتانگیزتر است — به تحلیل ما دربارهی مدلهای Diffusion مراجعه کنید.




گفتگو