تصور کنید مدل ارزیاب شما به متنی امتیاز ۲۳ از ۲۵ میدهد، اما همچنان تمام نقاط ضعف ساختاری مقاله را نادیده میگیرد. این شکاف زمانی رخ میدهد که مدل، یک «روبرییک» یا همان معیار امتیازدهی را به عنوان لنز اصلی خود میبیند و جلسه نقد را به یک چکلیست ساده برای انتشار تبدیل میکند. در واقع، مدل به جای اینکه محتوا را به نقد بکشد، تنها یک بررسی پیش از انتشار (Preflight Check) انجام میدهد.
همانطور که در تحلیلهای قبلی ما دربارهی عاملهای هوش مصنوعی (Agentic AI) اشاره کردیم، این موجودات خودمختار پارادایم را از تولید ساده به برنامهریزی پیچیده تغییر دادهاند. اما این مورد خاص نشان میدهد که توالی استدلال در این عاملها چقدر حیاتی است. بسیاری از کاربران از معیارهای امتیازدهی برای تضمین کیفیت استفاده میکنند، اما treating a rubric (در نظر گرفتن یک روبرییک) به عنوان اولین قدم، اغلب باعث میشود هوش مصنوعی نسبت به شکستهای عمیق ساختاری کور شود.
جزئیات خط لوله
این سیستم برای شبیهسازی یک چرخه بازبینی کد (Code Review Loop) مورد اعتماد طراحی شده بود. در این جریان کاری فنی، کارتهای Notion ابتدا به پیشنویسهای Markdown در یک مخزن (Repository) تبدیل شده، سپس از یک مرحله بازبینی عبور میکنند و در نهایت با dev.to همگامسازی (Sync) میشوند.
این فرآیند دقیقاً مشابه ریتم کدنویسی یک توسعهدهنده است: باز کردن یک Pull Request، اجرای ابزار Bugbot شرکت Cursor بر اساس یک راهنمای بازبینی، رفع مشکلات حیاتی و در نهایت ادغام (Merge) کد. این رویکرد در بازبینی کد، پتانسیلهای اقتصادی قابل توجهی دارد؛ چنانکه برخی توسعهدهندگان مستقل توانستند با بهرهگیری از نقاط ضعف مدلهای جامع در بازبینی کد، ابزارهای تخصصی بسازند و سود ماهانه قابل توجهی کسب کنند. برای بازسازی این تجربه در حوزه نویسندگی، نویسنده یک مهارت بازبینی سفارشی با نام editor-critique ساخت.
برای کمک بیشتر به هوش مصنوعی، نویسنده کامنتهای HTML را درون پیشنویسها قرار داد؛ این کار دقیقاً مشابه قرار دادن کامنتها در کد است. این یادداشتها «قصد ویراستاری» (Editorial Intent) را ثبت میکردند؛ مثلاً توضیح میدادند که چرا یک بخش خاص با لحن خاصی شروع شده یا چرا شواهدی خاص در جای مشخصی قرار گرفتهاند. نکته این بود که این یادداشتها در نسخه نهایی منتشر شده ظاهر نمیشدند. این حاشیهنویسیها به هوش مصنوعی اجازه داد تا «اثر مورد انتظار» (Intended Effect) را با «متنی که واقعاً نوشته شده» (Actual Prose) مقایسه کند.
شکست رویکرد «اول امتیاز، بعد تحلیل»
در ابتدا، جریان کاری یک مسیر خطی را دنبال میکرد: بارگذاری پیشنویس $ \rightrightarrows $ امتیازدهی بر اساس ۵ بعد از روبرییک $ \rightrightarrows $ تولید نقد بر اساس آن امتیازها.
به نقل از گزارش توسعهدهنده، وقتی مدل در حال بررسی مقالهای با عنوان «برنامه عامل تمام مراحل را داشت جز جایی که باید متوقف شود» بود، اولین نسخه از editor-critique به این اثر امتیاز ۲۳ از ۲۵ داد. مدل یک گزارش صیقلخورده تولید کرد که عمدتاً پیشنهاداتی برای ویرایشهای سطحی ارائه میداد. دلیل این اتفاق این بود که چون هوش مصنوعی ابتدا متعهد به یک امتیاز عددی بالا شده بود، ناخودآگاه بازخوردهای خود را به گونهای سازماندهی کرد که آن امتیاز را توجیه کند. مدل روی ویرگولها و عناوین بخشها متمرکز شد اما موارد بنیادی مربوط به «سفر خواننده» (Reader-Journey) را نادیده گرفت، از جمله:
- عناوینی که درس اصلی را پیش از آنکه روایت داستان آن را استحقاق دهد، لو میدادند.
- فرض بر این بود که خوانندگان dev.to به محتوای مخازن خصوصی کد دسترسی دارند.
- لینکها به PRها، برنامهها و استانداردها، به جای اینکه به عنوان شواهدی پشتیبان باشند، به عنوان «مطالعات پیشنیاز» (Required Reading) ارائه شده بودند.
- قاببندی حکمرانی (Governance Framing) مدل، بسیار فراتر از آنچه واقعاً در آن حادثه ثابت شده بود، پیش رفته بود.

سازوکار «اول تحلیل، بعد امتیاز»
برای رفع این مشکل، توسعهدهنده توالی عملیات را بازنگری کرد تا اطمینان حاصل شود که تحلیل پیش از امتیازدهی قرار میگیرد. تغییر منطق به طور صریح به این شکل بود:
- قبل: بارگذاری پیشنویس $ \rightrightarrows $ امتیازدهی ابعاد روبرییک $ \rightrightarrows $ تولید نقد.
- بعد: بارگذاری پیشنویس $ \rightrightarrows $ خوانش سرد ویراستاری (Editorial read-through) $ \rightrightarrows $ امتیازدهی ابعاد روبرییک $ \rightrightarrows $ تولید نقد.
روبرییک حذف نشد، اما دیگر «حرکت اول» نبود. اکنون بازبین ابتدا متن را به عنوان یک عضو «مخاطب سرد» (Cold Audience) میخواند. مدل در ذهن خود یادداشتهای نویسنده را حذف میکند و میپرسد: «اگر لینکهای مخزن و منطقهای پنهان حذف شوند، آیا درس اصلی مقاله هنوز کار میکند؟»
مدل بهطور مشخص مواردی چون زمانبندی تز (Thesis Timing)، پیشفرضهای مخاطب، قاببندی مراجع و انحرافات گمانهزنی (Speculation Drift) را چک میکند. با استفاده از حلقه حاشیهنویسی، هوش مصنوعی یادداشت (آنچه بخش سعی داشت انجام دهد) را با پاراگراف رو به خواننده (آیا واقعاً آن کار را کرد) مقایسه میکند. در برخی موارد، این فرآیند فاش کرد که editor-critique در ابتدا بخشها را بیش از حد مکانیکی میخواند.
تنها پس از این بررسی جامع است که هوش مصنوعی روبرییک امتیازدهی را اعمال میکند. در این مدل بازنگریشده، امتیاز تبدیل به «خلاصهای از تحلیل» میشود، نه «جایگزینی» برای آن. نتایج فوری بود: همان مقالهای که قبلاً ۲۳ امتیاز گرفته بود، حالا هشدارهای حیاتی درباره شکافهای زمینهای و قاببندی ضعیف دریافت کرد. خروجی از «این مقاله تقریباً آماده است» به «این مقاله بیش از حد روی پیشفرضها تکیه کرده و درس خود را خیلی زود لو میدهد» تغییر یافت.
بازبینی QA در برابر بازبینی ویراستاری
این آزمایش تفاوت بنیادی بین دو نوع بازبینی توسط هوش مصنوعی را آشکار میکند:
- بازبینی QA (تضمین کیفیت): میپرسد آیا اثر، معیارهای اعلام شده را برآورده میکند؟ تمرکز آن بر کامل بودن و معیارهای نشر است (مانند بررسی frontmatterهای خراب یا بخشهای گمشده).
- بازبینی ویراستاری: میپرسد مخاطب چه چیزی را اشتباه میفهمد، چه چیزی را از دست میدهد یا چه چیزی را باور نمیکند؟ اولویت این بازبینی، سردرگمی و باور مخاطب است.
وقتی روبرییک اول میآید، هوش مصنوعی در واقع دارد QA را در لباس نقد انجام میدهد. نویسنده این وضعیت را با اجرای یک Linter (ابزار بررسی فرمت کد) پیش از خواندن یک سند طراحی (Design Doc) مقایسه میکند. یک لینتر تأیید میکند که Importها و فرمتها تمیز هستند، اما نمیتواند به شما بگوید که آیا آن طراحی اصلاً منطق دارد یا خیر. اگر با لینتر شروع کنید، سند ممکن است کاملتر از آنچه واقعاً هست به نظر برسد.
این تمایز دقیقاً بازتابدهنده تجربه نویسنده با Bugbot در بازبینی کد بود، جایی که راهنماهای مختلفی برای بهینهسازی امنیت، تغییرات حالت بازی (Game-state)، پسرفتهای UX یا قصد برنامه (Plan Intent) استفاده میشد. در اینجا اثر ثابت میماند، اما لنز بازبینی تغییر میکند.
پیادهسازی الگوی جدید بازبینی
برای کسانی که بازبینهای هوش مصنوعی برای کد، معماری یا نویسندگی میسازند، نویسنده تغییرات طراحی زیر را برای جلوگیری از «بیشبرازش» (Overfitting) به روبرییک پیشنهاد میکند:
- توالی طراحی را بر تنظیم ابعاد اولویت دهید: ترتیب عملیات را بر کلمات خاص در روبرییک مقدم بدانید. توالی است که تعیین میکند هوش مصنوعی چه چیزی را متوجه شود.
- با یک خوانش بدون محدودیت (Ungated Read) شروع کنید: مدل را مجبور کنید پیش از ظاهر شدن آستانههای امتیازدهی، مخاطب، قصد، ریسک و شواهد را بررسی کند.
- گذرهای چکلیستی را از گذرهای قضاوت جدا کنید: به طور صریح «آیا کامل است؟» و «آیا خوب است؟» را به عنوان دو پرسش متفاوت در نظر بگیرید.
- زبان «تأثیر بر خواننده» را اجباری کنید: مدل را مجبور کنید توصیف کند که چه چیزی برای خواننده «میشکند» (خراب میشود)، نه اینکه صرفاً کدام قانون نقض شده است.
- امتیازات را به انتها ببرید: به محض اینکه یک عدد ظاهر میشود، همه چیز حول آن سازماندهی میشود. امتیازها باید به مشاهدات حاصل از خوانش ارجاع دهند، نه اینکه بعد از امتیاز، دلیل تراشیده شوند.
این الگو — یعنی امتیازدهی پیش از درک — یک ریسک در هر ارزیابی کمکگرفته از هوش مصنوعی است. نویسنده معتقد است این موضوع نه تنها در نویسندگی، بلکه در بازبینی PRها، بازبینیهای معماری، تحلیل حوادث و گزارشهای ارزیابی نیز صدق میکند. اگر بازبین پیش از درک امتیاز دهد، موقعیت را کمتر میخواند و بیش از حد به روبرییک وابسته میشود.
گام بعدی شما
- اگر از مدلهای ارزیاب استفاده میکنید، پرامپتها را طوری تغییر دهید که مدل ابتدا یک «خلاصه تحلیلی» از دیدگاه کاربر نهایی بنویسد و سپس امتیازدهی کند.
- در جریانهای کاری خود، مرحله QA (بررسی تکمیلی) را از مرحله Critique (نقد محتوایی) کاملاً تفکیک کنید.
- برای مدلهای ویراستار، از تکنیک «یادداشتهای پنهان» (Hidden Annotations) استفاده کنید تا مدل تفاوت قصد نویسنده و نتیجه واقعی را بفهمد.
اما این تغییر توالی تنها بخشی از داستان است؛ تأثیر مدلهای استدلالی جدید بر دقت این بازبینیها را در گزارش بعدی بررسی خواهیم کرد.




گفتگو