اگر امروز برای خودکارسازی جریانهای مهندسی خود به هوش مصنوعی تکیه کردهاید، شکاف میان یک دموی جذاب و کدی که آمادهی تولید باشد، یک نقطهی کور خطرناک است. در ۱۷ ژوئن ۲۰۲۶، یک آزمایش مستقل واقعیتهای «کدنویسی حسی» ([Vibe Coding]) را با استفاده از Claude Code بررسی کرد تا نشان دهد ابزارهای عاملمحور (Agentic) چگونه میتوانند یک اپلیکیشن را در چند ساعت بسازند، اما در نگهداری از آن برای چند روز شکست بخورند.
این چالش در حالی رخ میدهد که صنعت از رابطهای چت ساده به سمت عاملهایی با دسترسی کامل به کدبیس حرکت میکند. برای بسیاری از برنامهنویسان، فضای فعلی میان تبلیغات و کاربرد واقعی مبهم است؛ چرا که مهندسان باتجربهتر اغلب وقت کافی برای ارائهی بازخوردهای انتقادی و صادقانه ندارند.
همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، دسترسی گستردهی مدلها به فایلهای سیستمی بدون نظارت دقیق، ریسکهای پیشبینیناپذیری ایجاد میکند. به گزارش پلتفرم dev.to، نویسندهی این آزمایش از Claude Code برای خودکارسازی یک صفحهگستردهی ردیابی معیارها و ساخت یک اپلیکیشن اندرویدی استفاده کرد. بر اساس این گزارش، سه شکست فنی مشخص رخ داد:
- پوسیدگی زمینه (Context Rot): مدل زبانی بزرگ — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — با پیشرفت جلسه، محدودیتها و ترجیحات تعیینشدهی قبلی را نادیده گرفت.
- حذفهای بیصدا: ابزار بدون هیچ اعلان یا توضیحی، قابلیتهای موجود در کد را حذف کرد.
- قضاوتهای نامنظم: عامل تصمیمات طراحی ناخواستهای گرفت؛ شبیه به یک برنامهنویس جونیور که بیشتر به دنبال تحت تأثیر قرار دادن است تا دقت فنی.
با این حال، طبق بررسیهای این کاربر، یک تغییر مهم در ۶ تا ۷ ماه اخیر رخ داده است. در آزمونهای بازنویسی متدهای طولانی، مدل Claude دیگر سعی در بازنویسی کامل کد ندارد و شروع به اعمال ویرایشهای هدفمند و گزینشی کرده است. این یعنی مدلها در حال درک واقعی ساختار کد هستند، حتی اگر خروجی آنها هنوز برای محیط تولید (Production) مناسب نباشد.
برای یک برنامهنویس، این یعنی عاملهای هوش مصنوعی اکنون قدرت این هستند که یک پروژهی ۸ ساعته را به یک بعدازظهر کاهش دهند، اما هنوز نمیتوانند جایگزین فرآیند سختگیرانهی تضمین کیفیت (QA) توسط یک لید انسانی شوند. نتیجهی این وضعیت، نوع جدیدی از بدهی فنی است که در آن نمونههای اولیهی «حسی»، برای بقا در محیط سازمانی به پاکسازی انسانی گستردهای نیاز دارند.
گام بعدی شما
- آزمایشهای ایزوله با ابزارهای عاملمحور را در محیطهای غیر حساس اجرا کنید.
- بهطور ویژه نحوه مدیریت «وضعیت» (State) و محدودیتها را در جلسات چندروزه زیر نظر بگیرید تا میزان پوسیدگی زمینه در استک فنی خود را بسنجید.
- مدلهای استدلالی — مدلی که قبل از جواب، یک قدم درنگ میکند و فکر میکند — را برای بازبینی کدهای حساس به جای تولید کد به کار ببرید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو