آیا واقعاً میتوانید کدی را که یک مدل زبانی نوشته است، بدون ترس به محیط عملیاتی (Production) بفرستید؟ اگر پاسخ شما «نه» است، دلیلش نبودِ نظم است، نه نبودِ هوش.
در ۳۰ آوریل ۲۰۲۶، پژوهشگری به نام تارلان حسنلی (Tarlan Hasanli) مقالهای را در arxiv.org منتشر کرد که در آن یک چارچوب بومی برای هوش مصنوعی زاینده (Generative AI) معرفی شده است. این سیستم، فرآیند کلاسیک «قرمز-سبز-بازسازی» در توسعه مدلمحور با آزمون (Test-Driven Development - TDD) را از یک پیشنهاد ساده به یک محدودیت اجباری برای عاملهای هوش مصنوعی (AI Agents) تبدیل میکند.
به نقل از گزارش arxiv.org، این چارچوب از یک معماری لایهای استفاده میکند که «پیشنهادات» مدل زبانی بزرگ (Large Language Model - LLM) را از «مرجع تصمیمگیرنده» جدا میکند. این یعنی مدل دیگر نمیتواند مراحل حیاتی اعتبارسنجی را دور بزند یا تستهای شکستخورده را نادیده بگیرد.
طبق اعلام تارلان حسنلی، این سیستم مکانیسمهای حاکمیتی کلیدی زیر را پیاده میکند:
- یک مانیفست ماشینخوان از اصول TDD که در تمام مراحل توزیع شده است.
- ترتیب سختگیرانه مراحل: برنامهریزی $\rightarrow$ تولید $\rightarrow$ اصلاح $\rightarrow$ اعتبارسنجی.
- حلقههای اصلاحی محدود و کنترل جهشهای اتمیک برای جلوگیری از ورود مدل به چرخههای بیپایان توهم (Hallucination).
همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، مشکل اصلی همواره عدم پیشبینیپذیری در خروجیها بوده است. این رویکرد جدید با کدگذاری نظم مهندسی نرمافزار مستقیماً در ارکستراسیون پرامپتها، توسعهی کد توسط AI را تکرارپذیر و پایدار میکند.
در حالی که هدف این پژوهش عبور از تستهای کمکی و تبدیل آنها به «گیتهای سخت اعتبارسنجی» است، هنوز دادههای کمی دقیقی از درصد بهبود عملکرد در خلاصه مقاله منتشر نشده است. با این حال، با حرکت عاملها به سمت مدیریت مخازن پیچیده کد، نبرد بعدی بر سر این است که آیا این گیتهای قطعی میتوانند با سرعت مدل استدلالی (Reasoning model) پیشروها همگام شوند یا خیر.
اما این لایهی حاکمیتی تنها بخشی از پازل است؛ تأثیر این رویکرد بر سرعت استنتاج (Inference) مدلهای آینده را در گزارش بعدی بررسی میکنیم.
گام بعدی شما
- بازبینی اصول TDD برای ادغام در گردش کارهای عاملمحور.
- پیادهسازی گیتهای اعتبارسنجی قطعی (Deterministic Gates) به جای تکیه بر بازبینی بصری کد.
- تعریف محدودیت برای تعداد دفعات اصلاح کد توسط AI جهت جلوگیری از توهمات تکراری.




گفتگو