اگر تصور میکنید مدلهای زبانی با بهخاطر سپردن سینتکس زبانهای برنامهنویسی کد میزنند، در اشتباهید. آنها در واقع در حال ساخت ابزارهایی هستند که کد نهایی را برایشان بنویسد.
این تغییر رفتار در Claude Opus 4.6 و GPT-5.4 xhigh نشان میدهد که پیشرفتهترین عاملها (Agents) برای حل مسائل خارج از توزیع دادههای آموزشی (Out-of-distribution)، به جای تکیه بر حافظه، به سراغ ساخت ابزار میروند. همانطور که در تحلیل قبلی ما دربارهی MetaSeq و بهینهسازی ساختاری اشاره کردیم، تمایل مدلها به یافتن لایههای انتزاعیتر برای حل مسائل پیچیده، یک روند رو به رشد است.
به نقل از گزارش ۹ ژوئن ۲۰۲۶ در arxiv.org، پژوهشگران شش عامل مختلف را روی چهار زبان برنامهنویسی دشوار و کمکاربرد، از جمله Brainfuck و Befunge-98 آزمایش کردند. یافتههای این مطالعه نشان میدهد:
- مدلهای پیشرو ابتدا برنامههای پایتونی مینویسند تا کد هدف را تولید کنند و سپس این تولیدکنندهها را بهصورت محلی عیبیابی میکنند.
- در صورت ممنوعیت این استراتژی متاپروگرمینگ (Metaprogramming)، عملکرد مدلها بهشدت افت میکند.
- ارائه کدهای کمکی پایتون (بدون پاسخ نهایی)، دقت مدلهای Sonnet 4.6 و GPT-5.4 mini را افزایش میدهد، اما Haiku 4.5 همچنان ناکارآمد باقی میماند.
این یافته، معیار «هوش کدنویسی» را از دانش زبانی به توانایی ساخت استراتژیک تغییر میدهد. شکاف میان مدلهای پیشرو و مدلهای کوچک (Mini)، دیگر صرفاً به تعداد پارامترها مربوط نیست، بلکه به توانایی مدل در مدیریت فضای کاری و استفاده از بازخوردها برای ساخت مدل ذهنی از یک سیستم هدف بازمیگردد. برای جامعهی فنی، این یعنی قابلیتهای Zero-shot اهمیت کمتری نسبت به توانایی عامل در تکرار و اصلاح استراتژی خود دارند.
گام بعدی شما
- در جریانهای کاری خود، مدلها را مجبور کنید پیش از نوشتن کد در یک فریمورک خاص، ابتدا یک «تولیدکننده مشخصات» (Specification Generator) بنویسند.
- بررسی کنید که آیا مدلهای استدلالی (Reasoning Model) آینده، این حلقهٔ متاپروگرمینگ را به یک فرآیند بومی System-2 تبدیل میکنند یا خیر.
اما تأثیر این رویکرد بر هزینههای استنتاج (Inference) در مقیاس تجاری موضوع دیگری است — به تحلیل ما دربارهی بهینهسازیهای سختافزاری Blackwell مراجعه کنید.



گفتگو