اگر هدایت تیمی هستید که از باتهای هوش مصنوعی برای بازبینی کد استفاده میکند، احتمالاً متوجه شدهاید که برنامهنویسان شما بهسرعت از توصیههای این ابزارها خسته میشوند. این اتفاق دقیقاً برای توسعهدهندهای در یک شرکت SaaS رخ داد که دریافت مدلهای زبانی پیشرفته در مواجهه با واقعیتهای محیط تولید، بهشدت لنگ میزنند.
بسیاری تصور میکنند کافی است تغییرات کد (Diff) را به یک مدل زبانی بزرگ (LLM) — که شبیه کتابخانهداری است با میلیاردها صفحه متن آشنا اما بیخبر از جزئیات داخلی پروژه شما — بدهند. همانطور که در تحلیلهای قبلی ما دربارهی محدودیتهای پنجره متنی اشاره کردیم، مدلها بدون درک زمینه (Context) دچار توهم میشوند.
به گزارش وبسایت dev.to در ۸ ژوئن ۲۰۲۶، استفاده از GPT-4.5 در بازبینی کد منجر به ۳۴٪ نرخ «مثبت کاذب» شد؛ یعنی مدل چیزهایی را خطا میدید که در واقع درست بودند. دلیل این مشکل، نبود دسترسی مدل به کل فایل و استانداردهای خاص آن پروژه بود. برای حل این معضل، توسعهدهنده اسکریپتی نوشت تا الگوهای نامگذاری و مدیریت خطا را از ۵۰۰ درخواست ادغام (PR) اخیر استخراج کند.
او سپس از تنظیم دقیق (Fine-tuning) — که مثل وقتی است که به یک پزشک عمومی، تخصص پوست میدهیم تا در یک حوزه خاص خبره شود — برای یک مدل Mistral 7B استفاده کرد. نتایج این تغییر روی ۳۰۰ نمونه واقعی، تکاندهنده بود:
• نرخ پذیرش پیشنهادات از ۱۲٪ به ۴۷٪ رسید.
• نرخ مثبت کاذب از ۳۴٪ به ۱۱٪ کاهش یافت.
• هزینههای API با ایجاد یک تایمر ۱۵ دقیقهای (Debounce) و بررسی فقط کدهایی که وضعیت «آماده برای بازبینی» داشتند، از ۱۸۰ دلار به ۴۲ دلار در ماه رسید.
این تجربه ثابت میکند که «امتیاز اعتماد» مدلها اغلب توهمی است. به نقل از نویسنده، همبستگی بین میزان اعتماد مدل به جوابش و درست بودن واقعی آن، تنها ۰.۱۲ بود. این یعنی برای متخصصان، تمرکز باید از «آستانه اعتماد» به «برچسبگذاری دستهای» (مثل تفکیک خطاهای استایلی از خطاهای عملکردی) تغییر کند و تصمیم نهایی را به انسان سپردند.
گام بعدی شما
- به جای تکیه بر مدلهای عمومی، الگوهای کدنویسی تیم خود را از PRهای تأییدشده استخراج کنید.
- برای کاهش هزینهها و نویز، از مکانیزم تأخیر (Debounce) در ارسال درخواستها به API استفاده کنید.
- مدلهای کوچکتر را بر اساس دادههای واقعی پروژه خود آموزش دهید تا نرخ پذیرش کد بالا رود.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گفتگو