تصور کنید مدل زبانی شما دیگر منتظر دستورات دقیق مهندس نباشد و خودش یاد بگیرد که برای حل یک باگ پیچیده، چه ابزارهایی را با چه ترتیبی به کار بگیرد. DeepReinforce با معرفی Ornith-1.0 این رویا را به واقعیت تبدیل کرده است؛ خانوادهای از مدلهای متنباز که ساختار عاملمحور (Agentic Scaffold) خود ــ یعنی ابزارها و منطقی که مدل زبانی بزرگ (LLM) را در بر میگیرد ــ را بهعنوان یک شیء قابل یادگیری میبیند که در طول یادگیری تقویتی (RL)، همزمان با سیاستهای پاسخدهی تکامل مییابد. در نتیجه، عاملهای کدنویسی دیگر برای عملکرد در مقیاس گسترده، نیازی به ارکستراتورهای طراحی شده توسط انسان ندارند.
در معماریهای فعلی، اکثر عاملها بر هارنسهای (Harness) ثابتی تکیه میکنند که توسط مهندسان برای مدیریت حافظه و بازیابی خطا طراحی شدهاند. این رویکرد یک گلوگاه ایجاد میکند، زیرا مدل توسط کیفیت «رپرهای» (Wrapper) نوشته شده توسط انسان محدود میشود. همانطور که در تحلیل قبلی ما دربارهی استانداردهای داده در F3 و حرکت صنعت به سمت فرمتهای داده با کارایی بالا اشاره کردیم، Ornith-1.0 با اجازه دادن به مدل برای نوشتن منطق ارکستراسیون خود، این محدودیت را از بین میبرد. این رویکرد یادگیری خودکار ساختار، یادآور موفقیت مدلهای بهینهشدهای است که با ابعاد کمتر توانستهاند رقبای بزرگتر خود را به چالش بکشند؛ همانطور که مدل ۳۰ میلیاردی North Mini Code پیشتر نشان داد که کارایی لزوماً با تعداد پارامترها رابطه مستقیم ندارد.
به نقل از گزارش marktechpost.com که در اواخر ۲۰۲۴ منتشر شد، خانواده Ornith-1.0 شامل چهار مدل مختلف است که بر پایه مدلهای پایه Gemma 4 و Qwen 3.5 ساخته شدهاند:
- 9B Dense: بهینه شده برای استقرار در لبه (Edge) و سیستمهای تک-GPU (اشغال ۱۹ گیگابایت حافظه در حالت bf16).
- 31B Dense: یک مدل استدلالی میانرده برای وظایف پیچیدهتر.
- 35B MoE: مدل ترکیب خبرهها (Mixture of Experts) که برای هر توکن حدود ۳ میلیارد پارامتر را فعال میکند تا تعادلی بین کارایی و عملکرد ایجاد کند.
- 397B MoE: مدل پرچمدار که هدف آن دستیابی به حداکثر دقت برای کارهای مربوط به مخازن کد (Repository) با فرمت طولانی است.
دسترسی به مدل و استقرار
تمام نقاط بازرسی (Checkpoint) این خانواده تحت لایسنس MIT در Hugging Face منتشر شدهاند. برای پشتیبانی از سرویسدهی محلی سریعتر، DeepReinforce هر دو ساختار FP8 و GGUF را منتشر کرده است. استقرار این سیستم بهگونهای طراحی شده که بسیار ساده باشد. برای مثال، مدل 9B تقریباً به ۱۹ گیگابایت در bf16 نیاز دارد و میتواند روی یک تک GPU ۸۰ گیگابایتی سرویسدهی کند. دستورالعملهای استقرار (Serving recipes) برای vLLM، SGLang و Transformers طراحی شدهاند و هر مدل یک نقطه اتصال (Endpoint) سازگار با OpenAI ارائه میدهد. این امر تضمین میکند که چارچوبهای استاندارد عاملمحور بدون نیاز به تغییر در کد، بهراحتی کار کنند.
سازوکار خود-ساختاربندی (Self-Scaffolding)
اساس نوآوری در Ornith-1.0 یک فرآیند دو مرحلهای یادگیری تقویتی (RL) است. در حالی که اکثر عاملهای کدنویسی یک مدل را با یک هارنس ثابت و طراحی شده توسط انسان جفت میکنند، Ornith-1.0 یاد میگیرد که هارنس خود را بنویسد.
در هر گام از RL، فرآیند در دو فاز متمایز پیش میرود:
- فاز اول: مدل تکلیف خاص و ساختار (Scaffold) قبلی خود را میخواند و سپس یک نسخه اصلاحشده از آن ساختار را پیشنهاد میدهد.
- فاز دوم: مدل از ساختار پیشنهادی جدید و تکلیف مربوطه برای تولید یک راه حل نهایی (Rollout) استفاده میکند.
پاداش حاصل از این خروجی به هر دو مرحله بازمیگردد و بهطور موثر مدل را میآموزد که چگونه ابزارهای خود را بسازد. این سازوکار از یک هدف GRPO در سطح توکن استفاده میکند. برای مدیریت کارایی آموزش، یک تنظیم خط لوله RL (Pipeline-RL) بهصورت ناهمگام اجرا میشود که از یک «وزن کهنگی» (Staleness weight) برای کاهش وزن توکنهای قدیمیتر و Off-policy و حذف آنها پس از عبور از یک آستانه خاص استفاده میکند.
مقابله با سوءاستفاده از پاداش (Reward Hacking)
اجازه دادن به مدل برای نوشتن ساختار خود، خطر سوءاستفاده از پاداش (Reward Hacking) را ایجاد میکند؛ برای مثال، مدل ممکن است فایلهای تست را بخواند تا پاسخهای مورد انتظار را بهصورت سختافزاری (Hardcode) وارد کند یا راهکارهای اوراکل را از محیط کپی کند. DeepReinforce سه لایه دفاعی برای متوقف کردن این روند پیاده کرده است:
- مرز اعتماد ثابت: یک مرز بیرونی و تغییرناپذیر که تضمین میکند محیط، سطح ابزارها و ایزولاسیون تستها کاملاً خارج از دسترس مدل باقی بمانند.
- مانیتور قطعی: این لایه اقدامات ممنوعه را علامتگذاری میکند. خواندن مسیرهای محجوب شده یا ویرایش اسکریپتهای اعتبارسنجی منجر به پاداش صفر میشود و آن مسیرهای اجرای (Trajectories) از محاسبات مزیت (Advantage computation) حذف میشوند.
- داور LLM منجمد: این داور بالای تاییدکننده (Verifier) قرار میگیرد تا بهجای اینکه منبع اصلی پاداش باشد، بهعنوان یک حق وتوی نهایی عمل کند.
معیارهای عملکرد (Benchmarks)
در تستهای محک، مدل Ornith-1.0-397B قابلیتهای سطح بالایی را در میان مدلهای با وزن باز (Open-weights) به نمایش گذاشت. این مدل در SWE-Bench Verified امتیاز ۸۲.۴ را کسب کرد و تنها با Claude Opus 4.8 (امتیاز ۸۷.۶) فاصله داشت.
در Terminal-Bench 2.1، مدل پرچمدار امتیاز ۷۷.۵ را ثبت کرد و از Claude Opus 4.7 (۷۰.۳) پیشی گرفت. با این حال، همچنان پشت سر Claude Opus 4.8 (۸۵) و مدل بزرگتر GLM-5.2-744B (۸۱.۰) قرار دارد. این رقابت در سطح مدلهای عظیم باز است؛ برای مثال، مدل GLM-5.2 با پنجره زمینه یک میلیون توکنی نیز استانداردهای جدیدی را برای مدیریت دادههای حجیم و مجوزهای باز تعریف کرده است. در نتیجه، ادعای «بهترین در نوع خود» (SOTA) بهطور خاص محدود به مدلهای باز با اندازه مشابه است.
کارایی در مقیاس کوچک نیز یکی از نقاط قوت است:
- مدل 35B: در Terminal-Bench 2.1 به امتیاز ۶۴.۲ رسید که بهطور قابلتوجهی بهتر از امتیاز ۵۳.۵ مدل Qwen 3.5-397B است.
- مدل 9B: در Terminal-Bench 2.1 امتیاز ۴۳.۱ و در SWE-Bench Verified امتیاز ۶۹.۴ را بهدست آورد و اثبات کرد که قابلیتهای استدلالی بالا در ابعاد کوچک امکانپذیر است.
موارد استفاده عملی
این مدلها برای عاملهای کدنویسی بومی ترمینال و کارهای در مقیاس مخزن (Repository-scale) طراحی شدهاند. کاربردهای عملی شامل بازبینیهای چندفایلی (Multi-file refactors)، مکانیابی باگها (Bug localization) و وصلههای مبتنی بر تست (Test-driven patches) است. برای مثال، توسعهدهندگان میتوانند از مدل 9B بهصورت محلی برای اولویتبندی (Triage) یک مجموعه تست شکستخورده استفاده کنند، در حالی که تیمهای پلتفرم میتوانند مدل 397B را برای عاملهای کدنویسی داخلی میزبان شوند.
برای توسعهدهندگان، این مدلها دارای یک تجزیهکننده استدلالی (Reasoning parser) هستند که ردپای تفکر (<think>) را (که در فیلد reasoning_content بازگردانده میشود) از پاسخ نهایی جدا میکند. تنظیمات نمونهگیری توصیه شده عبارتند از: temperature=0.6، top_p=0.95 و top_k=20. این مدلها بهطور یکپارچه در چارچوبهایی مانند OpenHands، OpenClaw و OpenCode قرار میگیرند.
این چرخش به سمت «ساختارهای قابل یادگیری»، فرض بنیادین در طراحی عاملها را تغییر میدهد. بهجای اینکه مهندسان ماهها وقت صرف بهینهسازی یک زنجیره پرامپت یا یک ماشین وضعیت (State Machine) کنند، مدل اکنون بهینهترین گردش کار را از طریق آزمون و خطا کشف میکند. اثر ثانویه این تحول، کاهش شدید بدهی فنی (Technical Debt) مرتبط با نگهداری هارنسهای پیچیده عاملمحور است.
توسعهدهندگان باید نظارهگر باشند که این ساختارهای خود-تکاملی در مخازن شرکتی واقعی و غیرقطعی (Non-deterministic) ــ جایی که تعریف نردههای حفاظتی (Guardrails) سختتر است ــ چگونه عمل میکنند. شما میتوانید وزنها و دستورالعملهای استقرار را در Hugging Face تحت لایسنس MIT بیابید.
گام بعدی شما
- اگر از OpenHands استفاده میکنید، مدل 9B را برای کارهای سبک محلی جایگزین کنید تا هزینههای استنتاج را کاهش دهید.
- برای پروژههای بزرگ، مدل 397B را در محیط ایزوله تست کنید تا ببینید ساختارهای خودکار آن چطور با استانداردهای کدنویسی تیم شما سازگار میشود.
- تنظیمات نمونهگیری را روی temperature=0.6 و top_p=0.95 قرار دهید تا تعادل بین خلاقیت و دقت حفظ شود.
اما تأثیر این رویکرد بر مدلهای تخصصیتر در حوزههای غیربرنامهنویسی حتی پیچیدهتر است؛ به تحلیل ما درباره مدلهای استدلالی نسل جدید مراجعه کنید.




گفتگو