مدل Ornith-1.0 استقرار عامل‌های کدنویسی را از مهندسی دستی به یادگیری خودکار برد

منبع خبر

۲۳ ساعت پیش·۴ تیر ۱۴۰۵۴ دقیقه مطالعه

DeepReinforce مدل کدنویسی متن‌باز Ornith-1.0 را منتشر کرد: خانواده‌ای از مدل‌هایی که داربست‌های یادگیری تقویتی خود را می‌آموز

اشتراک‌گذاری

تصور کنید مدل زبانی شما دیگر منتظر دستورات دقیق مهندس نباشد و خودش یاد بگیرد که برای حل یک باگ پیچیده، چه ابزارهایی را با چه ترتیبی به کار بگیرد. DeepReinforce با معرفی Ornith-1.0 این رویا را به واقعیت تبدیل کرده است؛ خانواده‌ای از مدل‌های متن‌باز که ساختار عامل‌محور (Agentic Scaffold) خود ــ یعنی ابزارها و منطقی که مدل زبانی بزرگ (LLM) را در بر می‌گیرد ــ را به‌عنوان یک شیء قابل یادگیری می‌بیند که در طول یادگیری تقویتی (RL)، هم‌زمان با سیاست‌های پاسخ‌دهی تکامل می‌یابد. در نتیجه، عامل‌های کدنویسی دیگر برای عملکرد در مقیاس گسترده، نیازی به ارکستراتورهای طراحی شده توسط انسان ندارند.

در معماری‌های فعلی، اکثر عامل‌ها بر هارنس‌های (Harness) ثابتی تکیه می‌کنند که توسط مهندسان برای مدیریت حافظه و بازیابی خطا طراحی شده‌اند. این رویکرد یک گلوگاه ایجاد می‌کند، زیرا مدل توسط کیفیت «رپرهای» (Wrapper) نوشته شده توسط انسان محدود می‌شود. همان‌طور که در تحلیل قبلی ما درباره‌ی استانداردهای داده در F3 و حرکت صنعت به سمت فرمت‌های داده با کارایی بالا اشاره کردیم، Ornith-1.0 با اجازه دادن به مدل برای نوشتن منطق ارکستراسیون خود، این محدودیت را از بین می‌برد. این رویکرد یادگیری خودکار ساختار، یادآور موفقیت مدل‌های بهینه‌شده‌ای است که با ابعاد کمتر توانسته‌اند رقبای بزرگتر خود را به چالش بکشند؛ همان‌طور که مدل ۳۰ میلیاردی North Mini Code پیش‌تر نشان داد که کارایی لزوماً با تعداد پارامترها رابطه مستقیم ندارد.

به نقل از گزارش marktechpost.com که در اواخر ۲۰۲۴ منتشر شد، خانواده Ornith-1.0 شامل چهار مدل مختلف است که بر پایه مدل‌های پایه Gemma 4 و Qwen 3.5 ساخته شده‌اند:

9B Dense: بهینه شده برای استقرار در لبه (Edge) و سیستم‌های تک-GPU (اشغال ۱۹ گیگابایت حافظه در حالت bf16).
31B Dense: یک مدل استدلالی میان‌رده برای وظایف پیچیده‌تر.
35B MoE: مدل ترکیب خبره‌ها (Mixture of Experts) که برای هر توکن حدود ۳ میلیارد پارامتر را فعال می‌کند تا تعادلی بین کارایی و عملکرد ایجاد کند.
397B MoE: مدل پرچم‌دار که هدف آن دستیابی به حداکثر دقت برای کارهای مربوط به مخازن کد (Repository) با فرمت طولانی است.

دسترسی به مدل و استقرار

تمام نقاط بازرسی (Checkpoint) این خانواده تحت لایسنس MIT در Hugging Face منتشر شده‌اند. برای پشتیبانی از سرویس‌دهی محلی سریع‌تر، DeepReinforce هر دو ساختار FP8 و GGUF را منتشر کرده است. استقرار این سیستم به‌گونه‌ای طراحی شده که بسیار ساده باشد. برای مثال، مدل 9B تقریباً به ۱۹ گیگابایت در bf16 نیاز دارد و می‌تواند روی یک تک GPU ۸۰ گیگابایتی سرویس‌دهی کند. دستورالعمل‌های استقرار (Serving recipes) برای vLLM، SGLang و Transformers طراحی شده‌اند و هر مدل یک نقطه اتصال (Endpoint) سازگار با OpenAI ارائه می‌دهد. این امر تضمین می‌کند که چارچوب‌های استاندارد عامل‌محور بدون نیاز به تغییر در کد، به‌راحتی کار کنند.

سازوکار خود-ساختاربندی (Self-Scaffolding)

اساس نوآوری در Ornith-1.0 یک فرآیند دو مرحله‌ای یادگیری تقویتی (RL) است. در حالی که اکثر عامل‌های کدنویسی یک مدل را با یک هارنس ثابت و طراحی شده توسط انسان جفت می‌کنند، Ornith-1.0 یاد می‌گیرد که هارنس خود را بنویسد.

در هر گام از RL، فرآیند در دو فاز متمایز پیش می‌رود:

فاز اول: مدل تکلیف خاص و ساختار (Scaffold) قبلی خود را می‌خواند و سپس یک نسخه اصلاح‌شده از آن ساختار را پیشنهاد می‌دهد.
فاز دوم: مدل از ساختار پیشنهادی جدید و تکلیف مربوطه برای تولید یک راه حل نهایی (Rollout) استفاده می‌کند.

پاداش حاصل از این خروجی به هر دو مرحله بازمی‌گردد و به‌طور موثر مدل را می‌آموزد که چگونه ابزارهای خود را بسازد. این سازوکار از یک هدف GRPO در سطح توکن استفاده می‌کند. برای مدیریت کارایی آموزش، یک تنظیم خط لوله RL (Pipeline-RL) به‌صورت ناهمگام اجرا می‌شود که از یک «وزن کهنگی» (Staleness weight) برای کاهش وزن توکن‌های قدیمی‌تر و Off-policy و حذف آن‌ها پس از عبور از یک آستانه خاص استفاده می‌کند.

مقابله با سوءاستفاده از پاداش (Reward Hacking)

اجازه دادن به مدل برای نوشتن ساختار خود، خطر سوءاستفاده از پاداش (Reward Hacking) را ایجاد می‌کند؛ برای مثال، مدل ممکن است فایل‌های تست را بخواند تا پاسخ‌های مورد انتظار را به‌صورت سخت‌افزاری (Hardcode) وارد کند یا راهکارهای اوراکل را از محیط کپی کند. DeepReinforce سه لایه دفاعی برای متوقف کردن این روند پیاده کرده است:

مرز اعتماد ثابت: یک مرز بیرونی و تغییرناپذیر که تضمین می‌کند محیط، سطح ابزارها و ایزولاسیون تست‌ها کاملاً خارج از دسترس مدل باقی بمانند.
مانیتور قطعی: این لایه اقدامات ممنوعه را علامت‌گذاری می‌کند. خواندن مسیرهای محجوب شده یا ویرایش اسکریپت‌های اعتبارسنجی منجر به پاداش صفر می‌شود و آن مسیرهای اجرای (Trajectories) از محاسبات مزیت (Advantage computation) حذف می‌شوند.
داور LLM منجمد: این داور بالای تاییدکننده (Verifier) قرار می‌گیرد تا به‌جای اینکه منبع اصلی پاداش باشد، به‌عنوان یک حق وتوی نهایی عمل کند.

معیارهای عملکرد (Benchmarks)

در تست‌های محک، مدل Ornith-1.0-397B قابلیت‌های سطح بالایی را در میان مدل‌های با وزن باز (Open-weights) به نمایش گذاشت. این مدل در SWE-Bench Verified امتیاز ۸۲.۴ را کسب کرد و تنها با Claude Opus 4.8 (امتیاز ۸۷.۶) فاصله داشت.

در Terminal-Bench 2.1، مدل پرچم‌دار امتیاز ۷۷.۵ را ثبت کرد و از Claude Opus 4.7 (۷۰.۳) پیشی گرفت. با این حال، همچنان پشت سر Claude Opus 4.8 (۸۵) و مدل بزرگتر GLM-5.2-744B (۸۱.۰) قرار دارد. این رقابت در سطح مدل‌های عظیم باز است؛ برای مثال، مدل GLM-5.2 با پنجره زمینه یک میلیون توکنی نیز استانداردهای جدیدی را برای مدیریت داده‌های حجیم و مجوزهای باز تعریف کرده است. در نتیجه، ادعای «بهترین در نوع خود» (SOTA) به‌طور خاص محدود به مدل‌های باز با اندازه مشابه است.

کارایی در مقیاس کوچک نیز یکی از نقاط قوت است:

مدل 35B: در Terminal-Bench 2.1 به امتیاز ۶۴.۲ رسید که به‌طور قابل‌توجهی بهتر از امتیاز ۵۳.۵ مدل Qwen 3.5-397B است.
مدل 9B: در Terminal-Bench 2.1 امتیاز ۴۳.۱ و در SWE-Bench Verified امتیاز ۶۹.۴ را به‌دست آورد و اثبات کرد که قابلیت‌های استدلالی بالا در ابعاد کوچک امکان‌پذیر است.

موارد استفاده عملی

این مدل‌ها برای عامل‌های کدنویسی بومی ترمینال و کارهای در مقیاس مخزن (Repository-scale) طراحی شده‌اند. کاربردهای عملی شامل بازبینی‌های چندفایلی (Multi-file refactors)، مکان‌یابی باگ‌ها (Bug localization) و وصله‌های مبتنی بر تست (Test-driven patches) است. برای مثال، توسعه‌دهندگان می‌توانند از مدل 9B به‌صورت محلی برای اولویت‌بندی (Triage) یک مجموعه تست شکست‌خورده استفاده کنند، در حالی که تیم‌های پلتفرم می‌توانند مدل 397B را برای عامل‌های کدنویسی داخلی میزبان شوند.

برای توسعه‌دهندگان، این مدل‌ها دارای یک تجزیه‌کننده استدلالی (Reasoning parser) هستند که ردپای تفکر (<think>) را (که در فیلد reasoning_content بازگردانده می‌شود) از پاسخ نهایی جدا می‌کند. تنظیمات نمونه‌گیری توصیه شده عبارتند از: temperature=0.6، top_p=0.95 و top_k=20. این مدل‌ها به‌طور یکپارچه در چارچوب‌هایی مانند OpenHands، OpenClaw و OpenCode قرار می‌گیرند.

این چرخش به سمت «ساختارهای قابل یادگیری»، فرض بنیادین در طراحی عامل‌ها را تغییر می‌دهد. به‌جای اینکه مهندسان ماه‌ها وقت صرف بهینه‌سازی یک زنجیره پرامپت یا یک ماشین وضعیت (State Machine) کنند، مدل اکنون بهینه‌ترین گردش کار را از طریق آزمون و خطا کشف می‌کند. اثر ثانویه این تحول، کاهش شدید بدهی فنی (Technical Debt) مرتبط با نگهداری هارنس‌های پیچیده عامل‌محور است.

توسعه‌دهندگان باید نظاره‌گر باشند که این ساختارهای خود-تکاملی در مخازن شرکتی واقعی و غیرقطعی (Non-deterministic) ــ جایی که تعریف نرده‌های حفاظتی (Guardrails) سخت‌تر است ــ چگونه عمل می‌کنند. شما می‌توانید وزن‌ها و دستورالعمل‌های استقرار را در Hugging Face تحت لایسنس MIT بیابید.

گام بعدی شما

اگر از OpenHands استفاده می‌کنید، مدل 9B را برای کارهای سبک محلی جایگزین کنید تا هزینه‌های استنتاج را کاهش دهید.
برای پروژه‌های بزرگ، مدل 397B را در محیط ایزوله تست کنید تا ببینید ساختارهای خودکار آن چطور با استانداردهای کدنویسی تیم شما سازگار می‌شود.
تنظیمات نمونه‌گیری را روی temperature=0.6 و top_p=0.95 قرار دهید تا تعادل بین خلاقیت و دقت حفظ شود.

اما تأثیر این رویکرد بر مدل‌های تخصصی‌تر در حوزه‌های غیربرنامه‌نویسی حتی پیچیده‌تر است؛ به تحلیل ما درباره مدل‌های استدلالی نسل جدید مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مدل Ornith-1.0 استقرار عامل‌های کدنویسی را از مهندسی دستی به یادگیری خودکار برد

MarkTechPost

منبع خبر

۲۳ ساعت پیش·۴ تیر ۱۴۰۵۴ دقیقه مطالعه

اشتراک‌گذاری

9B Dense: بهینه شده برای استقرار در لبه (Edge) و سیستم‌های تک-GPU (اشغال ۱۹ گیگابایت حافظه در حالت bf16).
31B Dense: یک مدل استدلالی میان‌رده برای وظایف پیچیده‌تر.
35B MoE: مدل ترکیب خبره‌ها (Mixture of Experts) که برای هر توکن حدود ۳ میلیارد پارامتر را فعال می‌کند تا تعادلی بین کارایی و عملکرد ایجاد کند.
397B MoE: مدل پرچم‌دار که هدف آن دستیابی به حداکثر دقت برای کارهای مربوط به مخازن کد (Repository) با فرمت طولانی است.