مدل Ornith-1.0 دقت حل باگ‌های مهندسی نرم‌افزار را به ۸۲.۴٪ رساند

منبع خبر

۱۹ دقیقه پیش·۸ تیر ۱۴۰۵۷ دقیقه مطالعه

لوگوی پروژه Ornith-1: پرنده‌ای با بال‌های مکانیکی و خطوط مدار الکترونیکی، نماد ترکیب طبیعت و هوش مصنوعی.

اشتراک‌گذاری

تصور کنید دستیاری دارید که به‌جای پیشنهاد دادن چند خط کد، کل پروژه شما را می‌فهمد، مسیر اصلاح باگ را برنامه‌ریزی می‌کند و تا رسیدن به جواب درست، کد را تست و تصحیح می‌کند. این دقیقاً همان تفاوت مدل‌های کدنویسی سنتی با مدل‌های عامل‌محور (Agentic) است که اکنون در Ornith-1.0 محقق شده است. کدنویسی عامل‌محور در واقع تغییری بنیادین است؛ گذر از مدل‌هایی که صرفاً قطعه‌کدهای کوتاه پیشنهاد می‌دهند به سمت عامل‌هایی که می‌توانند یک اصلاحیه کامل را برنامه‌ریزی کنند، دستورات شل (Shell) را اجرا نمایند و در نهایت صحت کار خود را تأیید کنند.

به نقل از مستندات این پروژه، در ۲۹ ژوئن ۲۰۲۶، خانواده مدل‌های Ornith-1.0 منتشر شد تا استانداردهای جدیدی را در کدنویسی خودمختار تعریف کند. در حالی که بیشتر مدل‌های متن‌باز تنها به تکمیل کد محدود هستند و در مواجهه با «داربست» (Scaffold) — یعنی همان گام‌های منطقی مورد نیاز برای حل یک باگ پیچیده در سطح مخزن (Repo) — دچار مشکل می‌شوند، Ornith-1.0 فرآیند برنامه‌ریزی را به عنوان یک مهارت قابل یادگیری می‌بیند. بزرگ‌ترین مدل این خانواده توانسته است به امتیاز ۸۲.۴٪ در بنچمارک SWE-bench Verified دست یابد.

این تفاوت را می‌توان به تفاوت میان دانشجویی که چند فرمول را حفظ است و توسعه‌دهنده‌ای که می‌داند چگونه یک محیط عملیاتی (Production) را دیباگ کند، تشبیه کرد. اکثر مدل‌های هوش مصنوعی امروز از نوع اول هستند؛ اما Ornith-1.0 با بهینه‌سازی مسیر جستجوی راهکار (Search Trajectory)، هدفش تبدیل شدن به نوع دوم است. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، دسترسی به وزن‌های مدل اجازه می‌دهد تا توسعه‌دهندگان کنترل دقیقی روی لایه‌های استدلالی داشته باشند. در Ornith-1.0، برنامه‌ریزی برای حل باگ‌ها دیگر یک حدس نیست، بلکه یک مهارت یاد گرفته شده است.

معماری خودبه‌بهبود

نوآوری اصلی Ornith-1.0 در چارچوب آموزشی خودبه‌بهبود آن است. طبق اعلام تیم سازنده، آن‌ها به‌جای اتکا به مجموعه‌داده‌های ایستا (Static Datasets)، از یادگیری تقویتی (RL) استفاده کرده‌اند تا دو بخش مجزا را به‌طور هم‌زمان بهینه کنند: «اجرای راهکارها» (Solution Rollouts) و «داربست» (Scaffold) که این اجراها را هدایت می‌کند.

با بهینه‌سازی این داربست، مدل مسیرهای بهتری را برای حل مسائل کشف می‌کند. این بدان معناست که مدل صرفاً پاسخ را حدس نمی‌زند، بلکه بهینه‌ترین راه رسیدن به آن پاسخ را از طریق استدلال‌های تکرارشونده (Iterative Reasoning) می‌آموزد. این مکانیسم باعث می‌شود مدل در مواجهه با خطاهای احتمالی، مسیر خود را اصلاح کرده و دوباره تلاش کند تا به نتیجه برسد.

خانواده مدل‌ها و انواع نسخه‌ها

مدل‌های Ornith-1.0 بر پایه مدل‌های بنیادین Gemma 4 و Qwen 3.5 ساخته شده‌اند و نقاط قوت این مدل‌ها را به ارث برده‌اند، در حالی که لایه عامل‌محور (Agentic Layer) به آن‌ها اضافه شده است. DeepReinforce-AI برای ایجاد تعادل بین عملکرد و محدودیت‌های سخت‌افزاری، چهار اندازه مختلف ارائه داده است:

Ornith-1.0-9B: یک مدل متراکم (Dense) برای سیستم‌های تک-GPU. این مدل به‌گونه‌ای طراحی شده است که روی یک GPU با حافظه ۸۰ گیگابایت جای بگیرد.
Ornith-1.0-31B: یک گزینه متراکم با اندازه متوسط برای نیازهای میانی.
Ornith-1.0-35B: مدل ترکیب خبره‌ها (MoE) — شبیه تیمی از متخصصان که هر سوال به دست متخصص مربوطه سپرده می‌شود — که برای بهره‌وری و سرعت بیشتر طراحی شده است.
Ornith-1.0-397B: یک مدل عظیم MoE که برای گره‌های چند-GPU و با استفاده از موازی‌سازی تنسور (Tensor Parallelism) طراحی شده است.

برای پشتیبانی از نیازهای مختلف استقرار، چک‌پوینت‌ها در قالب‌های متنوعی عرضه شده‌اند. مدل ۹ میلیاردی در قالب bf16 برای تنظیم دقیق (Fine-tuning) و GGUF برای استنتاج محلی در دسترس است. مدل‌های MoE (۳۵ و ۳۹۷ میلیاردی) در قالب‌های bf16 و FP8 ارائه شده‌اند. نسخه‌های FP8 به‌طور خاص طراحی شده‌اند تا تقریباً نصف حافظه ویدیویی (VRAM) را در GPUهای سازگار اشغال کنند.

لوگوی پروژه Ornith-1: پرنده‌ای با بال‌های مکانیکی و بدنه‌ای شبیه ربات، نمادی از ترکیب طبیعت و هوش مصنوعی.

کالبدشکافی عملکرد در بنچمارک‌ها

بر اساس بررسی مستندات گیت‌هاب، بیشترین پیشرفت در وظایف پیچیده مهندسی نرم‌افزار مشاهده می‌شود. هر مدل در برابر مدل‌های پایه (Baselines) متناسب با اندازه خود و با استفاده از تنظیمات رمزگشایی (Decoding) یکسان ارزیابی شده است. جزئیات معیارهای عملکردی به شرح زیر است:

SWE-bench Verified: مدل ۳۹۷ میلیاردی با امتیاز ۸۲.۴٪، به‌طور قابل‌توجهی از مدل پایه Qwen 3.5-397B (با امتیاز ۷۶.۴٪) و حتی Qwen 3.7-Max (با امتیاز ۸۰.۴٪) پیشی گرفت.
Terminal-Bench 2.1: در چارچوب Terminus-2، مدل ۳۹۷ میلیاردی به ۷۷.۵٪ رسید (در مقابل ۵۳.۵٪ برای Qwen 3.5-397B). مدل ۳۵ میلیاردی نیز با ۶۴.۲٪ موفق شد امتیاز ۴۱.۴٪ مدل Qwen 3.5-35B را شکست دهد.
NL2Repo: مدل ۳۹۷ میلیاردی به امتیاز ۴۸.۲٪ دست یافت که نشان‌دهنده توانایی بالای آن در تبدیل درخواست‌های زبان طبیعی به تغییرات در سطح کل مخزن کد است. مدل ۹ میلیاردی نیز با ۲۷.۲٪ در برابر ۱۶.۲٪ مدل Qwen 3.5-9B قرار گرفت.
Claw-eval: مدل ۳۹۷ میلیاردی با میانگین ۷۷.۱٪، رقبایی مانند GLM-5.2-744B (با ۷۵.۸٪) را پشت سر گذاشت. مدل ۹ میلیاردی نیز میانگین ۶۳.۱٪ را ثبت کرد، در حالی که این رقم برای Qwen 3.5-9B برابر با ۵۳.۲٪ بود.
SWE Atlas: مدل ۳۹۷ میلیاردی در معیارهای QnA (۴۱.۲٪)، RF (۴۲.۶٪) و TW (۳۹.۱٪) قدرت خود را نشان داد و به‌شدت از مدل ۹ میلیاردی (که به ترتیب ۱۷.۹٪، ۱۶.۶٪ و ۱۵.۳٪ کسب کرده بود) برتر بود.

متدولوژی تست و زمینه فنی

برای تضمین دقت، بنچمارک‌ها با پیکربندی‌های فنی بسیار خاصی اجرا شدند:

Terminal-Bench 2.1: ارزیابی از طریق Harbor/Terminus-2 و Claude Code 2.1.126 انجام شد. تنظیمات شامل پنجره متنی (Context Window) ۱۲۸ هزار توکنی، دمای ۱.۰ و مهلت زمانی ۴ ساعته با ۳۲ هسته CPU و ۴۸ گیگابایت RAM بود.
SWE-bench: از هارنس OpenHands با پنجره متنی ۲۵۶ هزار توکنی، دما ۱.۰ و top_p ۰.۹۵ استفاده شد.
NL2Repo: این تست با یک پنجره متنی عظیم ۴۰۰ هزار توکنی و خروجی ۴۸ هزار توکنی، همراه با فیلترهای ضد-هک (Anti-hacking) انجام گرفت.
ClawEval: تمرکز این تست بر توزیع وظایف کاربران واقعی با پنجره متنی ۲۵۶ هزار توکنی و دمای ۰.۶ بود.

استدلال و ابزارها

Ornith-1.0 یک مدل استدلالی (Reasoning Model) بومی است. هر پاسخ مدل با یک بلوک <think> آغاز می‌شود که در آن زنجیره تفکر (Chain-of-Thought) مدل پیش از ارائه کد نهایی یا پاسخ، نمایش داده می‌شود.

برای کاربردی شدن در محیط‌های توسعه، این مدل‌ها از یک رابط سازگار با OpenAI پشتیبانی می‌کنند. این رابط شامل یک فیلد اختصاصی به نام reasoning_content و یک پارسر فراخوانی ابزار (Tool-call parser) است. این قابلیت به مدل اجازه می‌دهد تا فراخوان‌های تابع (Function Calls) را برای اجرای دستورات شل یا درخواست‌های API صادر کند.

استقرار و ادغام محلی

این پروژه تحت مجوز MIT منتشر شده است که دسترسی جهانی را فراهم کرده و آن را از محدودیت‌های منطقه‌ای رها می‌کند. برای استقرار محلی، نسخه‌های کوانتیزه GGUF برای مدل‌های ۹ و ۳۵ میلیاردی ارائه شده که با لاماسی‌پلاس‌پلاس (llama.cpp) و اولاما (Ollama) سازگار هستند.

برای سرویس‌های در سطح تولید (Production-grade)، مدل‌ها با vLLM (نسخه ۰.۱۹.۱ و بالاتر)، SGLang (نسخه ۰.۵.۹ و بالاتر) و Transformers (نسخه ۵.۸.۱ و بالاتر) سازگارند. مدل‌های MoE برای مدیریت مقیاس ۳۹۷ میلیارد پارامتری، نیاز به موازی‌سازی تنسور در چندین GPU دارند.

پارامترهای نمونه‌برداری (Sampling) پیشنهادی برای این مدل‌ها عبارتند از:

دما (Temperature): ۰.۶ (برای بازتولید نتایج بنچمارک از ۱.۰ استفاده کنید)
Top_p: ۰.۹۵
Top_k: ۲۰

ادغام با چارچوب‌های عامل‌محور

توسعه‌دهندگان می‌توانند این مدل‌ها را با هدایت آن‌ها به یک سرور محلی vLLM یا SGLang از طریق نقطه پایانی /v1/chat/completions در چارچوب‌های موجود ادغام کنند. ابزارهای سازگار عبارتند از:

OpenHands: از طریق LiteLLM و با استفاده از پیشوند openai/Ornith-1.0.
Hermes Agent: اتصال به هر نقطه پایانی سازگار با OpenAI.
OpenClaw: به‌طور خاص برای وظایف کدنویسی عامل‌محور بهینه شده است.
OpenCode: یک رابط خط فرمان (CLI) کدنویسی که در آن Ornith را می‌توان به عنوان یک تامین‌کننده در فایل opencode.json با استفاده از بسته npm @ai-sdk/openai-compatible ثبت کرد.
Unsloth Studio: امکان استنتاج سریع محلی یا بارگذاری ۴-بیتی برای تنظیم دقیق (Fine-tuning) را فراهم می‌کند.

تحلیل: چرخش به سمت کدنویسی «جستجو-محور»

این انتشار نشان‌دهنده حرکتی از پارادایم «پیش‌بینی توکن بعدی» به سمت پارادایم «جستجو و تأیید» است. با بهینه کردن داربست (Scaffold)، DeepReinforce-AI در واقع یک نقشه ذهنی از نحوه حل مسائل کدنویسی را به مدل داده است.

برای کاربر نهایی، این به معنای کاهش «توهمات» (Hallucinations) در اصلاحات کد است؛ یعنی کمتر پیش می‌آید که کدی نوشته شود که در ظاهر درست باشد اما هنگام کامپایل با خطا مواجه شود. توانایی اصلاح مسیر جستجو در طول آموزش، مستقیماً به قابلیت اطمینان بالاتر در زمان استنتاج منجر می‌شود.

همچنین، این موضوع سد ورود برای هوش مصنوعی عامل‌محور «محلی-محور» (Local-First) را کاهش می‌دهد. با وجود یک مدل ۹ میلیاردی که در SWE-bench از مدل‌های بسیار بزرگ‌تر عملکرد بهتری دارد، توسعه‌دهندگان اکنون می‌توانند یک عامل کدنویسی با قابلیت بالا را روی یک تک-GPU حرفه‌ای اجرا کنند، بدون اینکه به APIهای بسته و گران‌قیمت وابسته باشند.

محیط توسعه محلی شما در حال تبدیل شدن به یک همکار فعال است، نه فقط یک ویرایشگر متن. برنده واقعی در اینجا جامعه مدل‌های باز-وزنی (Open-weights) است که اکنون جایگزینی viable برای Claude Code در اتوماسیون سطح مخزن را در اختیار دارد.

برای شروع، می‌توانید نسخه 9B-GGUF را از طریق Ollama فراخوانی کنید یا مدل کامل 397B MoE را روی یک خوشه چند-GPU مستقر نمایید تا قابلیت‌های آن را روی کدبیس خاص خود آزمایش کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.