سامانه LEVI: کاهش ۶.۷ برابری هزینه‌ها با اتوماسیون کشف الگوریتم

تصور کنید به جای پرداخت هزاران دلار برای هر بار بهینه‌سازی یک کد، بتوانید با هزینه‌ای ناچیز و در هر شب، الگوریتم‌های سازمان خود را با سخت‌افزار و ترافیک واقعی به‌روز کنید. این دقیقاً همان چیزی است که LEVI در حوزهٔ پژوهش‌های سیستمیِ مبتنی بر هوش مصنوعی (ADRS) ممکن کرده است. اکتشاف الگوریتمی با عملکرد بالا دیگر یک کالای لوکس نیست که فقط در اختیار کسانی با بودجه‌های عظیم باشد. طبق اعلام توسعه‌دهندگان، LEVI توانسته است عملکرد‌های پیشرو (SOTA) را در مسائل ADRS حفظ کند، در حالی که هزینه‌های عملیاتی را در مقایسه با خط‌بندی‌های (Baselines) موجود، تقریباً ۳ تا ۷ برابر کاهش داده است.

برای دهه‌ها، پژوهشگران سیستم‌ها مجبور بودند برای بیرون کشیدن حداکثر توان از سخت‌افزار، به‌صورت دستی روی توابع اکتشافی (Heuristics) و الگوریتم‌ها زمان بگذارند. صنعت معمولاً در مرحلهٔ بعد، این نتایج پژوهشی تک‌موردی را به محیط‌های عملیاتی (Production) منتقل می‌کند. با این حال، هدف ADRS این است که به سمت بهینه‌سازی‌های اختصاصی (Bespoke) حرکت کند؛ یعنی الگوریتم‌هایی که در لحظه با سخت‌افزار، حجم کاری و توافق‌نامه‌های سطح خدمات (SLO) یک استقرار خاص سازگار شوند.

تا پیش از این، مانع اصلی این چشم‌انداز، هزینه بود. اکثر چارچوب‌های موجود، مانند OpenEvolve و GEPA، برای هر تک‌تک جهش‌ها یا تغییرات (Mutation)، به‌شدت به گران‌ترین مدل‌های پیشرو و بسته (Closed-source) تکیه می‌کنند. این موضوع یک سد ورودی بالا برای پژوهشگرانی ایجاد می‌کند که توان مالی انجام چنین آزمایش‌هایی را ندارند. مهم‌تر از آن، این رویکرد مانع از انتقال به بهینه‌سازی مستمر می‌شود. وقتی هزینه هر فراخوانی بالا باشد، بهینه‌سازی مجدد و شبانه در سطح یک ناوگان ابری جهانی — که باید با تغییر اولویت‌ها یا تغییر نوع GPUها سازگار شود — از نظر مالی غیرممکن است.

چشم‌انداز: ADRS به عنوان CI/CD

ADRS نباید صرفاً به عنوان راهی برای تولید یک نتیجهٔ قوی برای یک مقالهٔ پژوهشی دیده شود. در عوض، باید به عنوان حرکتی به سمت راهکارهای کاملاً اختصاصی دیده شود که بیشترین بهره («آب‌گیری») را از محیط دقیق استقرار استخراج می‌کنند. اگر این منطق را به نتیجهٔ نهایی‌اش برسانیم، ADRS را باید شکلی پیشرفته‌تر از CI/CD دانست. در این مدل، کاربر تابع امتیازدهی و تنظیمات استقرار خود را تعریف می‌کند. به‌جای اینکه فقط ابزارهای Linter یا Formatter به‌طور خودکار استایل کد را اصلاح کنند، خودِ الگوریتم به‌طور خودکار بهینه‌ می‌شود.

برای مثال، یک شرکت که امروز یک调度گر ابری چند-منطقه‌ای (Multi-region cloud scheduler) را اجرا می‌کند، از همان الگوریتمی استفاده می‌کند که همهٔ دیگران استفاده می‌کنند. اما با ADRS ارزان‌قیمت، آن‌ها می‌توانند هر شب الگوریتم خود را بر اساس الگوهای ترافیکی واقعی، SLOهای واقعی و ترکیب سخت‌افزاری واقعی خود بازبهینه‌سازی کنند. هرگاه منابع (مانند GPUهای جدید) یا اولویت‌ها (SLOهای متفاوت) تغییر کنند، الگوریتم‌های متناظر به‌طور خودکار بهینه می‌شوند.

LEVI: نتایج بهتر ADRS با کسری از هزینه | ADRS — پژوهش مبتنی بر هوش مصنوعی برای سیستم‌ها

فلسفهٔ «ابتدا هارنس» (Harness-First)

LEVI تمرکز را از خودِ مدل به «هارنس جست‌وجو» (Search Harness) منتقل می‌کند. بینش اصلی این است که فرض دسترسی به بزرگ‌ترین مدل‌های SOTA نباید به عنوان پیش‌فرض پذیرفته شود. در واقع، مقالهٔ اصلی FunSearch گزارش داده بود که نتوانسته است از مدل‌های بزرگ‌تر بهره ببرد؛ و تنها با AlphaEvolve بود که موفق شدند.

LEVI بر این premise استوار است که کمیت راهکارهای تولید شده توسط مدل‌های کوچک می‌تواند برتری کیفیِ تعداد کمی فراخوانی گران‌قیمت را خنثی کند. برای پیاده‌سازی این موضوع، LEVI از یک استراتژی تخصیص مدل لایه‌بندی شده (Stratified Model Allocation) استفاده می‌کند که ظرفیت مدل را با نیاز خاص وظیفه تطبیق می‌دهد:

مدل‌های کوچک (مثلاً QWEN 30B محلی): حجم اصلی جست‌وجو را بر عهده دارند. آن‌ها اصلاحات محلی، بهبودهای تدریجی در یک خانوادهٔ الگوریتمی تثبیت شده، تنظیم ثابت‌ها و بهینه‌سازی موارد خاص (Edge cases) را انجام می‌دهند. هدف این مدل‌ها ایجاد وسعت (Breadth) و توان عملیاتی (Throughput) است.
مدل‌های مرزی (Frontier Models): برای «چرخش‌های پارادایم» (Paradigm Shifts) کم‌تکرار رزرو می‌شوند. این‌ها جهش‌هایی هستند که هدفشان پیشنهاد رویکردهای ساختاری متفاوت است، نه صیقل دادن راهکارهای موجود. این مدل‌ها استدلال خلاقانه و دانش گسترده را فراهم می‌کنند.

این رویکرد از Treating مدل‌ها به‌عنوان مجموعه‌ای جایگزین‌پذیر (Interchangeable ensembles) جلوگیری می‌کند. برخی چارچوب‌ها به‌طور یکنواخت از یک مجموعه مدل نمونه‌برداری می‌کنند یا فراخوانی‌ها را بدون توجه به نیاز Mutation مسیریابی می‌کنند. LEVI یک عدم تقارن طبیعی را تشخیص می‌دهد: اصلاح کردن (Refining) آسان است، اما پیشنهاد یک مسیر بنیادین جدید نیازمند جهشی در استدلال خلاقانه است. هارنس باید از این تمایز آگاه باشد و منابع را بر این اساس تخصیص دهد.

حل مشکل فروپاشی تنوع (Diversity Collapse)

یک ریسک بزرگ در استفاده از مدل‌های کوچک‌تر — که توزیع پیش‌آموزشی محدودتری دارند — «فروپاشی آرشیو» (Archive Collapse) است؛ وضعیتی که در آن جست‌وجو روی یک خانوادهٔ واحد از راهکارها همگرا می‌شود. چارچوب‌های موجود اغلب برای حفظ تنوع به فضای خروجی وسیع مدل‌های مرزی (مانند GPT-5 یا Claude Opus) تکیه می‌کنند، یا روش‌های پیچیدهٔ نمونه‌برداری ردکننده (Rejection Sampling) و مدل‌های Embedding را به عنوان جبران اضافه می‌کنند. این‌ها صرفاً جبرانی برای یک بنیاد ضعیف هستند، نه راه حل.

LEVI این مشکل را با یکپارچه‌سازی تنوع ساختاری و رفتاری در یک مکانیسم واحد حل می‌کند. به‌جای انتخاب یکی از این دو محور، LEVI هر دو را به عنوان ابعادی از یک «توصیف‌گر رفتاری» (Behavioral Descriptor) به کار می‌گیرد.

جزئیات مکانیسم تنوع

تنوع ساختاری (Structural Diversity): ویژگی‌های ساختاری کد مانند تعداد حلقه‌ها و پیچیدگی سیکلوماتیک (Cyclomatic Complexity) را می‌سنجد. این فراتر از ابعاد ساده‌ای مثل طول کد است؛ زیرا دو برنامه با تعداد حلقه‌های متفاوت ممکن است مسئله را به شکلی کاملاً یکسان حل کنند.
تنوع رفتاری (Behavioral Diversity): نتایج عملکرد را در هر نمونه (Per-instance performance) اندازه‌گیری می‌کند. این ویژگی تفاوت‌هایی را می‌گیرد که تحلیل ساختاری از دست می‌دهد، چرا که راهکارهایی که در نمونه‌های فردی مشابه عمل می‌کنند، ممکن است در واقع به روش‌های کاملاً متفاوتی کار کنند.
اثر انگشت (Fingerprinting): هر راهکار به یک بردار «اثر انگشت» نگاشته می‌شود که ترکیبی از این ویژگی‌های نرمال شده در بازه [0, 1] است. کاربران می‌توانند ابعاد خاص خود را تعریف کنند اگر پیش‌فرض‌ها با مسئله خاص آن‌ها سازگار نباشد.
آرشیو CVT-MAP-Elites: این اثر انگشت در آرشیوی قرار می‌گیرد که از تسلیخ ورونوی (Voronoi tessellation) برای حفظ ساختار هندسی در فضای ترکیبی استفاده می‌کند. این تضمین می‌کند که آرشیو جست‌وجو به یک خانوادهٔ واحد از راهکارها سقوط نکند.

LEVI: نتایج بهتر ADRS با کسری از هزینه | ADRS — پژوهش مبتنی بر هوش مصنوعی برای سیستم‌ها

مقداردهی اولیه و انتخاب از آرشیو

برای جلوگیری از مشکلات مربوط به پراکندگی (Sparsity) در CVT-MAP-Elites سنتی — جایی که مقداردهی اولیه یکنواخت در ۶ تا ۱۰ بُعد منجر به بسیاری از مناطق بازدیدنشده می‌شود — LEVI یک رویکرد داده‌محور را اتخاذ می‌کند. این سیستم مجموعه‌ای از رویکردهای عمداً منحصر‌به‌فرد را از طریق تولید متوالی، صرف‌نظر از امتیازات آن‌ها، ایجاد می‌کند و از این‌ها برای ساخت مراکز (Centroids) اولیه استفاده می‌کند. این اطمینان می‌دهد که آرشیو بر اساس راهکارهایی بنا شده که شناخته شده است متفاوت هستند.

این آرشیو دو هدف دارد. اول، با تضمین حفظ مجموعه‌ای متنوع از راهکارها، از همگرایی زودهنگام جلوگیری می‌کند. دوم، مناطق ورونوی به‌طور طبیعی راهکارها را در خانواده‌های الگوریتمی خوشه‌بندی می‌کنند. این به LEVI اجازه می‌دهد تا راهکارهای واقعاً نماینده از هر خانواده را انتخاب کرده و به مدل‌های بزرگ‌تر بدهد تا زمینه (Context) لازم برای آن چرخش‌های پارادایمیِ کم‌تکرار فراهم شود.

مثال از API پایتون

LEVI پیچیدگی‌های چارچوب را انتزاع می‌کند تا کاربران بتوانند بر روی مسئله تمرکز کنند. در ادامه مثالی برای بهینه‌سازی مسئلهٔ بسته‌بندی (Bin Packing) آمده است:

import levi

def score_fn(pack):
    bins = pack([4, 8, 1, 4, 2, 1], 10)
    wasted = sum(10 - sum(b) for b in bins)
    return {"score": max(0.0, 100.0 - wasted)}

result = levi.evolve_code(
    "Optimize bin packing to minimize wasted space",
    function_signature="def pack(items, bin_capacity):",
    score_fn=score_fn,
    model="openai/gpt-4o-mini",
    budget_dollars=2.0,
)

تحلیل عملکرد در بنچمارک‌ها

در تست‌های رودررو، LEVI در هر مسئله‌ای که امکان بهبود وجود داشت، بالاترین امتیاز را کسب کرد. این سیستم به میانگین امتیاز ۷۶.۵٪ رسید و از GEPA (۷۱.۹٪) و OpenEvolve (۷۰.۶٪) پیشی گرفت که نشان‌دهنده بهبود ۴.۶ امتیازی نسبت به SOTA قبلی است.

تفکیک دقیق عملکرد:

Cloudcast: رسید به امتیاز کامل ۱۰۰.۰، که نشان می‌دهد مسئله تحت تابع امتیازدهی کاملاً حل شده است.
LLM-SQL: افزایش ۵.۸ امتیازی نسبت به SOTA قبلاً.
Spot Multi-Reg: افزایش ۵.۷ امتیازی.
Transaction Scheduling: بهبود اندک ۱.۱ امتیازی، که بازتاب‌دهنده فضای بهینه‌سازی سخت‌تر است.
Spot Single-Reg: بهبود اندک ۰.۳ امتیازی.
Prism: در امتیاز ۸۷.۴ با تمام چارچوب‌ها برابر ماند، که تأیید می‌کند فرمول‌بندی مسئله تنها یک راهکار غالب می‌پذیرد.

LEVI: نتایج بهتر ADRS با کسری از هزینه | ADRS — پژوهش مبتنی بر هوش مصنوعی برای سیستم‌ها

تحلیل هزینه و بهره‌وری

تأثیر مالی رویکرد «ابتدا هارنس» بسیار چشمگیر است. در حالی که مدل‌های پایه اغلب ۱۵ تا ۳۰ دلار برای هر مسئله هزینه می‌کنند، LEVI به‌طور معمول حدود ۴.۵۰ دلار هزینه دارد (هرچند Transaction Scheduling ۱۳ دلار هزینه داشت). صرفه‌جویی‌ها بین ۱.۵ تا ۶.۷ برابر است و در مجموع بیش از ۱۰۰ دلار ذخیره شده است. با مسیریابی اکثر جهش‌ها از طریق مدل‌های سبک، هزینه هر نسل در مقایسه با مدل‌هایی که برای هر فراخوانی از GPT-5 یا Gemini-3.0-Pro استفاده می‌کنند، تقریباً یک مرتبه بزرگی (Order of Magnitude) کاهش می‌یابد.

در تست‌های کنترل‌شده برای جداسازی معماری (با استفاده از یک مدل محلی Qwen3-30B-A3B، ۷۵۰ ارزیابی موفق و سه Seed تصادفی)، LEVI بهره‌وری نمونه‌برداری برتری را نشان داد:

Transaction Scheduling: این یک گونه از مسئله ترتیب‌بندی NP-hard است که چندین خانواده الگوریتمی (Greedy, Simulated Annealing, Genetic) در آن viable هستند، اما عملکرد روی یک نمونه واحد سنجیده می‌شود. LEVI در ۱۰۰ ارزیابی اول به امتیاز ۶۲ رسید. مدل‌های پایه هرگز به این سطح نرسیدند. امتیازات نهایی: LEVI 64.9، OpenEvolve 59.9، GEPA 54.4. هر دو مدل پایه به دلیل همگرایی زودهنگام به‌شدت دچار پلاتو شدند.
Can't Be Late: این مسئله در ۱۰۸۰ شبیه‌سازی امتیاز می‌گیرد و سیگنال غنی‌تری برای رویکردهای مبتنی بر Pareto فراهم می‌کند. LEVI در ارزیابی ۵۰ام به نزدیکی اوج عملکرد رسید، در حالی که OpenEvolve به بیش از ۶۰۰ ارزیابی نیاز داشت؛ یعنی یک مزیت ۱۲ برابری در بهره‌وری نمونه‌برداری.

LEVI: نتایج بهتر ADRS با کسری از هزینه | ADRS — پژوهش مبتنی بر هوش مصنوعی برای سیستم‌ها

درس‌هایی برای چارچوب‌های آیندهٔ ADRS

ساخت سیستم حول مدل‌های کوچک، توازن‌های (Trade-offs) بحرانی را آشکار می‌کند که چارچوب‌های مبتنی بر مدل‌های مرزی هرگز با آن‌ها مواجه نمی‌شوند:

نرخ خطا در مقابل هزینه: مدل‌های کوچک‌تر чаще کدهای خراب تولید می‌کنند. اما چون فراخوانی‌ها بسیار ارزان هستند، سیستم می‌تواند دفعات بسیار بیشتری تلاش کند (Retry) و همچنان مقرون‌به‌صرفه‌تر از یک فراخوانی واحد و گران باشد.
سوءاستفاده از پاداش (Reward Hacking): مدل‌های کوچک بیشتر مستعد بهره‌برداری از نقاط ضعف ارزیاب‌ها هستند. این نشان می‌دهد که بهبود ارزیاب‌ها یک ضرورت جهانی برای تمام چارچوب‌های ADRS است.
کد به‌جای زبان طبیعی: هنگام هدایت مدل‌های کوچک، یک اسکلت کد (Code Skeleton) بسیار مؤثرتر از متن است. پرامپتی مثل «تبرید شبیه‌سازی شده را امتحان کن» فضای زیادی برای تفسیر نادرست باقی می‌گذارد. مرحلهٔ چرخش پارادایم در LEVI، اسکلت‌های کدی را تولید می‌کند که برنامهٔ سرد کردن (Cooling schedule) و معیار پذیرش را پیاده می‌کنند تا مدل چیز concrete برای کار داشته باشد.
زمان ارزیابی: مزیت حجمی مدل‌های کوچک به ارزیابی‌های سریع وابسته است. برای مسائلی که یک ارزیابی یک ساعت زمان می‌برد، هر فراخوانی ارزشمند است و مدل‌های بزرگ‌تر منطقی‌تر می‌شوند. LEVI این مشکل را برای اکثر مسائل با استفاده از یک مدل توزیع‌شده Producer-Consumer به‌صورت async کاهش می‌دهد.

این تغییر نشان می‌دهد که خودِ مدل در حال تبدیل شدن به یک کالا (Commodity) است. برتری رقابتی واقعی اکنون در معماری جست‌وجو و توانایی حفظ تنوع بدون تکیه به هوش خام یک مدل تریلیون-پارامتری نهفته است.

اگر با ADRS به عنوان یک فرم پیشرفته از CI/CD برخورد شود، شرکت‌ها می‌توانند الگوریتم‌های خود را هر شب با تغییر الگوهای ترافیکی و ترکیب سخت‌افزاری به‌طور خودکار بهینه کنند. این امر، انتخاب الگوریتم را از یک تصمیم ایستا به یک فرآیند پویا و تطبیقی تبدیل می‌کند.

توسعه‌دهندگان علاقه‌مند می‌توانند پیاده‌سازی این پروژه را در گیت‌هاب به نشانی github.com/ttanv/levi بررسی کنند. ابتکار AI-Driven Research Systems (ADRS) یک تلاش باز است؛ همکاران می‌توانند از طریق [email protected] یا در Slack و Discord با جامعهٔ آن ارتباط بگیرند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

import levi def score_fn(pack): bins = pack([4, 8, 1, 4, 2, 1], 10) wasted = sum(10 - sum(b) for b in bins) return {"score": max(0.0, 100.0 - wasted)} result = levi.evolve_code( "Optimize bin packing to minimize wasted space", function_signature="def pack(items, bin_capacity):", score_fn=score_fn, model="openai/gpt-4o-mini", budget_dollars=2.0, )

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سامانه LEVI: کاهش ۶.۷ برابری هزینه‌ها با اتوماسیون کشف الگوریتم

چشم‌انداز: ADRS به عنوان CI/CD

فلسفهٔ «ابتدا هارنس» (Harness-First)

حل مشکل فروپاشی تنوع (Diversity Collapse)

جزئیات مکانیسم تنوع

مقداردهی اولیه و انتخاب از آرشیو

مثال از API پایتون

تحلیل عملکرد در بنچمارک‌ها

تحلیل هزینه و بهره‌وری

درس‌هایی برای چارچوب‌های آیندهٔ ADRS

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سامانه LEVI: کاهش ۶.۷ برابری هزینه‌ها با اتوماسیون کشف الگوریتم

چشم‌انداز: ADRS به عنوان CI/CD

فلسفهٔ «ابتدا هارنس» (Harness-First)

حل مشکل فروپاشی تنوع (Diversity Collapse)

جزئیات مکانیسم تنوع

مقداردهی اولیه و انتخاب از آرشیو

مثال از API پایتون

تحلیل عملکرد در بنچمارک‌ها

تحلیل هزینه و بهره‌وری

درس‌هایی برای چارچوب‌های آیندهٔ ADRS

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سامانه LEVI: کاهش ۶.۷ برابری هزینه‌ها با اتوماسیون کشف الگوریتم

چشم‌انداز: ADRS به عنوان CI/CD

فلسفهٔ «ابتدا هارنس» (Harness-First)

حل مشکل فروپاشی تنوع (Diversity Collapse)

جزئیات مکانیسم تنوع

مقداردهی اولیه و انتخاب از آرشیو

مثال از API پایتون

تحلیل عملکرد در بنچمارک‌ها

تحلیل هزینه و بهره‌وری

درس‌هایی برای چارچوب‌های آیندهٔ ADRS

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سامانه LEVI: کاهش ۶.۷ برابری هزینه‌ها با اتوماسیون کشف الگوریتم

چشم‌انداز: ADRS به عنوان CI/CD

فلسفهٔ «ابتدا هارنس» (Harness-First)

حل مشکل فروپاشی تنوع (Diversity Collapse)

جزئیات مکانیسم تنوع

مقداردهی اولیه و انتخاب از آرشیو

مثال از API پایتون

تحلیل عملکرد در بنچمارک‌ها

تحلیل هزینه و بهره‌وری

درس‌هایی برای چارچوب‌های آیندهٔ ADRS

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران