RTL-BenchLS: نرخ موفقیت مدل‌های زبانی در رفع خطاهای سخت‌افزاری تنها ۱۲٪ است

اگر تصور می‌کنید مدل‌های زبانی بزرگ (LLM) می‌توانند جایگزین مهندسان سخت‌افزار شوند، داده‌های جدید این باور را به‌شدت به چالش می‌کشد. عبور از مرحله «کدنویسی ساده» به «طراحی صنعتی»، سدی است که حتی مدل‌های پیشرو نیز از آن عبور نکرده‌اند.

طبق اعلام پژوهشگران در ۹ ژوئن ۲۰۲۶، انتشار بنچمارک RTL-BenchLS فاش کرد که مدل‌های برتر در مواجهه با منطق‌های پیچیده سخت‌افزاری، در برخی وظایف تنها ۱۲٪ موفقیت داشته‌اند. این نتایج نشان می‌دهد که هوش مصنوعی زاینده در تبدیل شدن از یک ابزار کمکی به یک طراح سخت‌افزار مستقل، با یک بن‌بست استدلالی روبروست.

طراحی سخت‌افزار برخلاف کدنویسی نرم‌افزاری، با منطقی سیستماتیک و سخت‌گیرانه پیش می‌رود. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی محدودیت‌های استدلال در مدل‌های زبانی اشاره کردیم، عبور از الگوهای تکراری به سمت حل مسائل پیچیده، نقطه شکست مدل‌هاست. مشکل اصلی این بود که بنچمارک‌های قبلی کوچک بودند و تنها روی تبدیل «مشخصات به کد» متمرکز بودند؛ گویی مدل‌ها فقط یاد گرفته بودند جملات را ترجمه کنند، نه اینکه ماشین را مهندسی کنند.

بر اساس مستندات منتشرشده در arXiv، بنچمارک RTL-BenchLS بیش از ۱۰,۰۰۰ طراحی Verilog را ارائه می‌دهد که همگی به‌صورت صوری تایید شده‌اند. نوآوری اصلی این مجموعه، استفاده از «بررسی معادلیت صوری» (Formal Equivalence Checking) است تا نیاز به تست‌بنچ‌های دستی و زمان‌بر حذف شود. این بنچمارک سه سطح استدلال را می‌سنجد:

استدلال رفت‌وبرگشت (Round-trip reasoning): حداکثر موفقیت ۲۳٪
استدلال محتوای ماسک‌شده (Masked-content reasoning): حداکثر موفقیت ۲۸٪
استدلال رفع خطاهای مخزن (Repository-issue reasoning): حداکثر موفقیت ۱۲٪

این شکاف عمیق، به‌ویژه در بخش رفع خطای مخازن کد، ثابت می‌کند که مدل‌ها فاقد استدلال سیستماتیک لازم برای دیباگ سخت‌افزاری هستند. در واقع، «کد زدن» یک تراشه، بنیادی‌ترین تفاوت را با نوشتن نرم‌افزار دارد؛ جایی که یک اشتباه کوچک در منطق، کل سخت‌افزار را بی‌کارکرد می‌کند.

گام بعدی شما

اگر در حوزه طراحی ASIC یا FPGA فعالیت می‌کنید، به جای تکیه بر مدل‌های عمومی، ابزارهای تایید صوری را در جریان کاری خود ادغام کنید.
دنبال کنید که آیا مدل‌های تخصصی سخت‌افزار می‌توانند ابزارهای verification را به‌طور مستقیم در حلقه استنتاج (Inference) خود به کار بگیرند یا خیر.
برای کاهش خطا، از متدولوژی‌های ترکیبی (Hybrid) استفاده کنید که در آن AI کد اولیه را می‌زند و ابزارهای صوری آن را صحه‌گذاری می‌کنند.

اما این شکست مدل‌ها در استدلال سخت‌افزاری، تنها بخشی از یک معمای بزرگتر است؛ بررسی کنید که چگونه مدل‌های استدلالی جدید قصد دارند این شکاف را با زنجیره‌های تفکر پیشرفته‌تر پر کنند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

استدلال رفت‌وبرگشت (Round-trip reasoning): حداکثر موفقیت ۲۳٪
استدلال محتوای ماسک‌شده (Masked-content reasoning): حداکثر موفقیت ۲۸٪
استدلال رفع خطاهای مخزن (Repository-issue reasoning): حداکثر موفقیت ۱۲٪

گام بعدی شما

اگر در حوزه طراحی ASIC یا FPGA فعالیت می‌کنید، به جای تکیه بر مدل‌های عمومی، ابزارهای تایید صوری را در جریان کاری خود ادغام کنید.
دنبال کنید که آیا مدل‌های تخصصی سخت‌افزار می‌توانند ابزارهای verification را به‌طور مستقیم در حلقه استنتاج (Inference) خود به کار بگیرند یا خیر.
برای کاهش خطا، از متدولوژی‌های ترکیبی (Hybrid) استفاده کنید که در آن AI کد اولیه را می‌زند و ابزارهای صوری آن را صحه‌گذاری می‌کنند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

RTL-BenchLS: نرخ موفقیت مدل‌های زبانی در رفع خطاهای سخت‌افزاری تنها ۱۲٪ است

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

RTL-BenchLS: نرخ موفقیت مدل‌های زبانی در رفع خطاهای سخت‌افزاری تنها ۱۲٪ است

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

RTL-BenchLS: نرخ موفقیت مدل‌های زبانی در رفع خطاهای سخت‌افزاری تنها ۱۲٪ است

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

RTL-BenchLS: نرخ موفقیت مدل‌های زبانی در رفع خطاهای سخت‌افزاری تنها ۱۲٪ است

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران