درون LLARS: سیستمی برای تبدیل شهود متخصصان به بنچمارک‌های دقیق هوش مصنوعی

اگر تصور می‌کنید مهندسی پرامپت (Prompt Engineering) صرفاً هنر نوشتن جملات درست است، سخت در اشتباهید. در حوزه‌های حساس، تفاوت میان یک پاسخ «به ظاهر درست» و یک پاسخ «دقیقاً علمی»، در گروی دسترسی توسعه‌دهندگان به شهود متخصصانی است که سال‌ها در آن رشته تجربه دارند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی اهمیت داده‌های باکیفیت در مدل‌های تخصصی اشاره کردیم، نبودِ یک زبان مشترک میان متخصصان غیرفنی و برنامه‌نویسان، بزرگ‌ترین گلوگاه در استقرار مدل‌های زبانی بزرگ (LLM) است. سیستم LLARS (LLM Assisted Research System) برای حذف این اصطکاک طراحی شده است.

بر اساس مستندات منتشرشده در arXiv در تاریخ ۱۱ مه ۲۰۲۶، این پلتفرم از طریق سه ماژول به‌هم‌پیوسته عمل می‌کند:

مهندسی پرامپت مشارکتی: امکان نویسندگی مشترک در لحظه، همراه با کنترل نسخه‌ها و آزمایش فوری.
تولید دسته‌ای (Batch Generation): تولید خروجی‌ها در یک ماتریس قابل‌پیکربندی از پرامپت‌ها، مدل‌ها و داده‌ها با کنترل دقیق هزینه‌ها.
ارزیابی ترکیبی (Hybrid Evaluation): سیستمی که در آن ارزیابان انسانی و مدل‌های زبانی با استفاده از معیارهای توافق زنده، بهینه‌ترین ترکیب مدل و پرامپت را شناسایی می‌کنند.

به نقل از پژوهشگران این پروژه، برای اعتبارسنجی این سیستم، مصاحبه‌هایی با ۶ متخصص دامنه و ۳ توسعه‌دهنده در حوزه مشاوره‌ آنلاین انجام شد. نتایج نشان می‌دهد که این رویکرد، زمان جابه‌جایی میان ابزارهای پراکنده را به‌طور چشم‌گیری کاهش داده و فرآیند توسعه را شهودی‌تر کرده است.

این چارچوب، نقش «مهندس پرامپت» را از یک وظیفه فنی مجزا به یک فرآیند پژوهشی مشترک تغییر می‌دهد. با کمی‌سازی توافق میان انسان و ماشین در لحظه، صنعت به سمت بنچمارک‌های «متخصص-در-حلقه» (Expert-in-the-loop) حرکت می‌کند که دقت دامنه را بر عملکرد عمومی مدل ترجیح می‌دهد.

گام بعدی شما

کد بازمتن LLARS را دنبال کنید تا نحوه پیاده‌سازی این گردش‌کارها در بخش‌های تخصصی دیگر مانند پزشکی یا حقوق را بررسی کنید.
اگر در حال توسعه یک محصول AI هستید، ارزیابی‌های خود را از حالت «تک‌نفره» به حالت «ترکیبی» (انسان + مدل) تغییر دهید.
روی معیارهای توافق (Agreement Metrics) برای سنجش دقت مدل‌های خود سرمایه‌گذاری کنید.

اما چالش بعدی، مقیاس‌پذیری این ارزیابی‌ها در مدل‌های کوچک‌تر است — به بررسی ما درباره‌ی مدل‌های زبانی کوچک (SLM) مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات منتشرشده در arXiv در تاریخ ۱۱ مه ۲۰۲۶، این پلتفرم از طریق سه ماژول به‌هم‌پیوسته عمل می‌کند:

مهندسی پرامپت مشارکتی: امکان نویسندگی مشترک در لحظه، همراه با کنترل نسخه‌ها و آزمایش فوری.
تولید دسته‌ای (Batch Generation): تولید خروجی‌ها در یک ماتریس قابل‌پیکربندی از پرامپت‌ها، مدل‌ها و داده‌ها با کنترل دقیق هزینه‌ها.
ارزیابی ترکیبی (Hybrid Evaluation): سیستمی که در آن ارزیابان انسانی و مدل‌های زبانی با استفاده از معیارهای توافق زنده، بهینه‌ترین ترکیب مدل و پرامپت را شناسایی می‌کنند.

گام بعدی شما

کد بازمتن LLARS را دنبال کنید تا نحوه پیاده‌سازی این گردش‌کارها در بخش‌های تخصصی دیگر مانند پزشکی یا حقوق را بررسی کنید.
اگر در حال توسعه یک محصول AI هستید، ارزیابی‌های خود را از حالت «تک‌نفره» به حالت «ترکیبی» (انسان + مدل) تغییر دهید.
روی معیارهای توافق (Agreement Metrics) برای سنجش دقت مدل‌های خود سرمایه‌گذاری کنید.

درون LLARS: سیستمی برای تبدیل شهود متخصصان به بنچمارک‌های دقیق هوش مصنوعی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون LLARS: سیستمی برای تبدیل شهود متخصصان به بنچمارک‌های دقیق هوش مصنوعی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون LLARS: سیستمی برای تبدیل شهود متخصصان به بنچمارک‌های دقیق هوش مصنوعی

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون LLARS: سیستمی برای تبدیل شهود متخصصان به بنچمارک‌های دقیق هوش مصنوعی

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران