اگر تصور میکنید مهندسی پرامپت (Prompt Engineering) صرفاً هنر نوشتن جملات درست است، سخت در اشتباهید. در حوزههای حساس، تفاوت میان یک پاسخ «به ظاهر درست» و یک پاسخ «دقیقاً علمی»، در گروی دسترسی توسعهدهندگان به شهود متخصصانی است که سالها در آن رشته تجربه دارند.
همانطور که در تحلیلهای پیشین ما دربارهی اهمیت دادههای باکیفیت در مدلهای تخصصی اشاره کردیم، نبودِ یک زبان مشترک میان متخصصان غیرفنی و برنامهنویسان، بزرگترین گلوگاه در استقرار مدلهای زبانی بزرگ (LLM) است. سیستم LLARS (LLM Assisted Research System) برای حذف این اصطکاک طراحی شده است.
بر اساس مستندات منتشرشده در arXiv در تاریخ ۱۱ مه ۲۰۲۶، این پلتفرم از طریق سه ماژول بههمپیوسته عمل میکند:
- مهندسی پرامپت مشارکتی: امکان نویسندگی مشترک در لحظه، همراه با کنترل نسخهها و آزمایش فوری.
- تولید دستهای (Batch Generation): تولید خروجیها در یک ماتریس قابلپیکربندی از پرامپتها، مدلها و دادهها با کنترل دقیق هزینهها.
- ارزیابی ترکیبی (Hybrid Evaluation): سیستمی که در آن ارزیابان انسانی و مدلهای زبانی با استفاده از معیارهای توافق زنده، بهینهترین ترکیب مدل و پرامپت را شناسایی میکنند.
به نقل از پژوهشگران این پروژه، برای اعتبارسنجی این سیستم، مصاحبههایی با ۶ متخصص دامنه و ۳ توسعهدهنده در حوزه مشاوره آنلاین انجام شد. نتایج نشان میدهد که این رویکرد، زمان جابهجایی میان ابزارهای پراکنده را بهطور چشمگیری کاهش داده و فرآیند توسعه را شهودیتر کرده است.
این چارچوب، نقش «مهندس پرامپت» را از یک وظیفه فنی مجزا به یک فرآیند پژوهشی مشترک تغییر میدهد. با کمیسازی توافق میان انسان و ماشین در لحظه، صنعت به سمت بنچمارکهای «متخصص-در-حلقه» (Expert-in-the-loop) حرکت میکند که دقت دامنه را بر عملکرد عمومی مدل ترجیح میدهد.
گام بعدی شما
- کد بازمتن LLARS را دنبال کنید تا نحوه پیادهسازی این گردشکارها در بخشهای تخصصی دیگر مانند پزشکی یا حقوق را بررسی کنید.
- اگر در حال توسعه یک محصول AI هستید، ارزیابیهای خود را از حالت «تکنفره» به حالت «ترکیبی» (انسان + مدل) تغییر دهید.
- روی معیارهای توافق (Agreement Metrics) برای سنجش دقت مدلهای خود سرمایهگذاری کنید.
اما چالش بعدی، مقیاسپذیری این ارزیابیها در مدلهای کوچکتر است — به بررسی ما دربارهی مدلهای زبانی کوچک (SLM) مراجعه کنید.




گفتگو