یک خطای کوچک در برنامهریزی ورزشی میتواند منجر به آسیب جسمی جدی شود، اما مدلهای زبانی بزرگ (Large Language Model) ذاتاً احتمالی هستند و هرگز نمیتوان آنها را به طور کامل به ایمنی فیزیکی کاربر اعتماد کرد.
باید بدانید که در هر برنامهریزی مربوط به فیزیولوژی بدن، مفهوم «تقریباً درست» وجود ندارد؛ هر انحرافی از قوانین ایمنی، یک شکست سیستمی است. برای حل این معضل، چارچوب SafeRun با تفکیک کامل لایهی برنامهریزی از لایهی اجرای محدودیتها، توانسته است به امتیاز ایمنی ۱۰۰ درصدی در بنچمارکهای تخصصی دست یابد.
همانطور که در تحلیل قبلی ما دربارهی NutriMLLM و تخمین ریزمغذیها اشاره کردیم، انتقال از هوش مصنوعی عمومی به کاربردهای دقیق پزشکی، نیازمند عبور از مرحلهی «تخمین» و رسیدن به «دقت مطلق» است.
به نقل از گزارشی که در ۹ ژوئن ۲۰۲۶ در arXiv.org منتشر شد، معماری SafeRun بر اساس تفکیک عمل میکند: مدل زبانی بزرگ تنها مسئول «تفسیر نرم» اهداف کاربر است، در حالی که یک حلکنندهی قطعی (Deterministic Solver) مجزا، محدودیتهای «سخت» ایمنی را اعمال میکند. برای اعتبارسنجی این ادعا، پژوهشگران بنچمارکی جامع را در HuggingFace منتشر کردند که محدودیتهای فیزیولوژیک واقعی را شبیهسازی میکند. نتایج بررسی روی ۵ مدل مختلف نشان داد:
• SafeRun: امتیاز ایمنی ۱۰۰٪
• CodeAct (میانگین): امتیاز ایمنی ۹۷.۶٪
• مهندسی پرامپت (Prompt Engineering) (میانگین): امتیاز ایمنی ۷۹.۱٪
طبق مستندات این پژوهش، این تغییر رویکرد نشاندهندهی یک چرخش راهبردی است: تلاش برای «پرامپت کردنِ» مدلها برای رسیدن به ایمنی شکست خورده است. برای جامعهی فنی، این نتیجه تایید میکند که مطمئنترین راه دستیابی به رفتار قطعی، نه از طریق مقیاسگذاری مدل یا بهبود RLHF، بلکه با تبدیل LLM به یک مترجمِ قصد (Intent Translator) و سپردن گاردریلهای نهایی به حلکنندههای کلاسیک است. این استراتژی عملاً ریسک توهم (Hallucination) در برنامهریزیهای فیزیکی را حذف میکند.
گام بعدی شما
- بررسی و اجرای بنچمارک SafeRun در HuggingFace برای ارزیابی عاملهای برنامهریز فعلی خود.
- جایگزینی لایههای نظارتی مبتنی بر LLM با حلکنندههای قطعی در پروژههای حساس به ایمنی.
- تحلیل قابلیت مقیاسپذیری این تفکیک در برنامههای چند-ورزشی پیچیدهتر.
اما داستان سختافزاری این تحول و نیاز به محاسبات در لبه حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گفتگو