AntAngelMed: دستیابی به عملکرد مدل‌های ۴۰ میلیاردی با ۶.۱ میلیارد پارامتر فعال

اگر در حال استقرار مدل‌های هوش مصنوعی در محیط‌های کلینیکی هستید، توازن میان دقت و تأخیر (Latency) به‌شدت تغییر کرده است. تصور کنید مدلی با ظرفیت ۱.۳ تریلیون پارامتر، در هر لحظه تنها بخش کوچکی از مغز خود را به کار بگیرد تا پاسخی با دقت تخصص‌های پزشکی اما با سرعت خیره‌کننده ارائه دهد.

به نقل از گزارش Marktechpost، مدل AntAngelMed موفق شده است در حالی که تنها ۶.۱ میلیارد پارامتر را در هر مرحله از استنتاج (Inference) فعال می‌کند، به عملکرد یک مدل متراکم (Dense) ۴۰ میلیاردی دست یابد. این بهینه‌سازی باعث شده تا مدل روی سخت‌افزار H20 به سرعت بیش از ۲۰۰ توکن در ثانیه برسد که تقریباً ۳ برابر سریع‌تر از مدل‌های متراکم ۳۶ میلیاردی است.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی مدل‌های تخصصی اشاره کردیم، چالش اصلی صنعت، حفظ دانش عمیق در عین کاهش هزینه‌های عملیاتی است. این رویکرد بهینه‌سازی یادآور دستاوردهای اخیر در حوزه‌ی آموزش مدل‌هاست، جایی که کاهش چشمگیر قدرت محاسباتی در مدل Moonlight به نتایجی خیره‌کننده منجر شد. AntAngelMed که بر پایه مدل Ling-flash-2.0 و قوانین مقیاس‌پذیری (Scaling Laws) ساخته شده، از معماری ترکیبی خبره‌ها (Mixture-of-Experts یا MoE) استفاده می‌کند تا در هر پرس‌وجو، تنها زیرشبکه‌های «خبره» مرتبط فعال شوند.

بر اساس مستندات فنی، این مدل از چندین لایه بهینه‌سازی بهره می‌برد:

ساختار: نسبت فعال‌سازی ۱/۳۲، لایه پیش‌بینی چند-توکنی (MTP)، تکنیک QK-Norm و Partial-RoPE.
پنجره متنی: پشتیبانی از ۱۲۸ هزار توکن از طریق برون‌یابی YaRN که پردازش کامل پرونده‌های پزشکی را ممکن می‌کند.
فرآیند آموزش: یک خط لوله سه‌مرحله‌ای شامل پیش‌آموزش مستمر روی متون پزشکی، تنظیم دقیق (Fine-tuning) نظارت‌شده برای ایجاد زنجیره تفکر (Chain-of-Thought) و یادگیری تقویت‌شده با الگوریتم GRPO برای کاهش توهم (Hallucination).

در آزمون‌های معیار، AntAngelMed رتبه اول مدل‌های بازمتن را در HealthBench کسب کرده و حتی از مدل‌های تجاری در بخش‌های دشوار پیشی گرفته است. همچنین این مدل در MedAIBench و MedBench، به‌ویژه در حوزه‌های اخلاق پزشکی و ایمنی، در صدر جدول قرار دارد. اگرچه تاریخ دقیق انتشار عمومی اعلام نشده، اما نسخه کوانتیزه FP8 این مدل در ترکیب با رمزگشایی گمانه‌زن EAGLE3، توان عملیاتی را در بنچمارک Math-500 تا ۹۴٪ افزایش داده است.

برای جامعه فنی، این دستاورد ثابت می‌کند که «ناپیوستگی شدید» (Extreme Sparsity) در معماری، لزوماً به معنای افت دقت در حوزه‌های تخصصی نیست. استفاده از GRPO — که نسخه‌ای سبک‌تر از PPO است — نشان داد که می‌توان بدون نیاز به یک مدل «منتقد» (Critic) مجزا، مدل را برای همدلی و استدلال مبتنی بر شواهد بهینه کرد. این موضوع سد سخت‌افزاری برای استقرار دستیارهای پزشکی پیشرفته در محیط‌های محلی را به‌شدت پایین می‌آورد.

گام بعدی شما

بررسی وزن‌های مدل تحت لایسنس Apache 2.0 و مخزن کد در MIT برای استقرار محلی.
آزمایش نسخه FP8 در ترکیب با EAGLE3 برای دستیابی به حداکثر سرعت استنتاج.
تحلیل عملکرد این معماری در محیط‌های واقعی کلینیکی، فراتر از بنچمارک‌های شبیه‌سازی‌شده.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات فنی، این مدل از چندین لایه بهینه‌سازی بهره می‌برد:

ساختار: نسبت فعال‌سازی ۱/۳۲، لایه پیش‌بینی چند-توکنی (MTP)، تکنیک QK-Norm و Partial-RoPE.
پنجره متنی: پشتیبانی از ۱۲۸ هزار توکن از طریق برون‌یابی YaRN که پردازش کامل پرونده‌های پزشکی را ممکن می‌کند.
فرآیند آموزش: یک خط لوله سه‌مرحله‌ای شامل پیش‌آموزش مستمر روی متون پزشکی، تنظیم دقیق (Fine-tuning) نظارت‌شده برای ایجاد زنجیره تفکر (Chain-of-Thought) و یادگیری تقویت‌شده با الگوریتم GRPO برای کاهش توهم (Hallucination).

گام بعدی شما

بررسی وزن‌های مدل تحت لایسنس Apache 2.0 و مخزن کد در MIT برای استقرار محلی.
آزمایش نسخه FP8 در ترکیب با EAGLE3 برای دستیابی به حداکثر سرعت استنتاج.
تحلیل عملکرد این معماری در محیط‌های واقعی کلینیکی، فراتر از بنچمارک‌های شبیه‌سازی‌شده.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AntAngelMed: دستیابی به عملکرد مدل‌های ۴۰ میلیاردی با ۶.۱ میلیارد پارامتر فعال

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AntAngelMed: دستیابی به عملکرد مدل‌های ۴۰ میلیاردی با ۶.۱ میلیارد پارامتر فعال

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AntAngelMed: دستیابی به عملکرد مدل‌های ۴۰ میلیاردی با ۶.۱ میلیارد پارامتر فعال

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AntAngelMed: دستیابی به عملکرد مدل‌های ۴۰ میلیاردی با ۶.۱ میلیارد پارامتر فعال

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران