مدل ۲۳۰ میلیون پارامتری Liquid AI در استخراج داده از رقبای ۱ میلیارد پارامتری

تصور کنید یک مدل زبانی بتواند با حافظه‌ای بسیار کوچک، کارهایی را انجام دهد که پیش از این تنها از مدل‌های چهار برابر بزرگ‌تر انتظار می‌رفت. این یعنی پایان دوران وابستگی مطلق به ابررایانه‌ها برای کارهای ساده‌ای مثل تبدیل متن به جدول. در حالی که اکثر مدل‌های زبانی برای دستیابی به عملکرد عالی به میلیاردها پارامتر نیاز دارند، اکنون یک مدل ۲۳۰ میلیون پارامتری می‌تواند رقبای ۱ میلیارد پارامتری خود را در استخراج داده‌های ساختاریافته و فراخوانی ابزارها شکست دهد. شرکت Liquid AI در اواسط سال ۲۰۲۴ مدل LFM2.5-230M را عرضه کرد؛ مدلی که به‌طور خاص برای اجرای وظایف عامل‌محور (Agentic) روی سخت‌افزارهای لبه (Edge) مانند گوشی‌های هوشمند و سیستم‌های رباتیک، بدون اتکا به APIهای ابری، طراحی شده است.

دنیای اتوماسیون اکنون با چالشی جدی روبروست: تأخیر (Latency) در فراخوانی APIهای ابری و نیاز مبرم به استنتاج محلی با سرعت بالا. این رویکرد با تحولی همسو است که در آن اجرای عامل‌های هوش مصنوعی محلی دیگر به سخت‌افزارهای صنعتی نیاز ندارد و امکان استقرار خصوصی مدل‌ها فراهم شده است. در حالی که در پوشش پیشین ما از Wayfinder-Router دیدیم که چگونه می‌توان مسیرهای استنتاج را بهینه کرد، مدل LFM2.5-230M مستقیماً روی انتهای خط لوله اجرا تمرکز دارد تا تبدیل زبان طبیعی به فراخوانی دقیق ابزارها را به‌طور محلی انجام دهد. این مدل با اشغال تنها ۲۹۳ تا ۳۷۵ مگابایت حافظه، برای اجرا روی پردازنده‌های معمولی (Commodity CPUs) کاملاً کاربردی و بهینه شده است.

معماری و طراحی مدل

طبق مستندات منتشرشده، این مدل بر پایه معماری LFM2 ساخته شده و از یک ساختار ترکیبی شامل ۱۴ لایه تشکیل شده است: هشت بلوک کانولوشن double-gated LIV و شش بلوک توجه پرس‌وجوی گروه‌بندی‌شده (Grouped-Query Attention یا GQA). این طراحی ترکیبی خاص، هدف آن دستیابی به سرعت استنتاج بالا روی CPU است. به نقل از گزارش MarkTechPost، این مدل روی ۱۹ تریلیون توکن پیش‌آموزش دیده است که شامل یک مرحله اختصاصی برای گسترش پنجره زمینه به ۳۲ هزار توکن (32K context extension phase) بوده است. در حالی که این حجم از پنجره زمینه برای کاربردهای لبه بهینه است، برخی مدل‌های تخصصی‌تر مانند مدل M3 از MiniMax با پنجره متنی یک میلیون توکنی عرضه شدند تا حجم عظیم‌تری از داده‌ها را پردازش کنند.

سازوکار پس‌آموزش (Post-Training)

به گزارش منابع فنی، فرآیند پالایش و ارتقای مدل در یک فرآیند سه مرحله‌ای صورت گرفته است: اول، تنظیم نظارت‌شده (SFT) که از طریق روش تقطیر (Distillation) از مدل بزرگ‌تر LFM2.5-350M بهره برد. دوم، تیم توسعه‌دهنده روش بهینه‌سازی مستقیم ترجیح (DPO) را اعمال کرد. سوم، یادگیری تقویتی چنددامنه (Multi-domain RL) برای حفظ انعطاف‌پذیری مدل جهت تخصص‌های پایین‌دستی مورد استفاده قرار گرفت. مرحله تقطیر در اینجا حیاتی است، زیرا به مدل ۲۳۰ میلیون پارامتری اجازه می‌دهد تا رفتارهای مدل ۳۵۰ میلیون پارامتری را در وظایف هدفمند به ارث ببرد.

مشخصات فنی کلیدی این مدل عبارت‌اند از:

پنجرهٔ زمینه: ۳۲,۷۶۸ توکن
اندازه واژگان: ۶۵,۵۳۶
زبان‌های پشتیبانی‌شده: ۱۰ زبان (از جمله انگلیسی، چینی، عربی و ژاپنی)
سرعت استنتاج: ۲۱۳ توکن در ثانیه روی Galaxy S25 Ultra و ۴۲ توکن در ثانیه روی Raspberry Pi 5
پشتیبانی نرم‌افزاری: سازگاری کامل از روز اول با llama.cpp، MLX، vLLM، SGLang و ONNX

بنچمارک‌های عملکرد

در بررسی عملکرد، LFM2.5-230M در بنچمارک IFEval امتیاز ۷۱.۷۱ را کسب کرد که به مراتب بیشتر از Qwen3.5-0.8B (۵۹.۹۴) و Gemma 3 1B IT (۶۳.۴۹) است. همچنین در بنچمارک IFBench با امتیاز ۳۸.۴۰ از هر دو رقیب پیشی گرفت. در زمینه استخراج داده‌های کلینیکی (CaseReportBench)، این مدل امتیاز ۲۲.۵۱ را به دست آورد که بسیار بالاتر از Granite 4.0-H-350M (با امتیاز ۱۲.۴۴) و Gemma 3 1B IT (با امتیاز ۲.۲۸) است.

با این حال، این مدل در دانش عمومی گسترده عقب می‌ماند؛ امتیاز ۲۰.۲۵ در MMLU-Pro در برابر ۳۷.۴۲ امتیاز Qwen3.5-0.8B نشان می‌دهد که این مدل برای پاسخ به سؤالات general-purpose طراحی نشده است. همچنین ضعف‌هایی در استفاده از ابزارهای عامل‌محور خاص دیده می‌شود، جایی که در بنچمارک τ²-Bench Telecom تنها امتیاز ۵.۲۶ را کسب کرده است.

موارد استفاده هدفمند

شرکت Liquid AI صراحتاً هشدار داده که این مدل برای وظایف سنگین استدلالی، مانند ریاضیات پیشرفته، تولید کد یا نویسندگی خلاق مناسب نیست. به‌جای آن، این مدل یک ابزار تخصصی برای موارد زیر است:

استخراج داده در مقیاس بزرگ: مثلاً تجزیه ۱۰۰ هزار گزارش کلینیکی به فیلدهای ساختاریافته روی CPUهای معمولی با استفاده از نسخه ۴-بیت برای اجتناب از پرداخت هزینه‌های API به ازای هر توکن. این رویکرد اقتصادی در مدیریت هزینه‌ها مشابه تحلیل‌هایی است که در مقایسه DeepInfra در برابر OpenAI برای یافتن موازنه میان قیمت ارزان و محدودیت‌های فنی بررسی کردیم.
بارهای کاری عامل‌محور محلی: مدیریت هاب‌های اتوماسیون خانگی که گفتار را به فراخوانی ابزار تبدیل می‌کنند یا دستیارهای تلفنی که درخواست‌ها را به توابع مربوطه هدایت می‌کنند.
انتخاب مهارت در رباتیک: این مدل روی ربات انسان‌نمای Unitree G1 با استفاده از یک NVIDIA Jetson Orin مستقر شده تا دستورات زبان طبیعی را از طریق چارچوب SONIC انویدیا به فراخوانی‌های ابزار تبدیل کند.

سازوکار استفاده از ابزار (Tool Use)

فرایند فراخوانی توابع در LFM2.5 در چهار مرحله انجام می‌شود. ابتدا ابزارها به‌صورت JSON در پرامپت سیستمی تعریف می‌شوند. سپس مدل یک فراخوانی تابع پایتونی (معمولاً یک لیست پایتونی) را می‌نویسد که بین توکن‌های <|tool_call_start|> و <|tool_call_end|> محصور شده است. پس از اجرای فراخوانی و بازگشت نتیجه، مدل یک پاسخ متنی ساده ارائه می‌دهد. توسعه‌دهندگان همچنین می‌توانند از طریق پرامپت سیستمی، مدل را مجبور به تولید فراخوانی‌های با فرمت JSON کنند.

این رویکرد نشان‌دهنده چرخش به سمت مدل‌های زبانی کوچک (SLM) «تخصصی» یا Narrow است که کاربرد خاص را بر هوش عمومی ترجیح می‌دهند. با تقطیر رفتار از مدل‌های بزرگ‌تر، ثابت شد که یک مدل ۲۳۰ میلیون پارامتری می‌تواند دستورات پیچیده را اجرا کند، به شرطی که نیاز نباشد «همه چیز» را درباره جهان بداند.

توسعه‌دهندگان می‌توانند چک‌پوینت‌های پایه و تنظیم‌شده (Instruction-tuned) را در Hugging Face تحت لایسنس lfm1.0 بیابند. همچنین Liquid AI دستورالعمل‌های تنظیم دقیق (Fine-tuning recipes) را برای SFT، DPO و GRPO با استفاده از LoRA از طریق Unsloth و TRL در قالب نوت‌بوک‌های Colab ارائه کرده است.

گام بعدی شما

اگر روی سخت‌افزارهای Edge یا Raspberry Pi پروژه دارید، مدل LFM2.5-230M را از Hugging Face دریافت کنید.
برای تبدیل داده‌های متنی حجیم به JSON بدون پرداخت هزینه API، نسخه‌ی ۴-بیت این مدل را امتحان کنید.
دستورالعمل‌های تنظیم دقیق این مدل را در قالب نوت‌بوک‌های Colab بررسی کنید.

اما بهینه‌سازی‌های سخت‌افزاری برای استنتاج محلی تازه در حال تکامل است؛ برای درک نقش NPUها در این زنجیره، تحلیل ما درباره تراشه‌های نسل جدید را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

معماری و طراحی مدل

سازوکار پس‌آموزش (Post-Training)

مشخصات فنی کلیدی این مدل عبارت‌اند از:

پنجرهٔ زمینه: ۳۲,۷۶۸ توکن
اندازه واژگان: ۶۵,۵۳۶
زبان‌های پشتیبانی‌شده: ۱۰ زبان (از جمله انگلیسی، چینی، عربی و ژاپنی)
سرعت استنتاج: ۲۱۳ توکن در ثانیه روی Galaxy S25 Ultra و ۴۲ توکن در ثانیه روی Raspberry Pi 5
پشتیبانی نرم‌افزاری: سازگاری کامل از روز اول با llama.cpp، MLX، vLLM، SGLang و ONNX

بنچمارک‌های عملکرد

موارد استفاده هدفمند

استخراج داده در مقیاس بزرگ: مثلاً تجزیه ۱۰۰ هزار گزارش کلینیکی به فیلدهای ساختاریافته روی CPUهای معمولی با استفاده از نسخه ۴-بیت برای اجتناب از پرداخت هزینه‌های API به ازای هر توکن. این رویکرد اقتصادی در مدیریت هزینه‌ها مشابه تحلیل‌هایی است که در مقایسه DeepInfra در برابر OpenAI برای یافتن موازنه میان قیمت ارزان و محدودیت‌های فنی بررسی کردیم.
بارهای کاری عامل‌محور محلی: مدیریت هاب‌های اتوماسیون خانگی که گفتار را به فراخوانی ابزار تبدیل می‌کنند یا دستیارهای تلفنی که درخواست‌ها را به توابع مربوطه هدایت می‌کنند.
انتخاب مهارت در رباتیک: این مدل روی ربات انسان‌نمای Unitree G1 با استفاده از یک NVIDIA Jetson Orin مستقر شده تا دستورات زبان طبیعی را از طریق چارچوب SONIC انویدیا به فراخوانی‌های ابزار تبدیل کند.

سازوکار استفاده از ابزار (Tool Use)

گام بعدی شما

اگر روی سخت‌افزارهای Edge یا Raspberry Pi پروژه دارید، مدل LFM2.5-230M را از Hugging Face دریافت کنید.
برای تبدیل داده‌های متنی حجیم به JSON بدون پرداخت هزینه API، نسخه‌ی ۴-بیت این مدل را امتحان کنید.
دستورالعمل‌های تنظیم دقیق این مدل را در قالب نوت‌بوک‌های Colab بررسی کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل ۲۳۰ میلیون پارامتری Liquid AI در استخراج داده از رقبای ۱ میلیارد پارامتری

معماری و طراحی مدل

سازوکار پس‌آموزش (Post-Training)

بنچمارک‌های عملکرد

موارد استفاده هدفمند

سازوکار استفاده از ابزار (Tool Use)

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل ۲۳۰ میلیون پارامتری Liquid AI در استخراج داده از رقبای ۱ میلیارد پارامتری

معماری و طراحی مدل

سازوکار پس‌آموزش (Post-Training)

بنچمارک‌های عملکرد

موارد استفاده هدفمند

سازوکار استفاده از ابزار (Tool Use)

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل ۲۳۰ میلیون پارامتری Liquid AI در استخراج داده از رقبای ۱ میلیارد پارامتری

معماری و طراحی مدل

سازوکار پس‌آموزش (Post-Training)

بنچمارک‌های عملکرد

موارد استفاده هدفمند

سازوکار استفاده از ابزار (Tool Use)

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل ۲۳۰ میلیون پارامتری Liquid AI در استخراج داده از رقبای ۱ میلیارد پارامتری

معماری و طراحی مدل

سازوکار پس‌آموزش (Post-Training)

بنچمارک‌های عملکرد

موارد استفاده هدفمند

سازوکار استفاده از ابزار (Tool Use)

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران