تصور کنید یک مدل زبانی بتواند با حافظهای بسیار کوچک، کارهایی را انجام دهد که پیش از این تنها از مدلهای چهار برابر بزرگتر انتظار میرفت. این یعنی پایان دوران وابستگی مطلق به ابررایانهها برای کارهای سادهای مثل تبدیل متن به جدول. در حالی که اکثر مدلهای زبانی برای دستیابی به عملکرد عالی به میلیاردها پارامتر نیاز دارند، اکنون یک مدل ۲۳۰ میلیون پارامتری میتواند رقبای ۱ میلیارد پارامتری خود را در استخراج دادههای ساختاریافته و فراخوانی ابزارها شکست دهد. شرکت Liquid AI در اواسط سال ۲۰۲۴ مدل LFM2.5-230M را عرضه کرد؛ مدلی که بهطور خاص برای اجرای وظایف عاملمحور (Agentic) روی سختافزارهای لبه (Edge) مانند گوشیهای هوشمند و سیستمهای رباتیک، بدون اتکا به APIهای ابری، طراحی شده است.
دنیای اتوماسیون اکنون با چالشی جدی روبروست: تأخیر (Latency) در فراخوانی APIهای ابری و نیاز مبرم به استنتاج محلی با سرعت بالا. این رویکرد با تحولی همسو است که در آن اجرای عاملهای هوش مصنوعی محلی دیگر به سختافزارهای صنعتی نیاز ندارد و امکان استقرار خصوصی مدلها فراهم شده است. در حالی که در پوشش پیشین ما از Wayfinder-Router دیدیم که چگونه میتوان مسیرهای استنتاج را بهینه کرد، مدل LFM2.5-230M مستقیماً روی انتهای خط لوله اجرا تمرکز دارد تا تبدیل زبان طبیعی به فراخوانی دقیق ابزارها را بهطور محلی انجام دهد. این مدل با اشغال تنها ۲۹۳ تا ۳۷۵ مگابایت حافظه، برای اجرا روی پردازندههای معمولی (Commodity CPUs) کاملاً کاربردی و بهینه شده است.
معماری و طراحی مدل
طبق مستندات منتشرشده، این مدل بر پایه معماری LFM2 ساخته شده و از یک ساختار ترکیبی شامل ۱۴ لایه تشکیل شده است: هشت بلوک کانولوشن double-gated LIV و شش بلوک توجه پرسوجوی گروهبندیشده (Grouped-Query Attention یا GQA). این طراحی ترکیبی خاص، هدف آن دستیابی به سرعت استنتاج بالا روی CPU است. به نقل از گزارش MarkTechPost، این مدل روی ۱۹ تریلیون توکن پیشآموزش دیده است که شامل یک مرحله اختصاصی برای گسترش پنجره زمینه به ۳۲ هزار توکن (32K context extension phase) بوده است. در حالی که این حجم از پنجره زمینه برای کاربردهای لبه بهینه است، برخی مدلهای تخصصیتر مانند مدل M3 از MiniMax با پنجره متنی یک میلیون توکنی عرضه شدند تا حجم عظیمتری از دادهها را پردازش کنند.
سازوکار پسآموزش (Post-Training)
به گزارش منابع فنی، فرآیند پالایش و ارتقای مدل در یک فرآیند سه مرحلهای صورت گرفته است: اول، تنظیم نظارتشده (SFT) که از طریق روش تقطیر (Distillation) از مدل بزرگتر LFM2.5-350M بهره برد. دوم، تیم توسعهدهنده روش بهینهسازی مستقیم ترجیح (DPO) را اعمال کرد. سوم، یادگیری تقویتی چنددامنه (Multi-domain RL) برای حفظ انعطافپذیری مدل جهت تخصصهای پاییندستی مورد استفاده قرار گرفت. مرحله تقطیر در اینجا حیاتی است، زیرا به مدل ۲۳۰ میلیون پارامتری اجازه میدهد تا رفتارهای مدل ۳۵۰ میلیون پارامتری را در وظایف هدفمند به ارث ببرد.
مشخصات فنی کلیدی این مدل عبارتاند از:
- پنجرهٔ زمینه: ۳۲,۷۶۸ توکن
- اندازه واژگان: ۶۵,۵۳۶
- زبانهای پشتیبانیشده: ۱۰ زبان (از جمله انگلیسی، چینی، عربی و ژاپنی)
- سرعت استنتاج: ۲۱۳ توکن در ثانیه روی Galaxy S25 Ultra و ۴۲ توکن در ثانیه روی Raspberry Pi 5
- پشتیبانی نرمافزاری: سازگاری کامل از روز اول با llama.cpp، MLX، vLLM، SGLang و ONNX
بنچمارکهای عملکرد
در بررسی عملکرد، LFM2.5-230M در بنچمارک IFEval امتیاز ۷۱.۷۱ را کسب کرد که به مراتب بیشتر از Qwen3.5-0.8B (۵۹.۹۴) و Gemma 3 1B IT (۶۳.۴۹) است. همچنین در بنچمارک IFBench با امتیاز ۳۸.۴۰ از هر دو رقیب پیشی گرفت. در زمینه استخراج دادههای کلینیکی (CaseReportBench)، این مدل امتیاز ۲۲.۵۱ را به دست آورد که بسیار بالاتر از Granite 4.0-H-350M (با امتیاز ۱۲.۴۴) و Gemma 3 1B IT (با امتیاز ۲.۲۸) است.
با این حال، این مدل در دانش عمومی گسترده عقب میماند؛ امتیاز ۲۰.۲۵ در MMLU-Pro در برابر ۳۷.۴۲ امتیاز Qwen3.5-0.8B نشان میدهد که این مدل برای پاسخ به سؤالات general-purpose طراحی نشده است. همچنین ضعفهایی در استفاده از ابزارهای عاملمحور خاص دیده میشود، جایی که در بنچمارک τ²-Bench Telecom تنها امتیاز ۵.۲۶ را کسب کرده است.
موارد استفاده هدفمند
شرکت Liquid AI صراحتاً هشدار داده که این مدل برای وظایف سنگین استدلالی، مانند ریاضیات پیشرفته، تولید کد یا نویسندگی خلاق مناسب نیست. بهجای آن، این مدل یک ابزار تخصصی برای موارد زیر است:
- استخراج داده در مقیاس بزرگ: مثلاً تجزیه ۱۰۰ هزار گزارش کلینیکی به فیلدهای ساختاریافته روی CPUهای معمولی با استفاده از نسخه ۴-بیت برای اجتناب از پرداخت هزینههای API به ازای هر توکن. این رویکرد اقتصادی در مدیریت هزینهها مشابه تحلیلهایی است که در مقایسه DeepInfra در برابر OpenAI برای یافتن موازنه میان قیمت ارزان و محدودیتهای فنی بررسی کردیم.
- بارهای کاری عاملمحور محلی: مدیریت هابهای اتوماسیون خانگی که گفتار را به فراخوانی ابزار تبدیل میکنند یا دستیارهای تلفنی که درخواستها را به توابع مربوطه هدایت میکنند.
- انتخاب مهارت در رباتیک: این مدل روی ربات انساننمای Unitree G1 با استفاده از یک NVIDIA Jetson Orin مستقر شده تا دستورات زبان طبیعی را از طریق چارچوب SONIC انویدیا به فراخوانیهای ابزار تبدیل کند.
سازوکار استفاده از ابزار (Tool Use)
فرایند فراخوانی توابع در LFM2.5 در چهار مرحله انجام میشود. ابتدا ابزارها بهصورت JSON در پرامپت سیستمی تعریف میشوند. سپس مدل یک فراخوانی تابع پایتونی (معمولاً یک لیست پایتونی) را مینویسد که بین توکنهای <|tool_call_start|> و <|tool_call_end|> محصور شده است. پس از اجرای فراخوانی و بازگشت نتیجه، مدل یک پاسخ متنی ساده ارائه میدهد. توسعهدهندگان همچنین میتوانند از طریق پرامپت سیستمی، مدل را مجبور به تولید فراخوانیهای با فرمت JSON کنند.
این رویکرد نشاندهنده چرخش به سمت مدلهای زبانی کوچک (SLM) «تخصصی» یا Narrow است که کاربرد خاص را بر هوش عمومی ترجیح میدهند. با تقطیر رفتار از مدلهای بزرگتر، ثابت شد که یک مدل ۲۳۰ میلیون پارامتری میتواند دستورات پیچیده را اجرا کند، به شرطی که نیاز نباشد «همه چیز» را درباره جهان بداند.
توسعهدهندگان میتوانند چکپوینتهای پایه و تنظیمشده (Instruction-tuned) را در Hugging Face تحت لایسنس lfm1.0 بیابند. همچنین Liquid AI دستورالعملهای تنظیم دقیق (Fine-tuning recipes) را برای SFT، DPO و GRPO با استفاده از LoRA از طریق Unsloth و TRL در قالب نوتبوکهای Colab ارائه کرده است.
گام بعدی شما
- اگر روی سختافزارهای Edge یا Raspberry Pi پروژه دارید، مدل LFM2.5-230M را از Hugging Face دریافت کنید.
- برای تبدیل دادههای متنی حجیم به JSON بدون پرداخت هزینه API، نسخهی ۴-بیت این مدل را امتحان کنید.
- دستورالعملهای تنظیم دقیق این مدل را در قالب نوتبوکهای Colab بررسی کنید.
اما بهینهسازیهای سختافزاری برای استنتاج محلی تازه در حال تکامل است؛ برای درک نقش NPUها در این زنجیره، تحلیل ما درباره تراشههای نسل جدید را بخوانید.




گفتگو