تبدیل صفحات وب به مارک‌داون، هزینه توکن‌های LLM را ۷۰٪ کاهش داد

اگر هر روز ساعت‌ها وقت خود را صرف پاک‌سازی دستی متون وب برای چسباندن در ChatGPT می‌کنید، یک ابزار جدید می‌تواند هزینه‌های استنتاج شما را به شدت پایین بیاورد. طبق گزارش‌های منتشر شده، جایگزینی محتوای خام وب با فرمت بهینه‌شده‌ی مارک‌داون، به‌طور میانگین ۷۰٪ از توکن‌های مصرفی را کاهش می‌دهد.

برای پایان دادن به این چرخه خسته‌کننده، توسعه‌کننده‌ای به نام The CodeFather در ۲۵ ژوئن ۲۰۲۶ افزونه‌ی Page to Markdown را عرضه کرد؛ ابزاری که هر صفحه وب را تنها با یک کلیک به فرمتی تبدیل می‌کند که برای مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — ایده‌آل است.

این ابزار درست زمانی معرفی می‌شود که کاربران با محدودیت پنجره متنی (Context Window) — یعنی میز کاری که جا برای چند ورق دارد، نه برای کل کتابخانه — و افزایش هزینه‌های توکن دست‌وپنجه نرم می‌کنند. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی تکه‌بندی عامل‌محور (Agentic Chunking) اشاره کردیم، بهینه‌سازی داده‌ها قبل از ورود به مدل، کلید موفقیت در سیستم‌های بازیابی است. تصور کنید مرورگر شما مانند یک فیلتر دقیق عمل کند و تمام نویزها را پیش از رسیدن به پرامپت حذف کند.

به نقل از گزارش وب‌سایت dev.to، این افزونه عملیات فنی زیر را به‌صورت محلی در مرورگر انجام می‌دهد:

استخراج محتوا: شناسایی بدنه اصلی متن از طریق اسکن تگ‌های <article>، <main> و [role='main'].
حذف اضافات: پاک‌سازی نوار پیمایش (Navigation bar)، فوترها، ستون‌های کناری و بنرهای کوکی.
تبدیل فرمت: استفاده از یک مبدل بازگشتی جاوا‌اسکریپت برای تبدیل المان‌های HTML به جداول استاندارد و بلوک‌های کد.
تخمین توکن: استفاده از یک روش اکتشافی (هر ۴ کاراکتر تقریباً ۱ توکن — تکه‌های کوچکی از متن شبیه برش‌های یک کیک) برای برنامه‌ریزی بودجه.

بر اساس مستندات این پروژه، تبدیل HTML به مارک‌داون باعث کاهش ۵۰ تا ۷۰ درصدی مصرف توکن می‌شود. از آنجایی که تمام پردازش‌ها در محیط مرورگر رخ می‌دهد و هیچ فراخوانی API صورت نمی‌گیرد، حریم خصوصی داده‌ها به‌طور کامل حفظ می‌شود.

برای کاربر معمولی، این تغییر به معنای حذف «اتلاف توکن» است. دیگر نیازی به حدس زدن این نیست که آیا یک مقاله طولانی در پنجره متنی جا می‌شود یا خیر؛ شما پیش از کپی کردن، عدد دقیق توکن‌ها را می‌بینید. در واقع، مرورگر شما به یک لایه پیش‌پردازش برای گردش‌های کاری تولید بازیابی‌افزا (RAG) — شبیه دانش‌آموزی که قبل از جواب دادن، اول کتاب درسی را باز می‌کند و از آن نقل می‌آورد — تبدیل می‌شود. این رویکرد مکمل راهکارهای پیشرفته‌تری است که در آن‌ها تشخیص دقیق قصد کاربر می‌تواند هزینه توکن‌های RAG را تا ۱۵ برابر کاهش دهد.

گام بعدی شما

نسخه رایگان این ابزار را برای ۳ تبدیل در روز نصب کنید.
یک صفحه مستندات فنی پیچیده را بررسی کنید تا ببینید چه مقدار از توکن‌های شما توسط کدهای HTML اضافی هدر می‌رفت.
مدل‌های ارزان‌تر را با این متد ترکیب کنید تا کیفیت پاسخ‌ها بدون افزایش هزینه بالا برود.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

به نقل از گزارش وب‌سایت dev.to، این افزونه عملیات فنی زیر را به‌صورت محلی در مرورگر انجام می‌دهد:

استخراج محتوا: شناسایی بدنه اصلی متن از طریق اسکن تگ‌های <article>، <main> و [role='main'].
حذف اضافات: پاک‌سازی نوار پیمایش (Navigation bar)، فوترها، ستون‌های کناری و بنرهای کوکی.
تبدیل فرمت: استفاده از یک مبدل بازگشتی جاوا‌اسکریپت برای تبدیل المان‌های HTML به جداول استاندارد و بلوک‌های کد.
تخمین توکن: استفاده از یک روش اکتشافی (هر ۴ کاراکتر تقریباً ۱ توکن — تکه‌های کوچکی از متن شبیه برش‌های یک کیک) برای برنامه‌ریزی بودجه.

گام بعدی شما

نسخه رایگان این ابزار را برای ۳ تبدیل در روز نصب کنید.
یک صفحه مستندات فنی پیچیده را بررسی کنید تا ببینید چه مقدار از توکن‌های شما توسط کدهای HTML اضافی هدر می‌رفت.
مدل‌های ارزان‌تر را با این متد ترکیب کنید تا کیفیت پاسخ‌ها بدون افزایش هزینه بالا برود.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تبدیل صفحات وب به مارک‌داون، هزینه توکن‌های LLM را ۷۰٪ کاهش داد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تبدیل صفحات وب به مارک‌داون، هزینه توکن‌های LLM را ۷۰٪ کاهش داد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تبدیل صفحات وب به مارک‌داون، هزینه توکن‌های LLM را ۷۰٪ کاهش داد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تبدیل صفحات وب به مارک‌داون، هزینه توکن‌های LLM را ۷۰٪ کاهش داد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران