اگر هر روز ساعتها وقت خود را صرف پاکسازی دستی متون وب برای چسباندن در ChatGPT میکنید، یک ابزار جدید میتواند هزینههای استنتاج شما را به شدت پایین بیاورد. طبق گزارشهای منتشر شده، جایگزینی محتوای خام وب با فرمت بهینهشدهی مارکداون، بهطور میانگین ۷۰٪ از توکنهای مصرفی را کاهش میدهد.
برای پایان دادن به این چرخه خستهکننده، توسعهکنندهای به نام The CodeFather در ۲۵ ژوئن ۲۰۲۶ افزونهی Page to Markdown را عرضه کرد؛ ابزاری که هر صفحه وب را تنها با یک کلیک به فرمتی تبدیل میکند که برای مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — ایدهآل است.
این ابزار درست زمانی معرفی میشود که کاربران با محدودیت پنجره متنی (Context Window) — یعنی میز کاری که جا برای چند ورق دارد، نه برای کل کتابخانه — و افزایش هزینههای توکن دستوپنجه نرم میکنند. همانطور که در تحلیلهای قبلی ما دربارهی تکهبندی عاملمحور (Agentic Chunking) اشاره کردیم، بهینهسازی دادهها قبل از ورود به مدل، کلید موفقیت در سیستمهای بازیابی است. تصور کنید مرورگر شما مانند یک فیلتر دقیق عمل کند و تمام نویزها را پیش از رسیدن به پرامپت حذف کند.
به نقل از گزارش وبسایت dev.to، این افزونه عملیات فنی زیر را بهصورت محلی در مرورگر انجام میدهد:
- استخراج محتوا: شناسایی بدنه اصلی متن از طریق اسکن تگهای
<article>،<main>و[role='main']. - حذف اضافات: پاکسازی نوار پیمایش (Navigation bar)، فوترها، ستونهای کناری و بنرهای کوکی.
- تبدیل فرمت: استفاده از یک مبدل بازگشتی جاوااسکریپت برای تبدیل المانهای HTML به جداول استاندارد و بلوکهای کد.
- تخمین توکن: استفاده از یک روش اکتشافی (هر ۴ کاراکتر تقریباً ۱ توکن — تکههای کوچکی از متن شبیه برشهای یک کیک) برای برنامهریزی بودجه.
بر اساس مستندات این پروژه، تبدیل HTML به مارکداون باعث کاهش ۵۰ تا ۷۰ درصدی مصرف توکن میشود. از آنجایی که تمام پردازشها در محیط مرورگر رخ میدهد و هیچ فراخوانی API صورت نمیگیرد، حریم خصوصی دادهها بهطور کامل حفظ میشود.
برای کاربر معمولی، این تغییر به معنای حذف «اتلاف توکن» است. دیگر نیازی به حدس زدن این نیست که آیا یک مقاله طولانی در پنجره متنی جا میشود یا خیر؛ شما پیش از کپی کردن، عدد دقیق توکنها را میبینید. در واقع، مرورگر شما به یک لایه پیشپردازش برای گردشهای کاری تولید بازیابیافزا (RAG) — شبیه دانشآموزی که قبل از جواب دادن، اول کتاب درسی را باز میکند و از آن نقل میآورد — تبدیل میشود. این رویکرد مکمل راهکارهای پیشرفتهتری است که در آنها تشخیص دقیق قصد کاربر میتواند هزینه توکنهای RAG را تا ۱۵ برابر کاهش دهد.
گام بعدی شما
- نسخه رایگان این ابزار را برای ۳ تبدیل در روز نصب کنید.
- یک صفحه مستندات فنی پیچیده را بررسی کنید تا ببینید چه مقدار از توکنهای شما توسط کدهای HTML اضافی هدر میرفت.
- مدلهای ارزانتر را با این متد ترکیب کنید تا کیفیت پاسخها بدون افزایش هزینه بالا برود.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو