چگونه معماری Search as Code مصرف توکن‌های Perplexity را ۸۵٪ کاهش داد؟

اگر مدیریت عامل‌های هوش مصنوعی برای پژوهش‌های عمیق را بر عهده دارید، هزینه‌های توکن و شلوغی پنجره متنی شما به‌شدت کاهش خواهد یافت. شرکت Perplexity سیستم «جستجو به مثابه کد» (Search as Code یا SaC) را معرفی کرد؛ سیستمی که در آن مدل‌ها به‌جای تکیه بر APIهای صلب و پیش‌فرض، جریان‌های کاری جستجوی خود را به‌صورت آنی با زبان پایتون می‌نویسند.

بیشتر عامل‌های فعلی در یک چرخه تکراری عمل می‌کنند: مدل یک پرس‌وجو می‌نویسد، موتور جستجو لیستی از «لینک‌های آبی» را برمی‌گرداند و مدل آن‌ها را می‌خواند تا گام بعدی را تعیین کند. این فرآیند برای وظایف پیچیده بسیار صلب است و مدل را مجبور می‌کند حجم عظیمی از داده‌های بی‌ربط را ببلعد تا تنها یک حقیقت خاص را بیابد. طبق یک گزارش فنی، این ساختار یک گلوگاه بحرانی در استدلال عامل‌محور (Agentic Reasoning) ایجاد می‌کند. موتورهای جستجوی امروز برای انسان‌ها ساخته شده‌اند، اما برای یک عامل هوش مصنوعی که سعی دارد صدها جستجو را در چند دقیقه انجام دهد، این تنظیمات بیش از حد محدودکننده است. در این حالت، عامل تنها می‌تواند عبارت جستجو را تغییر دهد و بقیه فرآیند مانند یک جعبه سیاه باقی می‌ماند.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی امنیت مدل‌های بازمتن و مدیریت حافظه اشاره کردیم، حذف نویز از ورودی مدل‌ها کلید افزایش دقت است. برای حل این مشکل، Perplexity معماری سه لایه‌ای را پیاده کرد که با آن، جستجو مانند یک عملیات قابل برنامه‌ریزی است. در این ساختار، مدل به‌جای فراخوانی یک API آماده، یک خط لوله سفارشی را با استفاده از دستورات پایه جستجو می‌سازد. این معماری به شرح زیر است:

لایه مدل (Model Layer): در بالاترین سطح قرار دارد، وظیفه خاص را درک می‌کند و بهین‌ترین استراتژی جستجو را تعیین می‌کند.
لایه سندباکس (Sandbox Layer): یک محیط امن میانی است که کدهای پایتون تولیدشده در آن اجرا می‌شوند.
SDK جستجوی عامل‌محور (Agentic Search SDK): لایه‌ی پایینی است که موتور جستجوی Perplexity را به توابع مجزا و قابل ترکیب تبدیل می‌کند. این لایه به کد تولیدشده اجازه می‌دهد تا در سطح کامپوننت به زیرساخت جستجو دسترسی داشته باشد.

با استفاده از این SDK، مدل می‌تواند عملیاتی مثل بازیابی (Retrieving)، فیلتر کردن، حذف موارد تکراری (Deduplicating) و رتبه‌بندی مجدد (Reranking) را به‌صورت برنامه‌نویسی شده انجام دهد. در حالی که APIهای جستجوی استاندارد برای پرسش‌های سریع همچنان در دسترس هستند، رویکرد SaC به مدل اجازه می‌دهد تا پرس‌وجوهای موازی ارسال کند و تنها نتایج مرتبط را وارد پنجره متنی (Context Window) — که شبیه میز کاری است که جا برای چند ورق دارد، نه برای کل کتابخانه — کند. به این ترتیب، منطق فیلتر کردن دیگر در یک جعبه سیاه قفل نیست و از انباشت «زباله» در حافظه مدل جلوگیری می‌شود.

برای اثبات کارایی، Perplexity این مکانیسم را روی یک پروژه دشوار در حوزه امنیت سایبری آزمایش کرد تا کاربرد واقعی آن را نشان دهد. یک عامل باید ۲۰۰ آسیب‌پذیری نرم‌افزاری بحرانی (CVE) منتشر شده بین سال‌های ۲۰۲۳ تا ۲۰۲۵ را ردیابی می‌کرد. برای هر CVE، عامل باید اطلاعیه رسمی سازنده (Vendor Advisory)، نرم‌افزار آسیب‌دیده و نسخه دقیقی که باگ را اصلاح کرده بود پیدا می‌کرد و باید به‌طور مشخص مقالات خبری یا پست‌های وبلاگی را نادیده می‌گرفت.

به گزارش Perplexity، مدل SaC برای دستیابی به این هدف یک اسکریپت سه مرحله‌ای نوشت:
۱. جستجوهای موازی را اجرا کرد که متناسب با فرمت‌های خاص مورد استفاده سازندگانی مانند گوگل یا موزیلا برای بولتن‌های امنیتی‌شان بود.
۲. یافته‌های خود را اسکن کرد تا شکاف‌های اطلاعاتی را شناسایی کند و سپس پرس‌وجوهای تکمیلی هدفمندی را اجرا کرد.
۳. از یک طرح‌واره (Schema) استفاده کرد تا تأیید کند که CVE، محصول و نسخه اصلاحی همگی به‌درستی با هم مطابقت دارند.

نتایج این آزمایش خیره‌کننده بود:

بهره‌وری توکن: عامل SaC این وظیفه را با ۸۵٪ توکن کمتر نسبت به خط لوله استاندارد به پایان رساند.
دقت: طبق گزارش‌ها، سیستم‌های رقیب از OpenAI و Anthropic در این وظیفه خاص، کمتر از یک‌چهارم داده‌ها را درست استخراج کردند.
بنچمارک‌ها: SaC در چهار مورد از پنج دسته‌بندی داخلی پیشتاز بود و تنها در آزمون HLE تقریباً با OpenAI برابر شد. بیشترین فاصله در بنچمارک WANDR دیده شد که بنچمارک اختصاصی Perplexity برای وظایف پژوهشی گسترده است و شرکت قصد دارد به‌زودی آن را منتشر کند.

این تغییر، لایه عملیاتی هوش مصنوعی را از استدلال ساده در فضای توکن به اجرای قطعی کد (Deterministic Code Execution) منتقل می‌کند. Perplexity سیستم SaC را بخشی از یک روند بزرگتر معرفی می‌کند که در آن توانمندترین سیستم‌ها، مدل‌ها را برای استراتژی و محیط‌های اجرای قطعی (Deterministic Runtimes) را برای دسته‌بندی و فیلتر کردن به کار می‌گیرند.

این رویکرد یک مشکل آشکار در جستجوهای فعلی هوش مصنوعی را حل می‌کند. یک مطالعه اخیر نشان داد که عامل‌های جستجوی محبوب اغلب در بنچمارک‌هایی مثل BrowseComp «تقلب» می‌کنند؛ به این صورت که پاسخ‌ها را از داده‌های آموزشی خود می‌گیرند و از جستجو فقط برای تأیید آنچه از قبل می‌دانستند استفاده می‌کنند. وقتی این سیستم‌ها با یک بنچمارک جدید حاوی حقایق به‌روز تست شدند، امتیاز تمام سیستم‌های مبتنی بر ابزارهای جستجوی استاندارد ۲۵ تا ۴۰ امتیاز سقوط کرد. مدل SaC با نوشتن فیلترهای اختصاصی خود، پنجره متنی را سبک نگه می‌دارد و بر داده‌های زنده و تأییدشده تکیه می‌کند.

یک مقاله بررسی (Survey Paper) مجزا پیشنهاد می‌کند که نوشتن کد در حال تبدیل شدن به روش پیش‌فرض تعامل عامل‌ها با جهان است و استدلال می‌کند که اکنون زیرساخت‌های پیرامونی مانند ابزارها و سندباکس‌ها، گلوگاه واقعی برای سیستم‌های خودمختار هستند.

برای کاربر تجاری، این یعنی عامل‌های هوش مصنوعی بالاخره می‌توانند استخراج داده‌های «کثیف» را در مقیاس بزرگ، بدون توهم یا کرش کردن به دلیل محدودیت حافظه، مدیریت کنند. این امر موتور جستجو را از یک جعبه سیاه به یک ابزار شفاف و قابل برنامه‌ریزی تبدیل می‌کند.

سرویس Search as Code در حال حاضر در Perplexity Computer و Agent API در دسترس است. باید رصد کرد که آیا این رویکرد برنامه‌ریزی شده به استاندارد صنعتی برای عامل‌های خودمختار تبدیل می‌شود یا به عنوان یک مزیت اختصاصی برای Perplexity باقی می‌ماند.

گام بعدی شما

اگر توسعه‌دهنده هستید، APIهای Perplexity را برای تسک‌های استخراج داده‌ای که نیاز به فیلترهای دقیق دارند تست کنید.
بررسی کنید آیا مدل‌های فعلی شما در حال «تقلب» (استفاده از حافظه داخلی به‌جای جستجوی زنده) هستند یا خیر.
منتظر انتشار بنچمارک WANDR باشید تا معیار جدیدی برای ارزیابی پژوهش‌های گسترده داشته باشید.

اما این تغییر در لایه نرم‌افزاری است؛ اثر این رویکرد بر تقاضای سخت‌افزاری و پردازش‌های موازی را در تحلیل‌های آینده بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

لایه مدل (Model Layer): در بالاترین سطح قرار دارد، وظیفه خاص را درک می‌کند و بهین‌ترین استراتژی جستجو را تعیین می‌کند.
لایه سندباکس (Sandbox Layer): یک محیط امن میانی است که کدهای پایتون تولیدشده در آن اجرا می‌شوند.
SDK جستجوی عامل‌محور (Agentic Search SDK): لایه‌ی پایینی است که موتور جستجوی Perplexity را به توابع مجزا و قابل ترکیب تبدیل می‌کند. این لایه به کد تولیدشده اجازه می‌دهد تا در سطح کامپوننت به زیرساخت جستجو دسترسی داشته باشد.

نتایج این آزمایش خیره‌کننده بود:

بهره‌وری توکن: عامل SaC این وظیفه را با ۸۵٪ توکن کمتر نسبت به خط لوله استاندارد به پایان رساند.
دقت: طبق گزارش‌ها، سیستم‌های رقیب از OpenAI و Anthropic در این وظیفه خاص، کمتر از یک‌چهارم داده‌ها را درست استخراج کردند.
بنچمارک‌ها: SaC در چهار مورد از پنج دسته‌بندی داخلی پیشتاز بود و تنها در آزمون HLE تقریباً با OpenAI برابر شد. بیشترین فاصله در بنچمارک WANDR دیده شد که بنچمارک اختصاصی Perplexity برای وظایف پژوهشی گسترده است و شرکت قصد دارد به‌زودی آن را منتشر کند.

گام بعدی شما

اگر توسعه‌دهنده هستید، APIهای Perplexity را برای تسک‌های استخراج داده‌ای که نیاز به فیلترهای دقیق دارند تست کنید.
بررسی کنید آیا مدل‌های فعلی شما در حال «تقلب» (استفاده از حافظه داخلی به‌جای جستجوی زنده) هستند یا خیر.
منتظر انتشار بنچمارک WANDR باشید تا معیار جدیدی برای ارزیابی پژوهش‌های گسترده داشته باشید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه معماری Search as Code مصرف توکن‌های Perplexity را ۸۵٪ کاهش داد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه معماری Search as Code مصرف توکن‌های Perplexity را ۸۵٪ کاهش داد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه معماری Search as Code مصرف توکن‌های Perplexity را ۸۵٪ کاهش داد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه معماری Search as Code مصرف توکن‌های Perplexity را ۸۵٪ کاهش داد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران