«ارزیابی مدل‌های زاینده»؛ کلید تغییر مسیر مهندسان تست به AI

تیم‌های هوش مصنوعی زاینده دیگر به افرادی که صرفاً بتوانند یک API را فراخوانی کنند نیاز ندارند؛ آن‌ها مهندسانی می‌خواهند که دقیقاً بدانند چه زمانی یک خروجی غلط است. اگر شما یک مهندس تست (SDET) هستید، در واقع سخت‌ترین بخش مهندسی AI را از پیش بلدید: هنر اثبات اینکه یک سیستم کار نمی‌کند. این ایده مرکزی هیمانشو آگروال (HimanshuAI) است که استدلال می‌کند چون SDETها تمام دوران شغلی خود را در تمرین این مهارت گذرانده‌اند، انتقال حرفه‌ای آن‌ها به مهندسی AI تنها به ۳۰ روز تلاش متمرکز نیاز دارد. او از طریق راهنماهای عملی (Playbooks)، خبرنامه‌های روزانه و جلسات تک‌به-تک، از تسترهای نرم‌افزار در این گذار از طریق سه ستون اصلی حمایت می‌کند: تست، مهندسی و آموزش.

تسترهای نرم‌افزار فعلی از پیش دارای یک چارچوب ذهنی ساخته شده بر پایه لبه‌های خطا (Edge Cases)، بازتولیدپذیری (Reproducibility) و اشتیاق برای «اثبات اینکه سیستم کار می‌کند» هستند. در چشم‌انداز فعلی هوش مصنوعی، مدل‌های زبانی ماهیتی غیرقطعی (Non-deterministic) دارند؛ این بدان معناست که آن‌ها می‌توانند برای یک ورودی یکسان، خروجی‌های متفاوتی تولید کنند. همین ویژگی باعث می‌شود که اعتماد و قابلیت اطمینان، به اصلی‌ترین گلوگاه‌ها برای پذیرش این فناوری در مقیاس سازمانی تبدیل شوند.

مزیت SDETها

تسترهای نرم‌افزار از نقطه صفر شروع نمی‌کنند، زیرا مهارت‌های پایتون، CI (یکپارچه‌سازی مستمر)، اشکال‌زدایی (Debugging) و طراحی تست مستقیماً به دنیای AI منتقل می‌شوند. این گذار با تغییر رویکرد از کدنویسی دستی به نظارت استراتژیک بر فرآیند QA با کمک هوش مصنوعی همراه است تا بهره‌وری در تست نرم‌افزار افزایش یابد. شکاف اصلی موجود در بازار این است که LLMها «ساکت» شکست می‌خورند (یعنی بدون خطا دادن، پاسخ غلط می‌دهند) و دیسیپلین ارزیابی و ایجاد حفاظ‌ها (Guardrails) در آن‌ها غایب است. با بازتعریف تست سنتی به عنوان «ارزیابی LLM»، SDETها می‌توانند از یک نقش قدیمی به جایگاه‌های پرتقاضایی مثل «مهندس کیفیت AI» یا «مهندس ارزیابی LLM» منتقل شوند؛ عناویمی که تا دو سال پیش تقریباً وجود نداشتند اما اکنون در برنامه استخدام هر تیم جدی هوش مصنوعی قرار دارند.

نقشه راه ۳۰ روزه SDT هوش مصنوعی تولیدی برای تسترها

متدولوژی ۳۰ روزه

این نقشه راه بر پایه یک ساعت تمرکز در روز طراحی شده است. هدف این است که تا روز سی‌ام، مهندس یک پروژه مستقر شده و یک مجموعه ارزیابی (Evaluation Suite) داشته باشد که اثربخشی پروژه را ثابت کند. این تداوم، استراتژی اصلی است: یک ساعت در روز به مدت ۳۰ روز، بسیار مؤثرتر از یک «آخر هفته قهرمانانه» است که هرگز تکرار نمی‌شود.

هفته اول: تثبیت زیربنا (روز ۱ تا ۷)

هدف هفت روز اول این است که فرد پیش از پیچیده کردن مسائل، در مفاهیم جاری روان شود. هدف، ساخت زیربنایی است که باعث شود هفته‌های بعدی آسان‌تر به نظر برسند.

تسلط بر پایتون (روز ۱-۲): تمرکز بر اجرای صحیح پایتون است. این شامل تسلط بر توابع، تایپینگ (Typing)، عملیات Asynchronous، محیط‌های مجازی و ساختار کد تمیز است. رویکرد آموزشی این است: کد را دقیقاً به گونه‌ای بنویسید که بخواهید آن را تست کنید. ابزارهای کلیدی شامل Python 3.12، uv، pytest و VS Code هستند.
شهود AI/ML (روز ۳-۴): تسترها وارد مکانیسم‌های یادگیری ماشین می‌شوند. این بخش شامل ویژگی‌ها (Features)، تفاوت بین آموزش (Training) و استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند، شبیه خودِ آشپزی نه دوره آموزش آشپز —، بیش‌برازش (Overfitting) و ماهیت بردارهای معنایی (Embeddings) است که مثل یک کارت معرفی عددی برای هر واژه عمل می‌کنند. ابزارهای ضروری این مرحله NumPy، pandas، scikit-learn و Kaggle هستند.
مبانی LLM (روز ۵-۷): بازه نهایی هفته را مفاهیم توکن (Token) — تکه‌های کوچکی از متن شبیه برش‌های کیک —، پنجره‌های زمینه (Context Windows)، دما (Temperature) و مفهوم ترنسفورمر در سطح کاربردی پوشش می‌دهد. منابع یادگیری شامل Hugging Face، tiktoken، 3Blue1Brown و Andre Karpathy است.

یک لحظه کلیدی در درک مفاهیم («aha moment») زمانی رخ می‌دهد که تسترها از tiktoken برای توکنایز کردن یک جمله استفاده می‌کنند و مشاهده می‌کنند که چگونه کلمات یکسان می‌توانند منجر به تعداد توکن‌های متفاوت شوند.

هفته دوم: پیاده‌سازی هسته GenAI (روز ۸ تا ۱۵)

روزهای ۸ تا ۱۵، مسیر را از تئوری به سمت ساختن تغییر می‌دهند. تمرکز بر صحبت با مدل‌ها با هدف مشخص، اتصال به APIهای واقعی و تغذیه مدل‌ها با دانش خصوصی است.

مهندسی پرامپت (روز ۸-۹): به جای treating پرامپت‌نویسی به عنوان یک هنر، SDETها تشویق می‌شوند تا با پرامپت‌ها مانند «سند مشخصات تست» برخورد کنند. این یعنی تعریف ورودی‌های شفاف، خروجی‌های مورد انتظار، لبه‌های خطا و نسخه‌بندی (Versioning). ابزارهای مورد استفاده شامل Anthropic Console، OpenAI Playground و LangSmith است.
APIهای LLM در کد (روز ۱۰-۱۱): نقشه راه شامل فراخوانی مدل‌ها، استریم پاسخ‌ها (Streaming responses)، پیاده‌سازی تلاش‌های مجدد (Retries) و استفاده از فراخوانی ابزار/تابع (Tool/Function Calling) است. هدف این است که غرایز قابلیت اطمینان بر روی این فراخوانی‌ها با استفاده از Claude، OpenAI، Gemini و Groq پیاده شوند.
تولید بازیابی‌افزا (RAG) (روز ۱۲-۱۵): تسترها الگوی پشت اکثر محصولات مفید AI را می‌آموزند: تکه‌تکه کردن (Chunking)، تبدیل به بردار (Embedding)، بازیابی (Retrieving) و پاسخگویی بر اساس مستندات سفارشی. ابزارهای ذکر شده LangChain، LlamaIndex و Unstructured هستند.

یک نقطه عطف عملی، ساخت یک سیستم RAG ۴۰ خطی روی یک فایل PDF است. هدف این است که سوالی پرسیده شود که فقط آن PDF بتواند به آن پاسخ دهد؛ وقتی سیستم صفحه درست را نقل کند، تستر اولین ویژگی AI کاربردی خود را ساخته است.

نقشه راه ۳۰ روزه SDT هوش مصنوعی مولد: راهنمای گام‌به‌گام برای تسترها

هفته سوم: سامانه‌های پیشرفته و عامل‌ها (روز ۱۶ تا ۲۳)

از روز ۱۶، نقشه راه از فراخوانی‌های تک‌API به سمت سیستم‌های پیچیده شامل حافظه قابل جست‌وجو و عامل‌های (Agents) ابزار-محور حرکت می‌کند.

پایگاه‌داده‌های برداری (روز ۱۶-۱۷): این مرحله شامل ذخیره‌سازی و جست‌وجوی بردارها در مقیاس بالا است. تسترها جست‌وجوی شباهت (Similarity Search) و فیلترهای متاداده را مطالعه می‌کنند و می‌سنجند که چه زمانی یک فایل ساده ممکن است از یک پایگاه‌داده بهتر عمل کند. ابزارها شامل Chroma، Pinecone، Qdrant و pgvector هستند.
عامل‌های AI و چارچوب‌ها (روز ۱۸-۲۰): تمرکز بر این است که به مدل‌ها اجازه داده شود برنامه‌ریزی کنند، ابزارها را فراخوانی کنند و وظایف را در حلقه‌های تکرار اجرا کنند. بخش حیاتی این است که یاد بگیرند چگونه عامل‌ها را «روی ریل» (On rails) نگه دارند تا منحرف نشوند؛ با استفاده از LangGraph، CrewAI یا AutoGen.
پروتکل زمینه مدل (MCP) (روز ۲۱-۲۳): تسترها MCP را بررسی می‌کنند که یک استاندارد باز برای اتصال مدل‌ها به ابزارها و داده‌ها است. هدف، ساخت یک سرور MCP با استفاده از MCP SDK، Claude و سرورهای ابزاری مختلف است.

نقشه راه ۳۰ روزه SDET GenAI برای تسترها: از صفر تا پیشرفته

هفته چهارم: ارزیابی و استقرار (روز ۲۴ تا ۳۰)

بازه نهایی بر «ابر-قدرت» SDETها تمرکز دارد: اثبات اینکه سیستم پیش از عرضه، درست رفتار می‌کند و ایمن است.

تست و ارزیابی LLM (روز ۲۴-۲۷): این پرتقاضاترین مهارت GenAI است. تسترها مجموعه‌های ارزیابی (Eval Sets) می‌سازند، به خروجی‌ها نمره می‌دهند، رگرسیون‌ها را شناسایی می‌کنند و برای ایمنی، عملیات تیم قرمز (Red-teaming) را انجام می‌دهند. جعبه‌ابزار این مرحله شامل Ragas، DeepEval، promptfoo و Giskard است.
استقرار پروژه (روز ۲۸-۳۰): این انتقال با قرار دادن یک پروژه در قالب API و UI، کانتینریزه کردن آن با Docker و انتشار یک لینک عمومی به پایان می‌رسد. ابزارها شامل FastAPI، Streamlit، Docker و HF Spaces هستند. در این مسیر، استفاده از ابزارهایی مانند Genkit گوگل می‌تواند به مهندسان کمک کند تا فاصله میان یک دموی ساده و یک محیط عملیاتی واقعی را سریع‌تر پر کنند. این راهنما تأکید می‌کند که یک دمو زنده، از ده‌ها گواهینامه ارزشمندتر است.

نقشه راه ۳۰ روزه SDET GenAI برای تسترها: از صفر تا پیشرفته

پل مهارت‌ها: نگاشت تست به AI

این انتقال در واقع یک تبدیل و نگاشت مستقیم مهارت‌های موجود به نیازهای جدید AI است:

طراحی مورد تست (ورودی‌ها، خروجی‌ها، مرزها) $\rightarrow$ تبدیل می‌شود به طراحی مجموعه داده ارزیابی (سوالات طلایی و معیارهای نمره‌دهی).
تست رگرسیون $\rightarrow$ تبدیل می‌شود به نمره‌دهی رگرسیون مدل و پرامپت.
عیب‌یابی تست‌های ناپایدار (Flaky) (ناشی از غیرقطعی بودن) $\rightarrow$ تبدیل می‌شود به مدیریت واریانس LLM (مدیریت دما و آمار نرخ موفقیت/Pass-rate).

نقشه راه ۳۰ روزه SDET GenAI برای تسترها: گام‌به‌گام تا هوش مصنوعی تولیدی

استراتژی پورتفولیو و رشد شغلی

برای تضمین استخدام، نقشه راه سه پروژه خاص را پیشنهاد می‌کند که دقیقاً مهارت‌هایی را نشان می‌دهند که مدیران استخدام AI به دنبال آن‌ها هستند:

دستیار پرسش‌وپاسخ اسناد (RAG): یک چت‌بات که یک کدبیس یا دفترچه راهنما را مدیریت می‌کند، دارای نقل‌قول‌های دقیق و یک ارزیابی دقت کوچک برای اثبات کارکرد.
هارنس رگرسیون پرامپت (Prompt Regression Harness): یک ابزار CLI که نسخه‌های مختلف پرامپت را در برابر یک «مجموعه طلایی» نمره‌دهی می‌کند و اگر رگرسیونی شناسایی شود، به‌طور خودکار بیلد (Build) را رد می‌کند. این پروژه تجسم کامل «انرژی خالص یک SDET» است.
عامل دسته‌بندی خودکار (Triage Agent): عاملی که گزارش‌های باگ را می‌خواند، شدت (Severity) را برچسب می‌زند و پیش‌نویس بازتولید باگ را آماده می‌کند، در حالی که همگی توسط حفاظ‌های (Guardrails) سفارشی کنترل می‌شوند.

برای بهترین نتیجه، توصیه می‌شود برای هر پروژه یک پست شفاف نوشته شود که مشکل، رویکرد و نحول اندازه‌گیری موفقیت را توضیح دهد. در هنگام مصاحبه، کاندیداها تشویق می‌شوند که با «هارنس رگرسیون پرامپت» شروع کنند، زیرا ارزیابی دقیقاً همان مشکلی است که مدیران AI در حال حاضر با آن دست‌وپنجه نرم می‌کنند.

جعبه‌ابزار جامع

برای اجرای این نقشه راه، ابزارهای زیر در چرخه حیات پروژه توصیه می‌شوند:

زیربنا: Python, uv, pytest, Jupyter
مدل‌ها و APIها: Claude, OpenAI, Gemini, Ollama
ارکستراسیون: LangChain, LlamaIndex, LangGraph, MCP
برداری و بازیابی: Chroma, Pinecone, Qdrant, pgvector
ارزیابی: Ragas, DeepEval, promptfoo, Giskard
انتشار: FastAPI, Streamlit, Docker, HF Spaces

منابع یادگیری و آموزش

برای کسانی که به دنبال دانشی عمیق‌تر از نقشه راه روزانه هستند، منابع رایگان زیر توصیه شده است:

Neural Networks: Zero to Hero — دوره ویدئویی رایگان آندره کارپاتی.
3Blue1Brown — سری ویدئوهای بصری درباره شبکه‌های عصبی و ترنسفورمرها.
Hugging Face LLM Course & docs — مستندات به‌روز و کاربردی.
«Attention Is All You Need» (Vaswani et al., 2017) — مقاله بنیادین ترنسفورمر.
مستندات ارائه‌دهندگان — راهنماهای رسمی Anthropic، OpenAI و Google.
راهنماهای ارزیابی — مستندات شروع سریع для Ragas، DeepEval و promptfoo.

مسیرهای هدایت‌شده تکمیلی از طریق Playbookهای منتخب در دسترس هستند. برای شروع، GenAI SDET Career Pack (مجموعه ۴ کتاب) توصیه می‌شود. کاربران پیشرفته می‌توانند RAG for SDETs Pack (۷ کتاب) یا MCP Mastery Pack را بررسی کنند. برای کسانی که به سمت سیستم‌های سطح تولید (Production-grade) حرکت می‌کنند، Enterprise LLM Engineering Vault مفاهیم معماری، استقرار، ارزیابی و حاکمیت را پوشش می‌دهد. بسته‌های تخصصی دیگر شامل AI Test Automation Pack، AI Governance & Compliance Pack و Complete AI Testing & GenAI Engineering Master Bundle (۱۸ کتاب) است.

این رویکرد اساساً این فرض را که مهندسی AI مختص دارندگان PhD است، تغییر می‌دهد. این ثابت می‌کند که دیسیپلین «اثبات اینکه سیستم کار می‌کند»، حیاتی‌ترین حلقه گمشده در چرخه تولید GenAI است.

گام بعدی شما

ابزار promptfoo را برای تست مقایسه‌ای نسخه‌های مختلف پرامپت‌های خود امتحان کنید.
یک سیستم RAG ساده ۴۰ خطی روی یک PDF تخصصی پیاده‌سازی کنید تا قدرت بازیابی داده را بسنجید.
روی ساخت یک «هارنس رگرسیون پرامپت» تمرکز کنید؛ چرا که این دقیقاً همان چیزی است که مدیران AI برای تضمین کیفیت می‌خواهند.

اما زیرساخت‌های اجرای این مدل‌ها در مقیاس صنعتی پیچیدگی‌های بیشتری دارد — به تحلیل ما درباره‌ی مدیریت هزینه‌های استنتاج در محیط‌های سازمانی مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مزیت SDETها

نقشه راه ۳۰ روزه SDT هوش مصنوعی تولیدی برای تسترها

متدولوژی ۳۰ روزه

هفته اول: تثبیت زیربنا (روز ۱ تا ۷)

تسلط بر پایتون (روز ۱-۲): تمرکز بر اجرای صحیح پایتون است. این شامل تسلط بر توابع، تایپینگ (Typing)، عملیات Asynchronous، محیط‌های مجازی و ساختار کد تمیز است. رویکرد آموزشی این است: کد را دقیقاً به گونه‌ای بنویسید که بخواهید آن را تست کنید. ابزارهای کلیدی شامل Python 3.12، uv، pytest و VS Code هستند.
شهود AI/ML (روز ۳-۴): تسترها وارد مکانیسم‌های یادگیری ماشین می‌شوند. این بخش شامل ویژگی‌ها (Features)، تفاوت بین آموزش (Training) و استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند، شبیه خودِ آشپزی نه دوره آموزش آشپز —، بیش‌برازش (Overfitting) و ماهیت بردارهای معنایی (Embeddings) است که مثل یک کارت معرفی عددی برای هر واژه عمل می‌کنند. ابزارهای ضروری این مرحله NumPy، pandas، scikit-learn و Kaggle هستند.
مبانی LLM (روز ۵-۷): بازه نهایی هفته را مفاهیم توکن (Token) — تکه‌های کوچکی از متن شبیه برش‌های کیک —، پنجره‌های زمینه (Context Windows)، دما (Temperature) و مفهوم ترنسفورمر در سطح کاربردی پوشش می‌دهد. منابع یادگیری شامل Hugging Face، tiktoken، 3Blue1Brown و Andre Karpathy است.

هفته دوم: پیاده‌سازی هسته GenAI (روز ۸ تا ۱۵)

مهندسی پرامپت (روز ۸-۹): به جای treating پرامپت‌نویسی به عنوان یک هنر، SDETها تشویق می‌شوند تا با پرامپت‌ها مانند «سند مشخصات تست» برخورد کنند. این یعنی تعریف ورودی‌های شفاف، خروجی‌های مورد انتظار، لبه‌های خطا و نسخه‌بندی (Versioning). ابزارهای مورد استفاده شامل Anthropic Console، OpenAI Playground و LangSmith است.
APIهای LLM در کد (روز ۱۰-۱۱): نقشه راه شامل فراخوانی مدل‌ها، استریم پاسخ‌ها (Streaming responses)، پیاده‌سازی تلاش‌های مجدد (Retries) و استفاده از فراخوانی ابزار/تابع (Tool/Function Calling) است. هدف این است که غرایز قابلیت اطمینان بر روی این فراخوانی‌ها با استفاده از Claude، OpenAI، Gemini و Groq پیاده شوند.
تولید بازیابی‌افزا (RAG) (روز ۱۲-۱۵): تسترها الگوی پشت اکثر محصولات مفید AI را می‌آموزند: تکه‌تکه کردن (Chunking)، تبدیل به بردار (Embedding)، بازیابی (Retrieving) و پاسخگویی بر اساس مستندات سفارشی. ابزارهای ذکر شده LangChain، LlamaIndex و Unstructured هستند.

نقشه راه ۳۰ روزه SDT هوش مصنوعی مولد: راهنمای گام‌به‌گام برای تسترها

هفته سوم: سامانه‌های پیشرفته و عامل‌ها (روز ۱۶ تا ۲۳)

پایگاه‌داده‌های برداری (روز ۱۶-۱۷): این مرحله شامل ذخیره‌سازی و جست‌وجوی بردارها در مقیاس بالا است. تسترها جست‌وجوی شباهت (Similarity Search) و فیلترهای متاداده را مطالعه می‌کنند و می‌سنجند که چه زمانی یک فایل ساده ممکن است از یک پایگاه‌داده بهتر عمل کند. ابزارها شامل Chroma، Pinecone، Qdrant و pgvector هستند.
عامل‌های AI و چارچوب‌ها (روز ۱۸-۲۰): تمرکز بر این است که به مدل‌ها اجازه داده شود برنامه‌ریزی کنند، ابزارها را فراخوانی کنند و وظایف را در حلقه‌های تکرار اجرا کنند. بخش حیاتی این است که یاد بگیرند چگونه عامل‌ها را «روی ریل» (On rails) نگه دارند تا منحرف نشوند؛ با استفاده از LangGraph، CrewAI یا AutoGen.
پروتکل زمینه مدل (MCP) (روز ۲۱-۲۳): تسترها MCP را بررسی می‌کنند که یک استاندارد باز برای اتصال مدل‌ها به ابزارها و داده‌ها است. هدف، ساخت یک سرور MCP با استفاده از MCP SDK، Claude و سرورهای ابزاری مختلف است.

نقشه راه ۳۰ روزه SDET GenAI برای تسترها: از صفر تا پیشرفته

هفته چهارم: ارزیابی و استقرار (روز ۲۴ تا ۳۰)

بازه نهایی بر «ابر-قدرت» SDETها تمرکز دارد: اثبات اینکه سیستم پیش از عرضه، درست رفتار می‌کند و ایمن است.

تست و ارزیابی LLM (روز ۲۴-۲۷): این پرتقاضاترین مهارت GenAI است. تسترها مجموعه‌های ارزیابی (Eval Sets) می‌سازند، به خروجی‌ها نمره می‌دهند، رگرسیون‌ها را شناسایی می‌کنند و برای ایمنی، عملیات تیم قرمز (Red-teaming) را انجام می‌دهند. جعبه‌ابزار این مرحله شامل Ragas، DeepEval، promptfoo و Giskard است.
استقرار پروژه (روز ۲۸-۳۰): این انتقال با قرار دادن یک پروژه در قالب API و UI، کانتینریزه کردن آن با Docker و انتشار یک لینک عمومی به پایان می‌رسد. ابزارها شامل FastAPI، Streamlit، Docker و HF Spaces هستند. در این مسیر، استفاده از ابزارهایی مانند Genkit گوگل می‌تواند به مهندسان کمک کند تا فاصله میان یک دموی ساده و یک محیط عملیاتی واقعی را سریع‌تر پر کنند. این راهنما تأکید می‌کند که یک دمو زنده، از ده‌ها گواهینامه ارزشمندتر است.

نقشه راه ۳۰ روزه SDET GenAI برای تسترها: از صفر تا پیشرفته

پل مهارت‌ها: نگاشت تست به AI

این انتقال در واقع یک تبدیل و نگاشت مستقیم مهارت‌های موجود به نیازهای جدید AI است:

طراحی مورد تست (ورودی‌ها، خروجی‌ها، مرزها) $\rightarrow$ تبدیل می‌شود به طراحی مجموعه داده ارزیابی (سوالات طلایی و معیارهای نمره‌دهی).
تست رگرسیون $\rightarrow$ تبدیل می‌شود به نمره‌دهی رگرسیون مدل و پرامپت.
عیب‌یابی تست‌های ناپایدار (Flaky) (ناشی از غیرقطعی بودن) $\rightarrow$ تبدیل می‌شود به مدیریت واریانس LLM (مدیریت دما و آمار نرخ موفقیت/Pass-rate).

نقشه راه ۳۰ روزه SDET GenAI برای تسترها: گام‌به‌گام تا هوش مصنوعی تولیدی

استراتژی پورتفولیو و رشد شغلی

دستیار پرسش‌وپاسخ اسناد (RAG): یک چت‌بات که یک کدبیس یا دفترچه راهنما را مدیریت می‌کند، دارای نقل‌قول‌های دقیق و یک ارزیابی دقت کوچک برای اثبات کارکرد.
هارنس رگرسیون پرامپت (Prompt Regression Harness): یک ابزار CLI که نسخه‌های مختلف پرامپت را در برابر یک «مجموعه طلایی» نمره‌دهی می‌کند و اگر رگرسیونی شناسایی شود، به‌طور خودکار بیلد (Build) را رد می‌کند. این پروژه تجسم کامل «انرژی خالص یک SDET» است.
عامل دسته‌بندی خودکار (Triage Agent): عاملی که گزارش‌های باگ را می‌خواند، شدت (Severity) را برچسب می‌زند و پیش‌نویس بازتولید باگ را آماده می‌کند، در حالی که همگی توسط حفاظ‌های (Guardrails) سفارشی کنترل می‌شوند.

جعبه‌ابزار جامع

برای اجرای این نقشه راه، ابزارهای زیر در چرخه حیات پروژه توصیه می‌شوند:

زیربنا: Python, uv, pytest, Jupyter
مدل‌ها و APIها: Claude, OpenAI, Gemini, Ollama
ارکستراسیون: LangChain, LlamaIndex, LangGraph, MCP
برداری و بازیابی: Chroma, Pinecone, Qdrant, pgvector
ارزیابی: Ragas, DeepEval, promptfoo, Giskard
انتشار: FastAPI, Streamlit, Docker, HF Spaces

منابع یادگیری و آموزش

برای کسانی که به دنبال دانشی عمیق‌تر از نقشه راه روزانه هستند، منابع رایگان زیر توصیه شده است:

Neural Networks: Zero to Hero — دوره ویدئویی رایگان آندره کارپاتی.
3Blue1Brown — سری ویدئوهای بصری درباره شبکه‌های عصبی و ترنسفورمرها.
Hugging Face LLM Course & docs — مستندات به‌روز و کاربردی.
«Attention Is All You Need» (Vaswani et al., 2017) — مقاله بنیادین ترنسفورمر.
مستندات ارائه‌دهندگان — راهنماهای رسمی Anthropic، OpenAI و Google.
راهنماهای ارزیابی — مستندات شروع سریع для Ragas، DeepEval و promptfoo.

گام بعدی شما

ابزار promptfoo را برای تست مقایسه‌ای نسخه‌های مختلف پرامپت‌های خود امتحان کنید.
یک سیستم RAG ساده ۴۰ خطی روی یک PDF تخصصی پیاده‌سازی کنید تا قدرت بازیابی داده را بسنجید.
روی ساخت یک «هارنس رگرسیون پرامپت» تمرکز کنید؛ چرا که این دقیقاً همان چیزی است که مدیران AI برای تضمین کیفیت می‌خواهند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«ارزیابی مدل‌های زاینده»؛ کلید تغییر مسیر مهندسان تست به AI

مزیت SDETها

متدولوژی ۳۰ روزه

هفته اول: تثبیت زیربنا (روز ۱ تا ۷)

هفته دوم: پیاده‌سازی هسته GenAI (روز ۸ تا ۱۵)

هفته سوم: سامانه‌های پیشرفته و عامل‌ها (روز ۱۶ تا ۲۳)

هفته چهارم: ارزیابی و استقرار (روز ۲۴ تا ۳۰)

پل مهارت‌ها: نگاشت تست به AI

استراتژی پورتفولیو و رشد شغلی

جعبه‌ابزار جامع

منابع یادگیری و آموزش

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«ارزیابی مدل‌های زاینده»؛ کلید تغییر مسیر مهندسان تست به AI

مزیت SDETها

متدولوژی ۳۰ روزه

هفته اول: تثبیت زیربنا (روز ۱ تا ۷)

هفته دوم: پیاده‌سازی هسته GenAI (روز ۸ تا ۱۵)

هفته سوم: سامانه‌های پیشرفته و عامل‌ها (روز ۱۶ تا ۲۳)

هفته چهارم: ارزیابی و استقرار (روز ۲۴ تا ۳۰)

پل مهارت‌ها: نگاشت تست به AI

استراتژی پورتفولیو و رشد شغلی

جعبه‌ابزار جامع

منابع یادگیری و آموزش

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«ارزیابی مدل‌های زاینده»؛ کلید تغییر مسیر مهندسان تست به AI

مزیت SDETها

متدولوژی ۳۰ روزه

هفته اول: تثبیت زیربنا (روز ۱ تا ۷)

هفته دوم: پیاده‌سازی هسته GenAI (روز ۸ تا ۱۵)

هفته سوم: سامانه‌های پیشرفته و عامل‌ها (روز ۱۶ تا ۲۳)

هفته چهارم: ارزیابی و استقرار (روز ۲۴ تا ۳۰)

پل مهارت‌ها: نگاشت تست به AI

استراتژی پورتفولیو و رشد شغلی

جعبه‌ابزار جامع

منابع یادگیری و آموزش

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«ارزیابی مدل‌های زاینده»؛ کلید تغییر مسیر مهندسان تست به AI

مزیت SDETها

متدولوژی ۳۰ روزه

هفته اول: تثبیت زیربنا (روز ۱ تا ۷)

هفته دوم: پیاده‌سازی هسته GenAI (روز ۸ تا ۱۵)

هفته سوم: سامانه‌های پیشرفته و عامل‌ها (روز ۱۶ تا ۲۳)

هفته چهارم: ارزیابی و استقرار (روز ۲۴ تا ۳۰)

پل مهارت‌ها: نگاشت تست به AI

استراتژی پورتفولیو و رشد شغلی

جعبه‌ابزار جامع

منابع یادگیری و آموزش

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران