درون شکست تجربه پیش‌بینی جرم با هوش مصنوعی در بریتانیا

تصور کنید یک سیستم کامپیوتری تصمیم بگیرد شما را «مجرم احتمالی» شناس کند، در حالی که احتمال خطای این سیستم ۹۰ درصد است. این کابوس برای هزاران نفر در بریستول انگلیس به واقعیت تبدیل شد.

طبق گزارش مفصل وایرد (WIRED) که در ۲۵ ژوئن ۲۰۲۶ منتشر شد، پلیس آون و سامرست (Avon and Somerset Police) تلاش کرد پیش‌بینی جرم را به‌طور کامل خودکار کند. این سازوکار که در دوران کاهش شدید بودجه‌ها و فشار برای یافتن «راهکار سریع» به راه افتاد، منجر به ایجاد ۲۳ مدل مختلف برای پیش‌بینی هر چیزی، از سرقت منزل تا خشونت خانگی شد.

در سال ۲۰۱۴، زمانی که بودجه‌ها کاهش یافته بود و گزارش‌های رسمی شکست پلیس در حمایت از قربانیان خشونت خانگی را فاش می‌کرد، رئیس بخش عملکرد این نیرو ادعا کرد: «ما باور داریم تحلیل‌های پیش‌بینانه تنها راهکار است». همان‌طور که در تحلیل‌های پیشین ما درباره‌ی سوگیری الگوریتم‌ها در سامانه‌های قضایی اشاره کردیم، جایگزین کردن قضاوت انسانی با اعداد، اغلب به جای دقت، منجر به تقویت پیش‌فرض‌های غلط می‌شود.

در قلب این پروژه، پایگاه داده خانواده را تفکر کن (Think Family Database) قرار داشت که در سال ۲۰۱۶ راه‌اندازی شد. این سیستم داده‌های حساس را از شورای شهر بریستول و پلیس جمع می‌کرد؛ داده‌هایی شبیه به یک پرونده کامل از زندگی هر فرد: از سوابق سلامت روان و وضعیت مسکن تا ثبت بارداری‌های نوجوانان و حتی تعداد غیبت‌های دانش‌آموزان از مدرسه.

مقامات برای دور زدن رضایت شهروندان از «درگاه‌های قانونی» استفاده کردند. گری دیویس، رئیس سابق تیم Insight Bristol، ادعا می‌کرد درخواست رضایت، توهمی از آزادی است چون پلیس طبق قانون موظف است این سوابق را نگه دارد. در واقع، این سیستم مانند یک شبکه ماهیگیری بزرگ بود که هر کسی را که ویژگی‌های «ریسک‌پذیر» داشت، بدون اطلاع خودش در تله می‌انداخت.

در مارس ۲۰۱۶، کمیته اخلاق پلیس هشدار داد که متغیرهای مورد استفاده باید با دقت بررسی شوند تا سوگیری (Bias) ایجاد نشود. آن‌ها تأکید کردند که مردم باید بدانند این فرآیند چگونه کار می‌کند. اما در عمل، آنچه رخ داد چیزی دور از این هشدارها بود.

برای تبدیل این داده‌ها به اطلاعات عملیاتی، یک دانشمند داده از یادگیری ماشین (Machine Learning) — که شبیه به یادگیری یک کودک از طریق تکرار الگوهاست، اما در مقیاس میلیاردها داده — استفاده کرد تا به هزاران کودک و بزرگسال امتیاز ریسک بدهد. این متخصص در یک رویداد در سال ۲۰۲۲، روند کار را این‌گونه توصیف کرد: «همه داده‌ها را در یک سطل بزرگ ریختیم و با یک کفکِ علم‌داده آن‌ها را هم زدیم تا برای هر کسی یک امتیاز ریسک جذاب به‌دست بیاید».

اما نتایج فاجعه‌بار بود. دو مدل اصلی برای شناسایی استثمار جنسی کودکان (CSE) و استثمار کیفری کودکان (CCE) تا ژوئن ۲۰۲۳ به‌طور کامل کنار گذاشته شدند. کارکنان گزارش دادند که این ابزارها برای استفاده عملیاتی «نامناسب» هستند.

در ارتباطات داخلی پلیس فاش شد که مدل CSE چنان نقص داشت که قربانیان اخیر جرایم جنسی، امتیاز ریسک پایین‌تری نسبت به کسانی داشتند که سابقه سرقت داشتند. این یعنی سیستم حتی نمی‌توانست بین قربانی و متهم تفاوت بگذارد.

پلیس بریتانیا یک ماشین پیش‌بینی جرم گسترده ساخت؛ برخی نتایج قابل اعتماد نبود

دلیل این افت شدید دقت، تغییر منابع داده بود. مدل در ابتدا از داده‌های محرمانه مؤسسه Barnardos استفاده می‌کرد. اما وقتی پلیس خواست مدل را در کل منطقه گسترش دهد و توافق‌نامه‌های اشتراک داده با سایر شوراهای شهر شکست خورد، آن‌ها داده‌های حساس اجتماعی را حذف کردند و فقط به سوابق پلیس تکیه کردند. نتیجه این شد که کودکان آسیب‌پذیر دیگر در نتایج ظاهر نمی‌شدند و کارکنان به دلیل کیفیت پایین خروجی، بررسی لیست‌های تولید شده را متوقف کردند.

شرکت حسابرسی هوش مصنوعی اتیکاس (Eticas) پس از بررسی ۳۶ هزار امتیاز عملکرد، نتایجی تکان‌دهنده ارائه داد. اکثر مدل‌ها دقت (Precision) — یعنی توانایی مدل در شناسایی درست موارد مثبت بدون خطا — بسیار پایینی داشتند. در حالی که در کاربردهای تخصصی‌تر، دسترسی به مدل‌های بهینه‌شده نتایج متفاوتی دارد؛ برای نمونه مدل YOLO26x در پایش حیات وحش توانست به دقت خیره‌کننده ۹۸.۴ درصد برسد که تفاوت فاحشی با نرخ خطای مدل‌های پلیس دارد.

یافته‌های کلیدی اتیکاس عبارتند از:

مدل پیش‌بینی سرقت برای بیش از سه سال، دقت زیر ۱۰٪ داشت؛ یعنی از هر ۱۰ نفری که «پرخطر» تشخیص داده می‌شدند، کمتر از یک نفر واقعاً جرم می‌کرد.
معیارهای عملکرد مدل‌ها به‌طور غیرعادی نوسان داشت که نشانه نبود مدیریت فنی است.
اپلیکیشن مدیریت مجرمان تنها یک نفر از هر سه مجرم واقعی را درست پیش‌بینی می‌کرد.

پلیس همچنین اپلیکیشن مدیریت مجرمین را توسعه داد تا داده‌های ۳۰۰ هزار نفر را ذخیره کند. یک افسر ارشد این ابزار را «جدول رده‌بندی» خطرناک‌ترین مجرمان منطقه نامید. جان پگرام، یکی از شهروندان، تا سال ۲۰۲۳ از وجود این اپلیکیشن خبر نداشت. او که مردی دورگه است و در نوجوانی ده‌ها بار توسط پلیس متوقف شده بود، پس از تلاش وکیلش در سال ۲۰۲۴ متوجه شد در این لیست است، اما پلیس هرگز دلیل امتیاز او را توضیح نداد.

پژوهشگران دانشگاه Royal Holloway این وضعیت را «خزش عملکرد» (Function Creep) نامیدند؛ وضعیتی که در آن یک سیستم برای هدف کوچکی ساخته می‌شود اما به‌تدریج و بدون نظارت، دایره نفوذش را گسترش می‌دهد. در سال ۲۰۲۱، مرکز اخلاق و نوآوری داده هشدار داد که «قانونی بودن» یک اقدام به معنای «مشروع بودن» آن نیست.

بررسی‌های سازمان Social Finance نیز حفره‌های عمیقی را در مستندات پروژه یافت:

کدهای گم‌شده: کدهای منبع (Source Code) و متغیرهای مدل‌ها پیدا نشدند و ارزیابی کامل غیرممکن شد.
نبود مستندات: پروفسور راب پراکتر اشاره کرد که فرآیند ساخت مدل‌ها هیچ جزئیات کافی برای بازبینی نداشت.
بررسی‌های سطحی: پلیس تنها یک عکس از اپلیکیشنی ارائه داد که میانگین ریسک سفیدپوستان و رنگین‌پوستان را مقایسه می‌کرد؛ اتیکاس این کار را یک «حذف بزرگ» نامید چون مقایسه میانگین، هرگز جایگزین تست اثرات تبعیض‌آمیز نمی‌شود.

پروفسور دبی واتسون از دانشگاه بریستول هشدار داد که این مدل‌ها آسیب‌های تاریخی جبران‌ناپذیری به جوانان وارد کرده‌اند. خطر «مثبت کاذب» (False Positive) — یعنی وقتی سیستم به اشتباه کسی را مجرم می‌شناسد — می‌تواند زندگی یک خانواده را ویران کند.

با وجود تمام این شکست‌ها، فشار برای تزریق هوش مصنوعی به پلیس بریتانیا بیشتر شده است. اندی مارش، مدیرعامل فعلی کالج پلیسینگ، معتقد است هوش مصنوعی باید «مثل هروئین» به رگ‌های پلیس تزریق شود و ابزارهای موفق باید «مثل آتش در جنگل» در کل سیستم پخش شوند.

دولت بریتانیا اخیراً سازمان PoliceAI را با بودجه ۷۵ میلیون پوندی تأسیس کرد تا ابزارهای هوش مصنوعی را در ۴۳ نیروی پلیس مستقر کند. سارا جونز، وزیر مربوطه، این روند را «آینده پلیسینگ» نامید.

خطر اصلی در این مسیر، فرسایش قضاوت انسانی است. وقتی یک افسر پلیس می‌بیند کامپیوتر کسی را «پرخطر» شناسایی کرده، دیگر از عقل و تجربه خود استفاده نمی‌کند. برای شهروندان، این یعنی «جعبه سیاه» سوءظن الگوریتمی در حال گسترش است و خطای فنی مدل، مستقیماً به نقض حقوق شهری تبدیل می‌شود.

گام بعدی شما

بررسی گزارش‌های سازمان‌های نظارتی بر حریم خصوصی (مثل ICO) در مورد استفاده از داده‌های حساس در مدل‌های پیش‌بینانه
مطالعه تفاوت بین «دقت» (Precision) و «فراخوان» (Recall) برای درک اینکه چرا مدل‌های پلیس شکست خوردند
دنبال کردن شکایت قانونی جان پگرام که احتمالاً منجر به بازبینی قضایی در نحوه امتیازدهی شهروندان توسط پلیس بریتانیا می‌شود

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

پلیس بریتانیا یک ماشین پیش‌بینی جرم گسترده ساخت؛ برخی نتایج قابل اعتماد نبود

یافته‌های کلیدی اتیکاس عبارتند از:

مدل پیش‌بینی سرقت برای بیش از سه سال، دقت زیر ۱۰٪ داشت؛ یعنی از هر ۱۰ نفری که «پرخطر» تشخیص داده می‌شدند، کمتر از یک نفر واقعاً جرم می‌کرد.
معیارهای عملکرد مدل‌ها به‌طور غیرعادی نوسان داشت که نشانه نبود مدیریت فنی است.
اپلیکیشن مدیریت مجرمان تنها یک نفر از هر سه مجرم واقعی را درست پیش‌بینی می‌کرد.

بررسی‌های سازمان Social Finance نیز حفره‌های عمیقی را در مستندات پروژه یافت:

کدهای گم‌شده: کدهای منبع (Source Code) و متغیرهای مدل‌ها پیدا نشدند و ارزیابی کامل غیرممکن شد.
نبود مستندات: پروفسور راب پراکتر اشاره کرد که فرآیند ساخت مدل‌ها هیچ جزئیات کافی برای بازبینی نداشت.
بررسی‌های سطحی: پلیس تنها یک عکس از اپلیکیشنی ارائه داد که میانگین ریسک سفیدپوستان و رنگین‌پوستان را مقایسه می‌کرد؛ اتیکاس این کار را یک «حذف بزرگ» نامید چون مقایسه میانگین، هرگز جایگزین تست اثرات تبعیض‌آمیز نمی‌شود.

گام بعدی شما

بررسی گزارش‌های سازمان‌های نظارتی بر حریم خصوصی (مثل ICO) در مورد استفاده از داده‌های حساس در مدل‌های پیش‌بینانه
مطالعه تفاوت بین «دقت» (Precision) و «فراخوان» (Recall) برای درک اینکه چرا مدل‌های پلیس شکست خوردند
دنبال کردن شکایت قانونی جان پگرام که احتمالاً منجر به بازبینی قضایی در نحوه امتیازدهی شهروندان توسط پلیس بریتانیا می‌شود

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون شکست تجربه پیش‌بینی جرم با هوش مصنوعی در بریتانیا

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون شکست تجربه پیش‌بینی جرم با هوش مصنوعی در بریتانیا

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون شکست تجربه پیش‌بینی جرم با هوش مصنوعی در بریتانیا

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون شکست تجربه پیش‌بینی جرم با هوش مصنوعی در بریتانیا

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران