Как искусственный интеллект может идентифицировать людей даже в анонимизированных массивах данных
То, как вы взаимодействуете с толпой, может помочь вам выделиться из нее, по крайней мере для искусственного интеллекта.
Получив информацию о взаимодействии целевого человека с мобильным телефоном, а также о взаимодействии его контактов, искусственный интеллект может правильно выбрать цель из более чем 40 000 анонимных абонентов мобильной связи более чем в половине случаев, сообщают исследователи 25 января в журнале Nature Communications. Полученные данные свидетельствуют о том, что люди социализируются таким образом, что их можно использовать для выделения из наборов данных, которые якобы анонимизированы.
Не удивительно, что люди стремятся оставаться в рамках устоявшихся социальных кругов и что эти регулярные взаимодействия формируют устойчивую модель со временем, говорит Джайдип Шривастава, компьютерный ученый из Университета Миннесоты в Миннеаполисе, который не принимал участия в исследовании. «Но тот факт, что вы можете использовать этот шаблон для идентификации личности, является удивительным»
Согласно Общему положению о защите данных Европейского союза и Калифорнийскому закону о конфиденциальности потребителей, компании, которые собирают информацию о повседневном взаимодействии людей, могут передавать или продавать эти данные без согласия пользователей. Загвоздка в том, что данные должны быть анонимизированы. Некоторые организации могут предположить, что они могут соответствовать этому стандарту, давая пользователям псевдонимы, говорит Ив-Александр де Монтжойе, исследователь вычислительной конфиденциальности в Имперском колледже Лондона. «Наши результаты показывают, что это не так»
Де Монтджойе и его коллеги выдвинули гипотезу о том, что социальное поведение людей можно использовать для выделения их из массивов данных, содержащих информацию о взаимодействии анонимных пользователей. Чтобы проверить свою гипотезу, исследователи научили искусственную нейронную сеть — ИИ, который имитирует нейронную схему биологического мозга — распознавать закономерности в еженедельных социальных взаимодействиях пользователей.
Для одного из тестов исследователи обучили нейронную сеть, используя данные неизвестной службы мобильной связи, в которых подробно описывались взаимодействия 43 606 абонентов в течение 14 недель. Эти данные включали дату, время, продолжительность, тип взаимодействия (звонок или текст), псевдонимы участвующих сторон и инициатора общения.
В одном из тестов нейронная сеть была обучена на данных, полученных от неизвестного сервиса мобильной связи.
Данные о взаимодействии каждого пользователя были организованы в веб-структуре данных, состоящие из узлов, представляющих пользователя и его контакты. Строки с данными о взаимодействии соединяли узлы. ИИ показывали паутину взаимодействия известного человека, а затем давали команду искать в анонимизированных данных паутину, которая имела бы наибольшее сходство.
Нейронная сеть связала всего 14,7% людей с их анонимными личностями, когда ей показали сети взаимодействия, содержащие информацию о телефонных контактах объекта, которые произошли через неделю после последних записей в анонимном наборе данных. Но он идентифицировал 52,4% людей, когда ему была предоставлена информация не только о взаимодействиях объекта, но и о взаимодействиях его контактов. Когда исследователи предоставили ИИ данные о взаимодействии цели и контактов, собранные через 20 недель после анонимного набора данных, ИИ по-прежнему правильно определял пользователей в 24,3% случаев, что говорит о том, что социальное поведение остается идентифицируемым в течение длительного периода времени.
Чтобы проверить, может ли ИИ профилировать социальное поведение в других местах, исследователи протестировали его на наборе данных, состоящем из четырех недель данных о близком соседстве с мобильных телефонов 587 анонимных студентов университета, собранных исследователями в Копенгагене. Эти данные включали данные о взаимодействии, состоящие из псевдонимов студентов, времени встречи и силе принимаемого сигнала, который указывал на близость к другим студентам. Эти метрики часто собираются приложениями для отслеживания контактов COVID-19. Получив цель и данные о взаимодействии ее контактов, ИИ правильно определил студентов в наборе данных в 26,4% случаев.
Выводы, отмечают исследователи, вероятно, не применимы к протоколам отслеживания контактов Google и системе уведомлений Exposure Notification от Apple, которая защищает конфиденциальность пользователей, шифруя все метаданные Bluetooth и запрещая сбор данных о местоположении.
Де Монтджойе говорит, что надеется, что исследование поможет разработчикам усовершенствовать стратегии защиты личности пользователей. По его словам, законы о защите данных позволяют обмениваться анонимизированными данными для поддержки полезных исследований. «Однако для того, чтобы это работало, необходимо убедиться, что анонимизация действительно защищает частную жизнь людей»
.