Искусственный интеллект сейчас, по большому счету, везде. В любой отрасли нам говорят о том, что в ней используются нейросети, машинное обучение и другие направления ИИ. Не стали исключением и системы, связанные с обработкой персональных данных пользователей. В этой статье мы поговорим о том, как связаны искусственный интеллект и защита персональных данных.
На этапе использования модель уже должна быть обучена и должна уметь отличать нужные изображения или анализировать текст нужным образом.
Совершенно очевидно, что для успешного выполнения обоих шагов ключевым элементом являются данные. Этими входными данными являются миллионы изображений, на которых обучается нейросеть или тысячи страниц текста.
При этом важно понимать, что без «пылесосов данных» не обходится ни одна мощная нейросеть, так как для ее обучения необходимы поистине огромные объемы данных.
И здесь как раз возникают вопросы из области персональных данных.
Но что делать в случае, когда персональные данные по той или иной причине попадают к системам, использующим ИИ? Ограничение по назначению гласит, что субъекты данных должны быть проинформированы о целях сбора и обработки данных. Это позволяет субъектам выбирать, давать ли на это согласие. Тем не менее, системы машинного обучения иногда используют информацию, которая является побочным продуктом исходных данных (например, используя данные социальных сетей для расчета пользовательской метрики). И в результате становится возможной скрытая или косвенная обработка персональных данных, например получение информации о пользователях тех самых социальных сетей, где нейросеть анализировала метрики.
Отдельная история — это анализ изображений. По идее, изображения, а точнее фотографии, на которых изображены люди, не должны позволять идентифицировать этих субъектов без их согласия. Однако, на практике ИИ можно обучить таким образом, что он сможет достаточно точно угадывать, кто изображен на фотографии, позволяя тем самым идентифицировать субъектов персональных данных.
Кроме того, системы искусственного интеллекта представляют собой черный ящик, причем не только для тех, кто их использует, но и для самих разработчиков, которые конечно могут подкрутить в алгоритмах некоторые параметры. Но в целом те же нейросети сами пишут свои алгоритмы во время обучения, поэтому то, как они принимают решения, — часто это загадка даже для разработчиков.
Также среди рисков использования ИИ во многих, особенно англоязычных публикациях, указывается дискриминация. Алгоритмы машинного обучения могут строить свои стереотипы на основе каких-либо черт человека, чаще всего пола, расы и возраста. Если на основе данных алгоритмов автоматически принимаются решения о выдаче кредита или приеме на работу, то это может приводить к дискриминации. То есть, решения принимаются не на основе объективных данных, а на основе искаженных представлений, то есть изначально некорректного обучения нейросети.
Субъекты персональных данных в праве сами решать, какие из их данных будут использоваться операторами. Это означает, что оператор должен открыто и прозрачно объяснять, зачем он собирает эти данные и что собирается с ними делать. Как уже упоминалось, искусственный интеллект — это "черный ящик", и не всегда понятно, как модель принимает решения, особенно в сложных приложениях.
В настоящее время в области ML наблюдается тенденция к более эффективному использованию меньшего количества данных. GAN уменьшает потребность в обучающих данных, используя выходные данные для генерации входных данных. Другими словами, входные данные используются для определения того, как будут выглядеть выходные данные.
В этом методе используются две нейронные сети — “генератор” и “дискриминатор”. Генератор учится объединять данные, чтобы генерировать изображение, похожее на выходные данные, в то время как дискриминатор учится определять разницу между реальными данными и искусственно сгенерированными данными. Недостатком, однако, является то, что GAN не устраняют необходимость в обучении, поскольку для надлежащего обучения требуется много данных. Однако, с помощью этого метода мы можем снизить объем необходимых персональных данных для работы алгоритма.
Хотя интегрированное обучение позволяет избежать некоторых проблем, связанных с персональными данными, модель ML, обученная на местном уровне, будет сталкиваться с большими ограничениями, чем модели ML, обученные в специальной системе.
Но важно понимать, что идеального решения проблем, связанных с защитой персданных, не существует. Представленные методы обучения имеют ряд ограничений, которые необходимо учитывать при проектировании.
Риски при обработке данных ИИ
Работа алгоритмов искусственного интеллекта состоит из двух основных этапов: обучения и использования. На этапе обучения алгоритмы искусственного интеллекта обучаются на специальных наборах данных, что позволяет им выявлять закономерности и связи между различными точками данных. На этом этапе, по сути, нейросети обучаются распознавать необходимые сущности, будь то изображения на фото или анализ текстов.На этапе использования модель уже должна быть обучена и должна уметь отличать нужные изображения или анализировать текст нужным образом.
Совершенно очевидно, что для успешного выполнения обоих шагов ключевым элементом являются данные. Этими входными данными являются миллионы изображений, на которых обучается нейросеть или тысячи страниц текста.
При этом важно понимать, что без «пылесосов данных» не обходится ни одна мощная нейросеть, так как для ее обучения необходимы поистине огромные объемы данных.
И здесь как раз возникают вопросы из области персональных данных.
Ограничения при обработке ПДн
Нормативные акты в области защиты персональных данных накладывают определенные требования к обработке ПДн. У нас должно быть получено согласие субъекта на обработку его персональных данных. Также должны быть четко определены цели обработки и сроки. Все это неплохо работает, когда у нас есть какое-то приложение или база данных клиентов, партнеров, сотрудников, и мы обеспечиваем обработку данных в этой системе.Но что делать в случае, когда персональные данные по той или иной причине попадают к системам, использующим ИИ? Ограничение по назначению гласит, что субъекты данных должны быть проинформированы о целях сбора и обработки данных. Это позволяет субъектам выбирать, давать ли на это согласие. Тем не менее, системы машинного обучения иногда используют информацию, которая является побочным продуктом исходных данных (например, используя данные социальных сетей для расчета пользовательской метрики). И в результате становится возможной скрытая или косвенная обработка персональных данных, например получение информации о пользователях тех самых социальных сетей, где нейросеть анализировала метрики.
Отдельная история — это анализ изображений. По идее, изображения, а точнее фотографии, на которых изображены люди, не должны позволять идентифицировать этих субъектов без их согласия. Однако, на практике ИИ можно обучить таким образом, что он сможет достаточно точно угадывать, кто изображен на фотографии, позволяя тем самым идентифицировать субъектов персональных данных.
Основные риски
Различные системы искусственного интеллекта используют данные для оценки определённых качеств человека, таких как производительность труда, его состояние здоровья, личных предпочтений и так далее. Для каких целей затем могут использоваться собранные данные — это большой вопрос, вполне возможно, что их могут использовать как госструктуры и спецслужбы, так и различные коммерческие организации, например, банки, маркетинговые агентства и другие. Ну и не стоит сбрасывать со счетов криминал. Продвинутые мошенники вполне могут воспользоваться результатами работы ИИ в случае получения доступа к ним.Кроме того, системы искусственного интеллекта представляют собой черный ящик, причем не только для тех, кто их использует, но и для самих разработчиков, которые конечно могут подкрутить в алгоритмах некоторые параметры. Но в целом те же нейросети сами пишут свои алгоритмы во время обучения, поэтому то, как они принимают решения, — часто это загадка даже для разработчиков.
Также среди рисков использования ИИ во многих, особенно англоязычных публикациях, указывается дискриминация. Алгоритмы машинного обучения могут строить свои стереотипы на основе каких-либо черт человека, чаще всего пола, расы и возраста. Если на основе данных алгоритмов автоматически принимаются решения о выдаче кредита или приеме на работу, то это может приводить к дискриминации. То есть, решения принимаются не на основе объективных данных, а на основе искаженных представлений, то есть изначально некорректного обучения нейросети.
Как можно защититься
Прежде всего, необходимо свести объем обрабатываемых данных к минимуму. При разработке алгоритмов обучения ИИ инженеры должны определить, какие данные и в каком количестве необходимы для выполнения задачи. Важно обрабатывать только минимально необходимый объем персональных данных, при этом максимально обезличивая ту информацию, которая не требует обработки как ПДн.Субъекты персональных данных в праве сами решать, какие из их данных будут использоваться операторами. Это означает, что оператор должен открыто и прозрачно объяснять, зачем он собирает эти данные и что собирается с ними делать. Как уже упоминалось, искусственный интеллект — это "черный ящик", и не всегда понятно, как модель принимает решения, особенно в сложных приложениях.
Порождающие состязательные сети
В качестве одного из алгоритмов при работе с персональными данными в ML можно использовать порождающие состязательные сети (GAN).В настоящее время в области ML наблюдается тенденция к более эффективному использованию меньшего количества данных. GAN уменьшает потребность в обучающих данных, используя выходные данные для генерации входных данных. Другими словами, входные данные используются для определения того, как будут выглядеть выходные данные.
В этом методе используются две нейронные сети — “генератор” и “дискриминатор”. Генератор учится объединять данные, чтобы генерировать изображение, похожее на выходные данные, в то время как дискриминатор учится определять разницу между реальными данными и искусственно сгенерированными данными. Недостатком, однако, является то, что GAN не устраняют необходимость в обучении, поскольку для надлежащего обучения требуется много данных. Однако, с помощью этого метода мы можем снизить объем необходимых персональных данных для работы алгоритма.
Федеративное обучение
При федеративном обучении используются персональные данные, но они фактически не покидают систему, в которой хранятся. Они никогда не собираются и не загружаются в серверную часть систем искусственного интеллекта или ML. Вместо этого модель обучается локально в системе, где существуют данные, и позже, в процессе разработки, объединяется с основной моделью.Хотя интегрированное обучение позволяет избежать некоторых проблем, связанных с персональными данными, модель ML, обученная на местном уровне, будет сталкиваться с большими ограничениями, чем модели ML, обученные в специальной системе.
Заключение
Мы рассмотрели основные проблемы, связанные с использованием искусственного интеллекта при работе с персональными данными. Конечно, некоторые из представленных проблем присущи не только персданным, но и любой обрабатываемой ИИ информации.Но важно понимать, что идеального решения проблем, связанных с защитой персданных, не существует. Представленные методы обучения имеют ряд ограничений, которые необходимо учитывать при проектировании.
Проблемы защиты персональных данных в мире искусственного интеллекта
Искусственный интеллект сейчас, по большому счету, везде. В любой отрасли нам говорят о том, что в ней используются нейросети, машинное обучение и другие направления ИИ. Не стали исключением и...
habr.com