ИИ знает о вас ВСЁ: сканы документов, адреса и фото миллионов людей утекают в сеть!

Утечка конфиденциальной информации в открытых наборах данных для генеративных моделей

Новое исследование выявило масштабную проблему с утечкой конфиденциальной информации в одном из крупнейших открытых наборов данных для обучения генеративных моделей — DataComp CommonPool. Несмотря на позиционирование ресурса как инструмента для научных целей, в его составе были обнаружены миллионы изображений, содержащих персональные сведения, включая сканы паспортов, банковских карт, свидетельств о рождении и других официальных документов.

Анализ затронул лишь малую часть всей базы — 0,1% от общего объёма, но даже в этой ограниченной выборке были найдены тысячи материалов, способных однозначно идентифицировать личность: лица, удостоверения, резюме, сопроводительные письма. Многие из них включали данные о здоровье, биографические сведения, информацию о родственниках и иждивенцах. Связывая такие документы с онлайн-профилями, исследователи получали доступ к контактным данным, государственным идентификаторам, фотографиям и домашним адресам как самих авторов, так и третьих лиц — например, рекомендателей.

DataComp CommonPool создавался в 2014–2022 годах с использованием методов веб-скрейпинга и является преемником набора LAION-5B, на котором обучались популярные генеративные модели, включая Stable Diffusion и Midjourney. Несмотря на декларируемое ограничение на академическое использование, лицензия набора не запрещала коммерческую эксплуатацию. Учитывая, что архив был загружен более двух миллионов раз, можно с высокой вероятностью утверждать, что подобные утечки затронули и другие модели, использующие схожие источники данных.

Авторы отчёта обратили внимание и на технические недостатки: система автоматического размытия лиц, применённая разработчиками CommonPool, оказалась неэффективной — из выборки было пропущено более 800 лиц. Если экстраполировать данные на весь набор, то общее число незащищённых изображений с лицами может достигать 100 миллионов. Помимо этого, алгоритмы не отсеивали тексты, содержащие PII, такие как номера телефонов или адреса электронной почты.

Несмотря на наличие инструмента от Hugging Face, позволяющего удалить персональные данные, воспользоваться им может только тот, кто осведомлён о присутствии своих данных в наборе. Это делает защиту практически невозможной для большинства затронутых пользователей.

Авторы исследования подчеркнули, что даже удаление данных не гарантирует их исчезновение из уже обученных моделей. Они призвали сообщество специалистов по машинному обучению пересмотреть подход к массовому сбору информации из открытых источников. Также подчёркивается недостаточность существующих правовых механизмов защиты — как европейского законодательства, так и калифорнийского, которые нередко не охватывают исследователей или не распространяются на "публичные" данные.

Подписывайтесь на Moneytimes.Ru

ИИ знает о вас ВСЁ: сканы документов, адреса и фото миллионов людей утекают в сеть!

Читайте также

Вместо золота — завышенные цены: Trump Mobile торгует чужими смартфонами и молчит о гарантии

Чужие внутри колонии: матки Messor ibericus произвли генетический взлом

Смартфон отдаёт доступ к счетам сам: вирусы рассылают .apk вместо фото — и никто не замечает

22 сентября Земля сделает паузу: что скрывает момент равенства света и тьмы

Можно ли заставить фото танцевать и превратить голос в песню? YouTube добавил функции, которые удивляют блогеров

Новый святой грааль медицины: как орфорглипрон даёт шанс миллионам

Даже язык подойдёт для анализа: новый метод выявляет туберкулёз там, где другие бессильны

Срыв на третьей неделе: почему именно в этот момент рушатся все планы

Новости

Апельсиновая вода помогает орхидеям расти и обильно цвести

IRB Barcelona: Neuritin-1 замедляет набор веса и улучшает обмен веществ

Психолог Сергей Ланг дал советы по борьбе с осенней хандрой и тревожностью

Керамогранит прочность и износостойкость

Депутат Нилов: Россия постепенно перейдет к четырехдневной рабочей неделе

Эксперты: ретроград Венеры влияет на отношения и личные ценности

Coinbase призвала США единообразить крипторегулирование

Доктор Картик Кумар: помогут 6 шагов для достижения подтянутой фигуры