
ИИ знает о вас ВСЁ: сканы документов, адреса и фото миллионов людей утекают в сеть!
Новое исследование выявило масштабную проблему с утечкой конфиденциальной информации в одном из крупнейших открытых наборов данных для обучения генеративных моделей — DataComp CommonPool. Несмотря на позиционирование ресурса как инструмента для научных целей, в его составе были обнаружены миллионы изображений, содержащих персональные сведения, включая сканы паспортов, банковских карт, свидетельств о рождении и других официальных документов.
Анализ затронул лишь малую часть всей базы — 0,1% от общего объёма, но даже в этой ограниченной выборке были найдены тысячи материалов, способных однозначно идентифицировать личность: лица, удостоверения, резюме, сопроводительные письма. Многие из них включали данные о здоровье, биографические сведения, информацию о родственниках и иждивенцах. Связывая такие документы с онлайн-профилями, исследователи получали доступ к контактным данным, государственным идентификаторам, фотографиям и домашним адресам как самих авторов, так и третьих лиц — например, рекомендателей.
DataComp CommonPool создавался в 2014–2022 годах с использованием методов веб-скрейпинга и является преемником набора LAION-5B, на котором обучались популярные генеративные модели, включая Stable Diffusion и Midjourney. Несмотря на декларируемое ограничение на академическое использование, лицензия набора не запрещала коммерческую эксплуатацию. Учитывая, что архив был загружен более двух миллионов раз, можно с высокой вероятностью утверждать, что подобные утечки затронули и другие модели, использующие схожие источники данных.
Авторы отчёта обратили внимание и на технические недостатки: система автоматического размытия лиц, применённая разработчиками CommonPool, оказалась неэффективной — из выборки было пропущено более 800 лиц. Если экстраполировать данные на весь набор, то общее число незащищённых изображений с лицами может достигать 100 миллионов. Помимо этого, алгоритмы не отсеивали тексты, содержащие PII, такие как номера телефонов или адреса электронной почты.
Несмотря на наличие инструмента от Hugging Face, позволяющего удалить персональные данные, воспользоваться им может только тот, кто осведомлён о присутствии своих данных в наборе. Это делает защиту практически невозможной для большинства затронутых пользователей.
Авторы исследования подчеркнули, что даже удаление данных не гарантирует их исчезновение из уже обученных моделей. Они призвали сообщество специалистов по машинному обучению пересмотреть подход к массовому сбору информации из открытых источников. Также подчёркивается недостаточность существующих правовых механизмов защиты — как европейского законодательства, так и калифорнийского, которые нередко не охватывают исследователей или не распространяются на "публичные" данные.
Подписывайтесь на Moneytimes.Ru