Искусственный интеллект
Искусственный интеллект
Илья Лапин Опубликована 20.07.2025 в 19:05

ИИ знает о вас ВСЁ: сканы документов, адреса и фото миллионов людей утекают в сеть!

Утечка конфиденциальной информации в открытых наборах данных для генеративных моделей

Новое исследование выявило масштабную проблему с утечкой конфиденциальной информации в одном из крупнейших открытых наборов данных для обучения генеративных моделей — DataComp CommonPool. Несмотря на позиционирование ресурса как инструмента для научных целей, в его составе были обнаружены миллионы изображений, содержащих персональные сведения, включая сканы паспортов, банковских карт, свидетельств о рождении и других официальных документов.

Анализ затронул лишь малую часть всей базы — 0,1% от общего объёма, но даже в этой ограниченной выборке были найдены тысячи материалов, способных однозначно идентифицировать личность: лица, удостоверения, резюме, сопроводительные письма. Многие из них включали данные о здоровье, биографические сведения, информацию о родственниках и иждивенцах. Связывая такие документы с онлайн-профилями, исследователи получали доступ к контактным данным, государственным идентификаторам, фотографиям и домашним адресам как самих авторов, так и третьих лиц — например, рекомендателей.

DataComp CommonPool создавался в 2014–2022 годах с использованием методов веб-скрейпинга и является преемником набора LAION-5B, на котором обучались популярные генеративные модели, включая Stable Diffusion и Midjourney. Несмотря на декларируемое ограничение на академическое использование, лицензия набора не запрещала коммерческую эксплуатацию. Учитывая, что архив был загружен более двух миллионов раз, можно с высокой вероятностью утверждать, что подобные утечки затронули и другие модели, использующие схожие источники данных.

Авторы отчёта обратили внимание и на технические недостатки: система автоматического размытия лиц, применённая разработчиками CommonPool, оказалась неэффективной — из выборки было пропущено более 800 лиц. Если экстраполировать данные на весь набор, то общее число незащищённых изображений с лицами может достигать 100 миллионов. Помимо этого, алгоритмы не отсеивали тексты, содержащие PII, такие как номера телефонов или адреса электронной почты.

Несмотря на наличие инструмента от Hugging Face, позволяющего удалить персональные данные, воспользоваться им может только тот, кто осведомлён о присутствии своих данных в наборе. Это делает защиту практически невозможной для большинства затронутых пользователей.

Авторы исследования подчеркнули, что даже удаление данных не гарантирует их исчезновение из уже обученных моделей. Они призвали сообщество специалистов по машинному обучению пересмотреть подход к массовому сбору информации из открытых источников. Также подчёркивается недостаточность существующих правовых механизмов защиты — как европейского законодательства, так и калифорнийского, которые нередко не охватывают исследователей или не распространяются на "публичные" данные.

Автор Илья Лапин
Илья Лапин — корреспондент новостной службы Манитаймс

Подписывайтесь на Moneytimes.Ru

Читайте также

Мошенники заходят в интернет через игры: детям в сети готовят новый защитный фильтр сегодня в 12:37

Эксперт по IT-безопасности Дмитрий Завалишин прокомментировал MoneyTimes идею идентификации по возрасту на онлайн-площадках.

Читать полностью »
Один признак на корпусе пауэрбанка нельзя игнорировать: дальше возможен пожар 05.06.2026 в 15:32

Аналитик Эльдар Муртазин пояснил MoneyTimes, почему риск возгорания пауэрбанка исключен даже при долгой зарядке.

Читать полностью »
Смартфон начал жить своей жизнью: один пункт в настройках многое раскроет 03.06.2026 в 14:31

Эксперт по IT-безопасности Кирилл Ситнов объяснил MoneyTimes, почему личная информация может утечь из гаджета через приложение.

Читать полностью »
Шестилетка может пойти в школу без проблем: решают не возраст, а эти признаки готовности 02.06.2026 в 17:52

Психолог Андрей Зберовский назвал MoneyTimes критерии готовности малыша стать первоклассником.

Читать полностью »
Хотели спасти планету, но сделали хуже: почему заливать болота водой оказалось опасно 31.05.2026 в 20:33

Международная группа исследователей обнаружила скрытые угрозы при попытках исправить последствия осушения уникальных природных зон в разных уголках планеты.

Читать полностью »
Физический тупик: ученые заглянули внутрь вулкана и не нашли там главного 30.05.2026 в 20:31

Исследователи изучили скрытые механизмы работы гигантского подводного объекта и обнаружили аномалии, ставящие под сомнение классические теории формирования дна.

Читать полностью »
В 10 000 раз быстрее нормы: почему беспрецедентный нагрев воды превратил миграцию птиц в изнурительный бег 29.05.2026 в 20:26

Исследователи обнаружили аномальную реакцию морских хищников на нагрев воды, которая идет вразрез с привычными законами адаптации обитателей Мирового океана.

Читать полностью »
Опаснее промышленного выброса: какая кухонная рутина незаметно разрушает логику и память после 50 лет 28.05.2026 в 20:24

Британские ученые провели эксперимент в герметичных камерах, чтобы выяснить, как разные источники загрязнения влияют на когнитивные способности и работу легких.

Читать полностью »

Новости

Организм начнет пожирать сам себя: сколько граммов белка нужно съедать в день, чтобы не сжечь собственные мышцы
Запретный плод: роковая ошибка при угощении яблоком может отправить собаку в реанимацию
Пыль липнет как к магниту: главная ошибка при мытье ламината, которую совершают все
Курение бьет не только по легким: опасность проявляется и в другом
Мигрантам предложили шефство над пожилыми россиянами: идея ударила по самому больному
Знакомый шильдик, но чужая начинка: почему покупка китайской Kia может стать ловушкой
Списки адресов уже утверждены: масштабное преображение жилого сектора затронуло десятки объектов в Нижегородской области
Полис ОСАГО со скидкой скрывает подвох: одна проверка спасет водителя от фальшивки