Искусственный интеллект
Искусственный интеллект
Илья Лапин Опубликована 20.07.2025 в 19:05

ИИ знает о вас ВСЁ: сканы документов, адреса и фото миллионов людей утекают в сеть!

Утечка конфиденциальной информации в открытых наборах данных для генеративных моделей

Новое исследование выявило масштабную проблему с утечкой конфиденциальной информации в одном из крупнейших открытых наборов данных для обучения генеративных моделей — DataComp CommonPool. Несмотря на позиционирование ресурса как инструмента для научных целей, в его составе были обнаружены миллионы изображений, содержащих персональные сведения, включая сканы паспортов, банковских карт, свидетельств о рождении и других официальных документов.

Анализ затронул лишь малую часть всей базы — 0,1% от общего объёма, но даже в этой ограниченной выборке были найдены тысячи материалов, способных однозначно идентифицировать личность: лица, удостоверения, резюме, сопроводительные письма. Многие из них включали данные о здоровье, биографические сведения, информацию о родственниках и иждивенцах. Связывая такие документы с онлайн-профилями, исследователи получали доступ к контактным данным, государственным идентификаторам, фотографиям и домашним адресам как самих авторов, так и третьих лиц — например, рекомендателей.

DataComp CommonPool создавался в 2014–2022 годах с использованием методов веб-скрейпинга и является преемником набора LAION-5B, на котором обучались популярные генеративные модели, включая Stable Diffusion и Midjourney. Несмотря на декларируемое ограничение на академическое использование, лицензия набора не запрещала коммерческую эксплуатацию. Учитывая, что архив был загружен более двух миллионов раз, можно с высокой вероятностью утверждать, что подобные утечки затронули и другие модели, использующие схожие источники данных.

Авторы отчёта обратили внимание и на технические недостатки: система автоматического размытия лиц, применённая разработчиками CommonPool, оказалась неэффективной — из выборки было пропущено более 800 лиц. Если экстраполировать данные на весь набор, то общее число незащищённых изображений с лицами может достигать 100 миллионов. Помимо этого, алгоритмы не отсеивали тексты, содержащие PII, такие как номера телефонов или адреса электронной почты.

Несмотря на наличие инструмента от Hugging Face, позволяющего удалить персональные данные, воспользоваться им может только тот, кто осведомлён о присутствии своих данных в наборе. Это делает защиту практически невозможной для большинства затронутых пользователей.

Авторы исследования подчеркнули, что даже удаление данных не гарантирует их исчезновение из уже обученных моделей. Они призвали сообщество специалистов по машинному обучению пересмотреть подход к массовому сбору информации из открытых источников. Также подчёркивается недостаточность существующих правовых механизмов защиты — как европейского законодательства, так и калифорнийского, которые нередко не охватывают исследователей или не распространяются на "публичные" данные.

Подписывайтесь на Moneytimes.Ru

Читайте также

Trump Mobile продаёт восстановленные смартфоны с наценкой и без гарантии сегодня в 10:50

Вместо золота — завышенные цены: Trump Mobile торгует чужими смартфонами и молчит о гарантии

Смартфон T1 от Trump Mobile не вышел в срок, а вместо него начали продавать восстановленные устройства по завышенным ценам.

Читать полностью »
Science: муравьи Messor ibericus производят самцов другого вида сегодня в 10:17

Чужие внутри колонии: матки Messor ibericus произвли генетический взлом

Учёные обнаружили феномен ксенопаритета: матки Messor ibericus способны рожать самцов другого вида. Как это меняет представления о границах в природе?

Читать полностью »
Количество атак трояна Mamont на Android выросло в 36 раз с начала года сегодня в 9:50

Смартфон отдаёт доступ к счетам сам: вирусы рассылают .apk вместо фото — и никто не замечает

В России резко выросло число атак мобильного трояна Mamont, распространяемого через мессенджеры.

Читать полностью »
NASA: 22 сентября Солнце пересечёт небесный экватор сегодня в 9:06

22 сентября Земля сделает паузу: что скрывает момент равенства света и тьмы

В день осеннего равноденствия Солнце пересекает небесный экватор, а день и ночь становятся почти равны. Почему же в реальности они всё же отличаются?

Читать полностью »
YouTube добавил в Shorts ИИ-инструменты для монтажа, озвучки и генерации видео сегодня в 8:50

Можно ли заставить фото танцевать и превратить голос в песню? YouTube добавил функции, которые удивляют блогеров

YouTube внедрил в Shorts набор ИИ-инструментов, включая генерацию видео, озвучку и автоматический монтаж.

Читать полностью »
NEJM: орфорглипрон снижает массу тела на пятую часть за 72 недели сегодня в 8:32

Новый святой грааль медицины: как орфорглипрон даёт шанс миллионам

Таблетка, способная заменить уколы для похудения, показала впечатляющие результаты в исследовании. Почему орфорглипрон называют новым символом борьбы с ожирением?

Читать полностью »
Тест на туберкулёз по технологии CRISPR выявляет болезнь за 45 минут сегодня в 7:50

Даже язык подойдёт для анализа: новый метод выявляет туберкулёз там, где другие бессильны

Новый CRISPR-тест на туберкулёз позволяет ставить диагноз за 45 минут даже без мокроты.

Читать полностью »
Нарколог Руслан Исаев: бросить курение вейпа самостоятельно удаётся редко сегодня в 7:34

Срыв на третьей неделе: почему именно в этот момент рушатся все планы

Отказ от вейпа кажется простым, но без психотерапии он превращается в испытание. Почему именно психологическая поддержка играет решающую роль?

Читать полностью »