Искусственный интеллект
Искусственный интеллект
Илья Лапин Опубликована сегодня в 19:05

ИИ знает о вас ВСЁ: сканы документов, адреса и фото миллионов людей утекают в сеть!

Утечка конфиденциальной информации в открытых наборах данных для генеративных моделей

Новое исследование выявило масштабную проблему с утечкой конфиденциальной информации в одном из крупнейших открытых наборов данных для обучения генеративных моделей — DataComp CommonPool. Несмотря на позиционирование ресурса как инструмента для научных целей, в его составе были обнаружены миллионы изображений, содержащих персональные сведения, включая сканы паспортов, банковских карт, свидетельств о рождении и других официальных документов.

Анализ затронул лишь малую часть всей базы — 0,1% от общего объёма, но даже в этой ограниченной выборке были найдены тысячи материалов, способных однозначно идентифицировать личность: лица, удостоверения, резюме, сопроводительные письма. Многие из них включали данные о здоровье, биографические сведения, информацию о родственниках и иждивенцах. Связывая такие документы с онлайн-профилями, исследователи получали доступ к контактным данным, государственным идентификаторам, фотографиям и домашним адресам как самих авторов, так и третьих лиц — например, рекомендателей.

DataComp CommonPool создавался в 2014–2022 годах с использованием методов веб-скрейпинга и является преемником набора LAION-5B, на котором обучались популярные генеративные модели, включая Stable Diffusion и Midjourney. Несмотря на декларируемое ограничение на академическое использование, лицензия набора не запрещала коммерческую эксплуатацию. Учитывая, что архив был загружен более двух миллионов раз, можно с высокой вероятностью утверждать, что подобные утечки затронули и другие модели, использующие схожие источники данных.

Авторы отчёта обратили внимание и на технические недостатки: система автоматического размытия лиц, применённая разработчиками CommonPool, оказалась неэффективной — из выборки было пропущено более 800 лиц. Если экстраполировать данные на весь набор, то общее число незащищённых изображений с лицами может достигать 100 миллионов. Помимо этого, алгоритмы не отсеивали тексты, содержащие PII, такие как номера телефонов или адреса электронной почты.

Несмотря на наличие инструмента от Hugging Face, позволяющего удалить персональные данные, воспользоваться им может только тот, кто осведомлён о присутствии своих данных в наборе. Это делает защиту практически невозможной для большинства затронутых пользователей.

Авторы исследования подчеркнули, что даже удаление данных не гарантирует их исчезновение из уже обученных моделей. Они призвали сообщество специалистов по машинному обучению пересмотреть подход к массовому сбору информации из открытых источников. Также подчёркивается недостаточность существующих правовых механизмов защиты — как европейского законодательства, так и калифорнийского, которые нередко не охватывают исследователей или не распространяются на "публичные" данные.

Подписывайтесь на Moneytimes.Ru

Читайте также

Телескоп Хаббл нашел несколько поколений звёзд в одном скоплении сегодня в 21:05

Капсула времени: звезды из разных эпох существуют бок о бок

Хаббл сфотографировал шаровое скопление, в котором звёзды разных поколений сочетаются в одном пространстве, давая учёным ключ к истории галактик.

Читать полностью »
Дания инвестирует 80 миллионов евро в создание квантового компьютера QuNorth сегодня в 20:21

Дания построит самый мощный квантовый компьютер в мире: Magne бросает вызов США и Китаю!

Дания готовится реализовать амбициозный проект по созданию самого мощного квантового компьютера в мире.

Читать полностью »
В Китае создали нейроинтерфейс для редактирования фото силой мысли сегодня в 20:07

Редактирование фото по сигналам мозга: удобно или опасно

LoongX — новая китайская система, которая позволяет редактировать изображения только силой мысли, без голоса и движений.

Читать полностью »
Робот-хирург под управлением ИИ: угроза или спасение? сегодня в 18:18

Хирургия без рук: машина научилась удалять органы без помощи человека

Будущее медицины наступает: роботы с искусственным интеллектом успешно проводят операции без участия человека. Учёные из Университета Джонса Хопкинса уверены — хирургия стоит на пороге революции.

Читать полностью »
Intel прекратила поддержку и разработку дистрибутива Clear Linux OS сегодня в 17:53

Прощай, Clear Linux OS! Intel отказалась от поддержки: что делать пользователям?

Компания Intel сообщила о прекращении поддержки и разработки дистрибутива Clear Linux OS, что стало неприятной новостью для его пользователей.

Читать полностью »
Новое поколение ускорителей NVIDIA Rubin ожидается в 2026 году сегодня в 17:09

NVIDIA готовится к прорыву на рынке ИИ: массовые поставки GB300 уже в сентябре!

Компания NVIDIA начала ограниченный выпуск суперчипов Grace Blackwell GB300, которые предназначены для выполнения ресурсоёмких задач в сфере искусственного интеллекта.

Читать полностью »
Нейротомия С7 и речевая терапия улучшили речь у пациентов после инсульта сегодня в 17:07

Забытая операция прошлого века стала прорывом в лечении афазии

Китайские учёные разработали новый метод восстановления речи после инсульта. Операция + интенсивная терапия дают поразительные результаты.

Читать полностью »
JBL представила беспроводную колонку Music Horizon 3 сегодня в 16:58

JBL удивила! Новая колонка Music Horizon 3 — это не просто звук, а целая экосистема для сна!

Компания JBL представила в Китае новое устройство — беспроводную Bluetooth-колонку Music Horizon 3, сочетающую в себе функции аудиосистемы, будильника, ночника и FM-радио.

Читать полностью »