Женщина на работе
Женщина на работе
Дмитрий Толстенёв Опубликована 27.09.2025 в 0:26

Гигантский датасет уже в открытом доступе — но кое-что в его структуре удивит даже специалистов

Группа Т-Технологии опубликовала T-ECD для рекомендательных систем

Рекомендательные системы сегодня лежат в основе цифровой торговли, помогая пользователям находить нужные товары, а бизнесу — лучше понимать запросы аудитории. Но эффективность таких алгоритмов напрямую зависит от данных, на которых они обучаются. И здесь появляется по-настоящему редкий подарок для исследователей и разработчиков — крупнейший открытый датасет T-ECD, собранный группой "Т-Технологии".

Что представляет собой T-ECD

Датасет объединил анонимизированные действия 44 миллионов пользователей сразу нескольких сервисов: "Город: Шопинг", "Супермаркеты" и рекламной платформы Т-Банка. Внутри — 30 миллионов товаров и более 135 миллиардов взаимодействий. Уникальная особенность — кросс-доменность: информация охватывает как повседневные покупки, так и непродовольственные товары, отзывы, чеки, активации специальных предложений и кэшбэков.

Данные доступны под лицензией Apache 2.0, что открывает возможности для коммерческого применения и модификации. Разработчики могут работать с каждым сегментом отдельно или связывать информацию по пользователям, товарам и брендам.

Возможности использования

T-ECD подходит для широкого круга задач: от рекомендаций следующего товара до формирования корзины, анализа сессий или топ-N рекомендаций. История охватывает период от одного года до трёх с половиной лет, что позволяет строить как краткосрочные, так и долгосрочные прогнозы.

В датасете есть явная и неявная обратная связь, а также просмотры товаров с указанием источника: поиск, каталог или рекомендации. Это делает набор данных особенно ценным для создания гибких алгоритмов.

Плюсы и минусы

Плюсы Минусы
Огромный объём данных — 135 млрд взаимодействий Высокие требования к вычислительным ресурсам
Кросс-доменность: покупки, чеки, отзывы Нужны специалисты для правильной обработки
Лицензия Apache 2.0 — можно использовать в коммерции Сложность навигации в массиве данных
Долгий временной охват — до 3,5 лет Возможны ограничения из-за анонимизации
Доступность на Hugging Face Большой порог входа для новичков

Сравнение

Параметр T-ECD Типичные датасеты
Объём данных 135 млрд взаимодействий от нескольких миллионов
Кол-во пользователей 44 млн от сотен тысяч до 1-2 млн
Кол-во товаров 30 млн до 1 млн
Источники покупки, отзывы, чеки, акции, кэшбэки покупки и просмотры
Лицензия Apache 2.0 ограниченные или исследовательские

Советы шаг за шагом

  1. Скачать датасет с Hugging Face.

  2. Определить задачу (рекомендации, прогнозы, анализ поведения).

  3. Подобрать инструменты обработки: Python, PyTorch, TensorFlow, Spark.

  4. Разделить данные на тренировочную и тестовую выборки.

  5. Учесть особенности кросс-доменности: связывать данные по товарам и пользователям.

  6. Тестировать модели на разных сценариях (корзина, сессия, топ-N).

  7. Внедрять алгоритмы в реальные сервисы.

Мифы и правда

• Миф: такие датасеты доступны только корпорациям.
Правда: T-ECD открыт и лицензирован для коммерческого использования.

• Миф: объём данных делает их бесполезными для малого бизнеса.
Правда: даже малые сегменты датасета можно эффективно применять.

• Миф: кросс-доменные данные сложно связать.
Правда: структура позволяет сопоставлять товары и пользователей.

FAQ

Как выбрать подходящий сегмент датасета?
Следует исходить из задачи: для рекомендаций по товарам — истории покупок, для маркетинга — активации кэшбэков.

Сколько стоит использование T-ECD?
Датасет бесплатен и доступен под Apache 2.0.

Что лучше: использовать T-ECD целиком или частями?
Для обучения масштабных моделей лучше использовать полный массив, но для экспериментов удобнее работать с отдельными сегментами.

Ошибка → Последствие → Альтернатива

Ошибка: загрузить весь датасет без фильтрации.
Последствие: перегрузка серверов и долгие расчёты.
Альтернатива: начать с отдельных частей и постепенно расширять.

Ошибка: игнорировать кросс-доменность.
Последствие: модель теряет точность.
Альтернатива: связывать данные по товарам, пользователям и брендам.

Ошибка: использовать устаревшие алгоритмы.
Последствие: плохая адаптация к новым сценариям.
Альтернатива: применять современные методы машинного обучения и рекомендательных систем.

А что если…

А что если объединить T-ECD с другими открытыми наборами данных? Тогда можно построить ещё более точные модели, учитывающие не только покупки и отзывы, но и дополнительные источники поведения пользователей. Это открывает дорогу к созданию универсальных рекомендательных систем нового поколения.

Подписывайтесь на Moneytimes.Ru

Читайте также

Динозавры могли иметь яркий красочный окрас — Тесс Галлахер сегодня в 14:16
Зелёный тираннозавр и розовый диплодок? Детское видение динозавров получает научное подтверждение

Учёные нашли микроструктуры в коже зауропода, указывающие, что гиганты мезозоя могли быть ярко окрашены — подобно птицам, их далеким потомкам.

Читать полностью »
Во Франции нашли более 40 тысяч римских монет в амфорах — данные INRAP сегодня в 12:58
Римская экономика ожила в одной деревне: находка из 40 000 монет вскрыла привычки людей эпохи хаоса

В небольшом французском поселении нашли десятки тысяч римских монет, и эта находка помогает по-новому взглянуть на экономику галльских территорий.

Читать полностью »
Редкий сигнал XID 925 связан с разрушением звезды двумя чёрными дырами сегодня в 10:10
Вспышка XID 925 разоблачила древнее звёздное преступление: две чёрные дыры сошлись на одной жертве

Ученые попытались объяснить странный рентгеновский всплеск, замеченный ещё в 1999 году. Оказалось, что древняя звезда могла пострадать сразу от двух чёрных дыр.

Читать полностью »
Найдено доказательство использования огня 400 000-летней давности в Британии — ученые сегодня в 8:29
Древнейший огонь Европы: открытие в Англии отодвигает историю технологий на 100 000 лет

В Англии обнаружены следы древнейшего в Европе костра, который разожгли неандертальцы около 400 тысяч лет назад.

Читать полностью »
Автоматическая станция MAVEN перестала выходить на связь после выхода из-за диска Марса сегодня в 7:30
Марсианская загадка: почему замолчал ведущий аппарат по изучению атмосферы Красной планеты

Связь с марсианским орбитальным аппаратом NASA MAVEN неожиданно прервалась. Специалисты анализируют данные телеметрии и пытаются восстановить управление станцией, crucial для изучения атмосферы Красной планеты.

Читать полностью »
Солнечный выброс, который должен был пройти мимо, вызвал магнитную бурю над Землей  — ИКИ РАН сегодня в 7:13
Ученые промахнулись с прогнозом: солнечная плазма вызвала неожиданную бурю

Внезапный удар солнечной плазмы вызвал на Земле магнитную бурю, которую ученые не предсказали. Овал полярного сияния ушел в сторону Канады, оставив Россию без зрелищного шоу.

Читать полностью »
Ученые обнаружили сверхновую звезду времен молодой Вселенной с помощью телескопа Джеймс Уэбб сегодня в 6:18
Вызов для теорий: неожиданное явление из затерянных эпох Вселенной ставит под сомнение все общепринятые модели

Космический телескоп зафиксировал взрыв звезды, который произошел, когда возраст Вселенной составлял всего 5% от нынешнего.

Читать полностью »
В Амазонии найден крупнейший подземный резервуар воды — Correio do Estado сегодня в 4:11
Ресурс, способный напоить весь мир: место, где вода накапливалась миллионы лет, стало открытием XXI века

Под Амазонкой скрыт гигантский водоносный слой SAGA — крупнейший резервуар пресной воды на планете. Учёные предупреждают: его нужно беречь, а не добывать.

Читать полностью »