Меню
by DataRise
Дедупликация данных
В статье разберем важнейший этап в обеспечении качества данных в разрозненных системах компаний: от CRM и рекламных кабинетов, до бухгалтерских баз.
Решения DataRise
  • DataWhare house

  • Искусственный интеллект

  • Сквозная бизнес аналитика

  • Цифровой бизнес ассистент

  • Надежная альтернатива Google Analytics и Яндекс Метрика
Дедупликация — это решение, с помощью которого можно существенно уменьшить объемы данных, сохраняя при этом целостность информации.

В основе дедупликации данных лежит идея работы с дубликатами. Эта задача может быть решена при помощи различных методов и алгоритмов, одним из которых является идентификация повторяющихся записей и их последующее удаление.

Для реализации дедупликации необходимо учитывать все особенности конкретной системы хранения данных, обнаруживать и удалять дубликаты в режиме реального времени, а также синхронизировать данные между различными системами.

Важно отметить, что дедупликация данных не только уменьшает объемы информации, но и повышает качество работы информационных систем. Уменьшение нагрузки на серверы и снижение количества запросов к базе данных улучшает быстродействие цифровых сервисов, повышает надежность и безопасность хранения информации.

Более компактный объем данных требует меньше места на диске, что позволяет сократить затраты на приобретение и поддержку дополнительного оборудования.

Как DWH преобразует бизнесы и делает их более прибыльным?

Суть процесса дедупликации заключается в обнаружении данных, которые появляются в нескольких записях (файлах, документах) различных информационных систем без ссылки друг на друга, и их объединении в одну запись или создании ссылок между ними для дальнейшего анализа. В контексте управления базами данных, обычно речь идет о дедупликации контактов, клиентов, контрагентов, пациентов и так далее.

В информационных системах, таких как CRM, часто возникают дублирующиеся контакты в нескольких местах системы по нескольким причинам:

  • Пользователи, управляющие CRM, иногда добавляют контакты или создают учетные записи, не проверяя, есть ли они уже зарегистрированы в системе. Даже если CRM отправляет уведомления о дублировании, не все обращают на это внимание, и уведомления не всегда отображаются корректно на мобильных устройствах.
  • Инструменты импорта данных не всегда хорошо определяют дублирование.
  • Интеграции с внешними источниками данных, такими как формы на веб-сайтах, порталы партнеров или почтовые брокеры, не всегда проверяют наличие данных в CRM перед импортом новых данных.
  • Множество человеческих ошибок или программных ошибок (ошибки в CRM или связанных приложений/инструментах) легко могут привести к появлению десятков и сотен тысяч дубликатов.

Именно поэтому дедупликация является важным шагом в обеспечении качества данных в CRM.

Почему дедупликация так важна?

Система дедупликации данных
При наличии DWH
  • ±20 часов анализа
  • от 40 до 80 часов разработки системы дедупликации
Налиечие в БД 2% дублированных данных не катастрофично, если это временные данные, и ваши инструменты и процессы позволяют обнаруживать и корректировать их. Но если их объем превышает 5%, ситуация ухудшается. В этом случае ваши сотрудники не могут качественно выполнять свою работу и начинают жаловаться, а отчетность может провоцировать ошибочные выводы.

Обнаружение и корректировка дублированных данных — это задача, требующая вдумчивого подхода. Необходимо выбрать правильные инструменты для обнаружения дублированных данных, использовать их правильно, определить основные причины, по которым ваша информационная система генерирует дублированные данные, и на основе этого понимания ликвидировать основные источники создания дубликатов.
Информационные системы, в которых дублированных данных минимум, позволяют:

  • Уменьшить затраты на обслуживание (аналитики работают оперативнее, меньше допускают ошибок, внешние системы получают ответы быстрее) и хранение данных.
  • Снизить стоимость рассылки ваших кампаний и, более широко, всех маркетинговых затрат.
  • Улучшить опыт клиента → согласитесь, нет ничего более раздражающего для клиента, чем заполнять одни и те же документы по несколько раз в медцентрах, гостиницах, формах на сайтах или получать одни и те же маркетинговые уведомления.
  • Понимать реальные средние чеки и LTV клиентов.
  • Улучшить надежность отчетности и принимаемых на ее основе решений.

Рост количества источников данных и точек контакта неизбежно ведет к появлению дублированных данных. Проблему желательно решать не дожидаясь появления разрастания объемов баз данных.
Создание дублирующих данных зачастую связано с синтаксическими различиями, возникающими из-за ошибок ввода сотрудников отдела продаж или менеджеров по работе с клиентами, инверсий, использования сокращений (например, для почтовых адресов) и т. д. Данные, вводимые в контактную форму, форму создания учетной записи или во время общения с отделом поддержки клиентов, не совпадают полностью, что приводит к появлению дубликатов в системе, например, в CRM.

Данные — живая сущность, большая их часть должна меняться со временем: клиенты переезжают, меняют номера телефонов, фамилию (вследствие брака, развода и т.д.), меняют работу, открывают свои предприятия, заводят детей. Такие изменения также приводят к созданию дублей. В таком случае компания должна установить правила приоритета между источниками данных для определения "правильных" данных, тех, которые наиболее вероятно являются верными и, следовательно, тех, которые следует использовать.

Пользователи информационных систем, то есть сотрудники, обычно быстро могут определить информацию, связанную с отдельным человеком, чтобы определить личность контакта, стоящего за синтаксическими отличиями. Однако, когда достигается определенный объем данных не обойтись без механизмов автоматизации для обнаружения и исправления этих отличий и удаления дублирующихся данных. Вот основные шаги в этом процессе:

Шаг 1: Управление данными
  • Обработка почтовых адресов RNVP (перестройка, нормализация, проверка почтовых адресов).
  • Стандартизация номеров телефонов.
  • Обработка транслитераций.
  • Справочники адресов (КЛАДР)
  • Прочие отраслевые справочники

Шаг 2: Внедрение алгоритма для расчета балла близости для каждого типа данных
  • имя
  • фамилия
  • почтовый адрес
  • электронная почта
  • телефон
  • дата рождения
  • СНИЛС
  • Паспортные данные

Тут применимы два метода:
  1. Анализ сходства строк и использование расчетов расстояния: расстояние Левенштейна, Косинус сходства и различия и другие.
  2. Фонологический анализ сходства звуков, суть которого состоит в сравнении содержимого данных с фонетической точки зрения. Для этой цели широко используются методы metaphone и double metaphone.

Шаг 3: Расчет общего балла сходства базы данных
Здесь вступает в игру модель машинного обучения для создания композитного индикатора сходства. Применяются методы типа Random forest.

Классические подходы к дедупликации

Нужна помощь в создании систем дедупликации данных?
Оставьте заявку, мы свяжемся в течение рабочего дня и проконсультируем о наших возможностях для решения ваших задач.