Создание дублирующих данных зачастую связано с синтаксическими различиями, возникающими из-за ошибок ввода сотрудников отдела продаж или менеджеров по работе с клиентами, инверсий, использования сокращений (например, для почтовых адресов) и т. д. Данные, вводимые в контактную форму, форму создания учетной записи или во время общения с отделом поддержки клиентов, не совпадают полностью, что приводит к появлению дубликатов в системе, например, в CRM.
Данные — живая сущность, большая их часть должна меняться со временем: клиенты переезжают, меняют номера телефонов, фамилию (вследствие брака, развода и т.д.), меняют работу, открывают свои предприятия, заводят детей. Такие изменения также приводят к созданию дублей. В таком случае компания должна установить правила приоритета между источниками данных для определения "правильных" данных, тех, которые наиболее вероятно являются верными и, следовательно, тех, которые следует использовать.
Пользователи информационных систем, то есть сотрудники, обычно быстро могут определить информацию, связанную с отдельным человеком, чтобы определить личность контакта, стоящего за синтаксическими отличиями. Однако, когда достигается определенный объем данных не обойтись без механизмов автоматизации для обнаружения и исправления этих отличий и удаления дублирующихся данных. Вот основные шаги в этом процессе:
Шаг 1: Управление данными- Обработка почтовых адресов RNVP (перестройка, нормализация, проверка почтовых адресов).
- Стандартизация номеров телефонов.
- Обработка транслитераций.
- Справочники адресов (КЛАДР)
- Прочие отраслевые справочники
Шаг 2: Внедрение алгоритма для расчета балла близости для каждого типа данных- имя
- фамилия
- почтовый адрес
- электронная почта
- телефон
- дата рождения
- СНИЛС
- Паспортные данные
Тут применимы два метода:
- Анализ сходства строк и использование расчетов расстояния: расстояние Левенштейна, Косинус сходства и различия и другие.
- Фонологический анализ сходства звуков, суть которого состоит в сравнении содержимого данных с фонетической точки зрения. Для этой цели широко используются методы metaphone и double metaphone.
Шаг 3: Расчет общего балла сходства базы данныхЗдесь вступает в игру модель машинного обучения для создания композитного индикатора сходства. Применяются методы типа Random forest.