Предварительная обработка данных

ПОДВесьма часто полученные данные, используемые в дальнейшем для обработки алгоритмами Data Mining (а также другими методами обработки и анализа данных) для решения прикладных задач имеют плохое качество.

В них содержится много ошибок: дублирование, несоответствия, противоречия, пропуски, аномалии и множество других проблем. Исключить их полностью невозможно: данные нужно очищать. Очистка данных - одна из наиболее актуальных задач анализа. На ее выполнение тратится большая часть времени при создании решений (иногда до 80% всего времени, отведенного на весь проект. Это необходимый этап работ в любом проекте. Инструменты очистки данных не избавляют пользователя от работы, некоторые грязные данные вообще не поддаются автоматической очистке из-за разнородности и специфичности информации. Кроме того, нужно отметить, что отсутствуют универсальные способы устранения ошибок данных и каждая ситуация требует применения своего метода или совокупности методов.

Только в случае достаточно надежных и «чистых» данных возможно применение алгоритмов Data Mining  и Text Mining.

Для улучшения качества исходной информации приходится использовать все возможные способы как организационные, так и программные.

Плохое качество данных является одной из самых больших проблем при построении аналитических решений, т.к. на основе некорректной информации делаются неверные выводы. Даже самые совершенные методы анализа не помогают, необходимо использовать специальные механизмы очистки, которые включают в себя две стадии: обнаружение и непосредственная очистка.

На первом шаге данные исследуются на предмет "загрязненности". Устанавливается, есть ли в них ошибки и к какому виду они относятся.

В зависимости от обнаруженных недостатков на следующем шаге происходит их устранение. На выходе этой стадии образуются данные, приведенные к единому формату и очищенные от найденных ошибок. Они пригодны для последующей обработки и могут участвовать в бизнес-анализе.

В общем, ошибочные данные, как правило, имеют следующий вид:

  • Они неполные, т.е. в них отсутствуют либо значения атрибутов, либо отсутствуют определенные атрибуты, представляющие интерес, или содержат только совокупные данные
  • Шум: содержат ошибки или выбросы
  • Несогласованность: содержат несоответствия в кодах или именах

Для лучшего восприятия полезно систематизировать перечисленные выше сведения об ошибочных данных, описав боле подробно виды ошибок, которые служат причинами возникновения "загрязненной" информации.

Виды ошибок

Существует несколько разновидностей типичных ошибок, появляющихся в ходе работы с личными данными:

  1. Противоречивость данных. Несколько полей содержат в себе информацию, которая не соответствует друг другу по смыслу. Например, встречаются случаи, когда в поле "Фамилия" введена строка "Иванов", а в поле "Пол" стоит отметка "Женский". Также часто возникают противоречия в данных из-за того, что дата рождения не совпадает с возрастом, введенного поселка нет в указанной области, код домашнего телефона не соответствует городу проживания и так далее.
  2. Неполнота данных.Данные не заполнены или заполнены не до конца. Некоторые поля оставляются респондентами пустыми, так как они не знают, какие значения в них внести. К таким данным относятся, например, индекс места проживания, код города. Кроме того, часто используются сокращения при заполнении названия улиц, городов, полного имени и тому подобного.
  3. Неправдоподобие данных.Данные принимают сомнительные значения, например, слишком большое или слишком маленькое значение – так называемый выброс. Иногда респондент ошибается и вводит данные в другое поле, расположенное рядом или похожее по смыслу. Чаще всего это происходит с номерами домашних, мобильных или рабочих телефонов.
  4. Опечатки в данных.Данные содержат лишние или пропущенные символы. Из-за невнимательности респондента или при быстром вводе данных вместе со словами в поля анкет вносятся лишние пробелы, цифры, знаки, пропускаются символы. Вместо имени "Иван" могли быть введены записи: "И ван", "Иван1", "Иван" или "Ивн".
  5. Несоответствие форматов данных. Однотипные данные имеют разные форматы представления. Например, поле "Дата рождения" может быть заполнено следующим образом: "11 января 2001", "11.01.2001", "11.01.01".
  6. Дублирование данных.Несколько записей имеют один и тот же смысл. При обработке анкет в нескольких из них в поле "ФИО" были обнаружены записи "Иванов Иван Иванович", "Иванов Ваня" и "Иванов И.И.". При их исследовании могло оказаться, что все анкеты принадлежат одному и тому же человеку.

На сайте sciencehunter.net предлагается сервис для предварительной обработки ошибочных данных.

С применением инструментов этого сервиса решаются следующие задачи очистки данных:

  • Обнаружение ошибок: пропуски в упорядоченных и неупорядоченных данных, выявление аномальных отклонений и противоречивых сведений.
  • Исправление ошибок. Есть возможность не просто обнаружить ошибки, но и исправить их, например, заполнить пропуски или отредактировать аномальные значения.

Это самые простые методы очистки данных. Они в основном предназначены для исключения и исправления таких видов ошибок, как пропуски, аномальные отклонения, опечатки и противоречивые сведения. Для более глубокой очистки они не подходят, потому что основываются на заранее предусмотренных ограниченных условиях поиска ошибок и их устранении, а также не выясняют общих закономерностей, которые могут быть установлены при рассмотрении всех изучаемых данных. Для этих целей применяются другие методы, основанные на статистических функциях и алгоритмах Data Mining.

Для получения более подробных сведений Вы можете обратиться к нашему электронному учебнику в раздел Предварительная обработка данных, а также решить предложенные там же задачи, задать интересующие Вас по этому разделу вопросы и получить на них ответы.