Предварительная обработка данных

ScienceHunter Ред. 11.06.2019

Предварительная обработка данных

ПОД Весьма часто полученные данные, используемые в дальнейшем для обработки алгоритмами Data Mining (а также другими методами обработки и анализа данных) для решения прикладных задач имеют плохое качество. Для качественного преобразования нужна первичная обработка, очистка данных выборки.

В них содержится много ошибок: дублирование, несоответствия, противоречия, пропуски, аномалии и множество других проблем. Исключить их отклонение полностью невозможно: данные нужно очищать. Очистка данных в статистической выборке - одна из наиболее актуальных задач анализа. На ее выполнение тратится большая часть времени при создании решений (иногда до 80% всего времени, отведенного на весь проект). Это необходимый этап работ в любом проекте. Инструменты очистки данных не избавляют пользователя от работы, некоторые грязные данные вообще не поддаются автоматической очистке из-за разнородности и специфичности информации. Кроме того, нужно отметить, что отсутствуют универсальные способы устранения ошибок данных выборки и каждая ситуация, исходя из их изменчивости, требует применения своего метода или совокупности методов.

Только в случае достаточно надежных и «чистых» значений данных возможно применение алгоритмов Data Mining и Text Mining.

Для улучшения качества исходной информации приходится использовать все возможные способы как организационные, так и программные.

Плохое качество данных является одной из самых больших проблем при построении аналитических решений, т.к. на основе некорректной информации делаются неверные выводы. Даже самые совершенные методы анализа не помогают, необходимо использовать специальные механизмы очистки, которые включают в себя две стадии: обнаружение и непосредственная очистка (похоже на etl).

На первом шаге статистические данные исследуются на предмет "загрязненности". Устанавливается, есть ли в них ошибки и к какому виду они относятся.

В зависимости от обнаруженных недостатков на следующем шаге принимаются определенные меры, происходит их устранение, начинаем очистку. На выходе этой стадии образуются данные, приведенные к единому формату и очищенные от найденных ошибок. Они пригодны для последующей обработки и могут участвовать в бизнес-анализе.

В общем, ошибочные данные, как правило, имеют следующий вид:

Они неполные, т.е. в них отсутствуют либо значения атрибутов, либо отсутствуют определенные атрибуты, представляющие интерес, или содержат только совокупные данные
Шум: содержат ошибки или выбросы
Несогласованность: записи содержат несоответствия в кодах или именах

Для лучшего восприятия полезно систематизировать перечисленные выше сведения об ошибочных данных, описав боле подробно виды ошибок, которые служат причинами возникновения "загрязненной" информации.

Виды ошибок

Существует несколько разновидностей типичных ошибок, появляющихся в ходе работы с личными данными:

Противоречивость данных. Несколько полей содержат в себе информацию, которая не соответствует друг другу по смыслу. Например, встречаются случаи, когда в поле "Фамилия" введена строка "Иванов", а в поле "Пол" стоит отметка "Женский". Также часто возникают противоречия в данных из-за того, что дата рождения не совпадает с возрастом, введенного поселка нет в указанной области, код домашнего телефона не соответствует городу проживания и так далее.
Неполнота данных.Данные не заполнены или заполнены не до конца. В числах (переменных) и тексте поможет определение среднего. Некоторые поля оставляются респондентами пустыми, так как они не знают, какие значения в них внести. К таким данным относятся, например, индекс места проживания, код города. Кроме того, часто используются сокращения при заполнении названия улиц, городов, полного имени и тому подобного. (Если статистическая информация числовая или текстовая, вместо пропусков ставим среднее значение переменной, или заменяем выбранным значением. При автоматической замене в центральной ячейке ставим среднее по двум соседним ячейкам или по столбцу).
Неправдоподобие данных.Данные принимают сомнительные значения, например, слишком большое или слишком маленькое значение – так называемый выброс. Иногда респондент ошибается и вводит данные в другое поле, расположенное рядом или похожее по смыслу. Чаще всего это происходит с номерами домашних, мобильных или рабочих телефонов.
Опечатки в данных.Данные содержат лишние или пропущенные символы. Из-за невнимательности респондента или при быстром вводе данных вместе со словами в поля анкет вносятся лишние пробелы, цифры, знаки, пропускаются символы. Вместо имени "Иван" могли быть введены записи: "И ван", "Иван1", "Иван" или "Ивн".
Несоответствие форматов данных. Однотипные данные имеют разные форматы представления. Например, поле "Дата рождения" может быть заполнено следующим образом: "11 января 2001", "11.01.2001", "11.01.01".
Дублирование данных. Несколько записей имеют один и тот же смысл (величины, значения). При обработке анкет в нескольких из них в поле "ФИО" были обнаружены записи "Иванов Иван Иванович", "Иванов Ваня" и "Иванов И.И." - дубликаты. При их исследовании могло оказаться, что все анкеты принадлежат одному и тому же человеку. Данным требуется очистка от дубликатов.

На сайте sciencehunter.net предлагается сервис для предварительной обработки ошибочных данных.

С применением инструментов этого сервиса можно добиться хороших преобразований, решаются следующие задачи очистки данных:

Обнаружение ошибок: пропуски в упорядоченных и неупорядоченных данных, выявление аномальных отклонений и противоречивых сведений.
Исправление ошибок. Есть возможность не просто обнаружить ошибки, но и исправить их, например, заполнить пропуски или отредактировать аномальные значения.

Это стандартное действие, самые простые методы очистки хранилищ данных. Они в основном предназначены для исключения и исправления таких видов ошибок, как пропуски, аномальные отклонения, опечатки и противоречивые сведения. Для более глубокой очистки они не подходят, потому что основываются на заранее предусмотренных ограниченных условиях поиска ошибок и их устранении, а также не выясняют общих закономерностей, которые могут быть установлены при рассмотрении всех изучаемых данных. Для этих целей применяются другие методы, основанные на статистических функциях и алгоритмах Data Mining.

Современные технологические тенденции прививают нам много разных привычек и даже правил, в том числе и использование автоматизации любых процессов. Выборочное использование полезных технологий помогает добиться качественного распределения и экономии времени и сил, вместо их разброса на ненужные процессы.

Для получения более подробных сведений Вы можете обратиться к нашему электронному учебнику в раздел Предварительная обработка данных, а также решить предложенные там же задачи, задать интересующие Вас по этому разделу вопросы и получить на них ответы.