32x32

blackmore 03.02.2020

Первоначальная обработка информации

Чтобы обеспечить качественный исследовательский процесс, в первую очередь нужно провести заблаговременную обработку данных – важный этап процесса Data Mining.

Информация, полученная в процессе анализа, должна отвечать установленным критериям. Поэтому один из важнейших подэтапов Data Mining – оценка качества. Data quality – показатель, с помощью которого можно определить достоверность, полноту, вероятность и оперативность толкования полученной информации.

Различают информацию уменьшенного диапазона и высокого уровня качества. К последним применимо еще другое название – «плохие», грязные данные. Информация высокого уровня качества – оперативные, точные и развернутые данные, поддающиеся трактованию. При помощи этих данных можно получить знания, поддерживающие порядок принятия решений.

Прогнозирование и реальность

Большая часть компаний стала обращать внимание на ценность поступающей информации. Низкий уровень качества данных ведет к понижению эффективности, принятию неверных решений и неспособности прийти к ожидаемому результату, но и препятствует выполнению законодательных предписаний. Исходя из этого, многие предприятия намерены принимать конкретные шаги, чтобы решить проблему достоверности данных.

Эта динамика удерживает свои позиции и ныне, в частности в сфере финансовых услуг. В большей степени это касается компаний, которые стараются выполнять договоренность документа Basel II. По его требованиям, данные низкого качества не могут быть использованы в системах анализа рисков, применяющиеся для введения наценок на кредиты и установления запросов фирм в капитале. 

Кроме того, значительные изменения претерпели видения на методы решения проблем качества. Изначально менеджеры акцентировали внимание на инструментах анализа. По их мнению преодолевать возникшую проблему нужно было еще на ресурсном уровне. Проще говоря, должна проводиться очистка информации и переаттестация сотрудников.

Однако сегодня подход изменился. Понятие качества информации значительно обширнее, чем ранее, намного больший круг людей понимает, что уровень качества должен гарантироваться процессами изъятия, трансформации и загрузки, а также приобретением данных из ресурсов, занимающихся подготовкой информации для дальнейшего анализа.

Определение грязных данных

Грязные данные - это неверные, недостаточные, не несущие никакой пользы. К таковым относится информация, представленная в некорректном формате или несоответствующая критериям. Они появились вместе с системой ввода данных.

Причиной их появления может быть что угодно:

  • ошибка во время ввода;
  • противоречие критериям;
  • отсутствие оперативного обновления;
  • неправильное обновление копий данных;
  • применение других единиц измерения или форматов представления;
  • некорректное удаление копий записей и т. д.

Кроме того, важно провести ценовой анализ присутствия «грязных данных», поскольку их наличие может стать причиной для наступления юридической ответственности и финансовых потерь. Избежать этого можно, если искаженные данные будут вовремя выявлены и подчищены. Также важно своевременно воспрепятствовать их возникновению.

Виды грязных данных

В свою очередь, грязные данные подразделяются на несколько типов, объединенных в группы. Это:

  • автоматически обнаруженные и очищенные;
  • данные, возникновение которых может быть предупреждено;
  • информация, непригодная для автоматического выявления и очистки;
  • данные, возникновение которых нет возможности предотвратить.

Поэтому стоит принимать во внимание, что даже особые средства для очистки не позволяют разобраться со всеми типами грязных данных. Среди распространенных их видов выделяют:

  • копии данных;
  • пропущенные значения;
  • выбросы и шумы.

Поговорим более детально о каждом.

Пропущенные значения

Некоторые значения могут быть пропущены по причине того, что данные были собраны не в полной мере (к примеру, при соцопросе забыли указать возраст интервьюера). Также причиной упущенных значений может стать несоответствие некоторых элементов определенным объектам.

Пропущенные значения в данных можно восстановить одним из способов:

  1. Исключение объекта из обработки информации.
  2. Расчет новых значений для упущенных сведений.
  3. Оставление без внимания упущенных значений в процессе анализа.

Еще одним методом восстановления пропущенных значений может служить их замена на вероятные значения.

Дублирование 

Копии – это записи с идентичными значениями всех элементов. Присутствие записей с идентичными значениями также может быть методом повышения важности некоторых записей. Такая потребность появляется для специального выделения конкретных записей из комплекта данных.

Однако чаще всего продублирование – результат ошибок во время подготовки данных. Избавиться от такой информации можно одним из двух методов. Первый способ – удалить всю группу записей с идентичными значениями. Использовать этот метод можно в том случае, если присутствующие в записи дубликаты приводят к недоверию, т. е. девальвируют имеющиеся сведения. Второй способ – замена группы записей с идентичными значениями на одну исключительную запись.

Шумы и выбросы

Эти элементы представляют собой одну проблему в процессе анализа данных. Выбросы могут быть представлены как отдельным отслеживанием, так и объединенным в группы. Задача аналитика состоит в их обнаружении и оценке уровня воздействия на итоги последующего анализа. 

В случае если выбросы представляют собой информативную, полезную часть оцениваемого комплекта данных, необходимо применять робастные способы и процедуры. Одной из распространенных практик является возможность выполнения анализа в два этапа – с выбросами или их отсутствием, а также проведение сравнительной характеристики полученных результатов.

 

Таким образом присутствие грязных данных в процессе Data Mining не свидетельствует о том, что необходимо их очистить или постараться предотвратить возникновение. Очень важно наличие выбора между их присутствием и ценой, либо временем, которое понадобится для очистки.