Две типичные задачи Data Mining

1

Data Mining (раскопки данных, интеллектуальный анализ данных, глубинный анализ данных) – это совокупность методов и процессов обработки разнообразных и неоднородных данных по обширной совокупности признаков для обнаружения скрытых, ранее неизвестных, нетривиальных закономерностей (шаблонов, паттернов), которые, будучи практически полезными и доступными для интерпретации, могут ложиться в основу получения новых закономерностей и знаний в различных областях человеческой деятельности.

Основными задачами Data Mining являются:

1) кластеризация – предполагает сегментацию объектов, представленных в виде наборов разнотипных данных, характеризующих их свойства по набору признаков;

2) классификация – предполагает поиск различий между классами (кластерами) за счет выделения определенных признаков (свойств) и/или их сочетаний, которые являются разделяющими;  

3) уменьшение размерности – предполагает объективное обобщение данных, которое при снижении числа измерений (объектов) и признаков сохраняет общее представление о закономерностях, существующих в данной обучающей выборке, что позволяет упростить анализ и интерпретацию;

4) ассоциативные правила (выявление ассоциаций) – предполагает поиск и понимание зависимостей (ассоциаций, закономерностей) между связанными событиями (объектами) с определенной вероятностью; на основе таких зависимостей строятся понятные правила, определяя наиболее типичные и повторяющиеся шаблоны (фиксация наступления одновременных событий), которые могут быть использованы для лучшего понимания природы изучаемых событий (объектов) и для предсказания;

5) регрессия – предполагает установление зависимости одной (объясняемой, зависимой) величины от некоторой другой величины или нескольких величин (факторов, регрессоров, независимых переменных); регрессионная связь подтверждается статистически  и выражается уравнением регрессии с определенным коэффициентом детерминации; это позволяет определить по известным характеристикам объекта значение некоторого его параметра;

6) выявление последовательностей – предполагает установление закономерностей (зависимостей) между связанными событиями, которые, в свою очередь, позволяют установить наступление определенных событий с некоторым разрывом во времени (последовательность является общим случаем ассоциации с нулевым временным лагом);

7) прогнозирование – предполагает предсказание величин определенных переменных на основе использования обнаруженных закономерностей (зависимостей) по известным (заданным) значениям другой части данных; закономерности обнаруживаются путем анализа исторически накопленных и текущих данных;

8) анализ отклонений – предполагает выявление и анализ наиболее нехарактерных, нетипичных, отличающихся от общего множества данных  шаблонов;

9) визуализация – предполагает представление многомерного набора данных в удобном для восприятия виде (двухмерном или трехмерном), что облегчает и обеспечивает эффективность их анализа человеком с помощью наблюдения; визуализация может рассматриваться и как начальный этап, например, кластеризации, и как самостоятельная задача при исследовании основных свойств данных и нахождении в них общих закономерностей, классов (групп), распределений, аномалий.

 Тем не менее, мы считаем необходимым и важным все-таки выделить из перечисленного списка типичные или базовые задачи Data Mining.

Такими типичными или базовыми задачами Data Mining мы считаем две задачи - кластеризацию и классификацию!

В основе кластеризации лежит гипотеза компактности и процедура обнаружения закономерностей, содержащихся в представленной информации. Кластеризация есть разделение объектов на непересекающиеся (независимые) группы (кластеры), осуществляемое по данным, представленными  таблицей «объект-свойство». Объекты делятся на группы, объединенные по сходству данных этого набора (объекты внутри каждого кластера являются схожими, а объекты разных классов существенно отличаются). Кластеризация осуществляется в случае, когда разделение объектов на классы заранее отсутствует или не предопределено или не учитывается («обучение без учителя»/unsupervised learning).

Объекты определенного кластера могут подвергаться дополнительным исследованиям по всему или части набора анализируемых данных. Также кластеры как целостная группа могут характеризоваться определенными параметрами (например, средние значения данных).

Цели кластеризации:

– группировка объектов по похожести их свойств, например, для упрощения восприятия и анализа данных по кластерам и выборке в целом;

– сокращение объема хранимых данных;

– выделения нетипичных объектов;

– оценка иерархии в множестве объектов.

На основе кластеризации могут решаться задачи: уменьшение размерности, выявления ассоциаций, выявления последовательностей, анализа отклонений, визуализации. Кластеризация позволяет найти определенную структуру данных, ее результаты дополнительно интерпретируются и исследуются для практического использования.  

Основными вопросами при осуществлении кластеризации являются: 1) выбор метода и метрики; 2) принятие того, какие объекты считать близкими.

Подробнее с методикой проведения кластеризации можно ознакомиться в видео-презентации, на нашем сайте, а также в нашем электронном учебнике.

В основе классификации лежит гипотеза о монотонности пространства решений (похожие входные ситуации приводят к похожим выходным реакциям системы).  Классификация относится к процедуре обнаружения закономерностей, содержащихся в наборе данных (обучающей выборке) и к процедуре использования этих найденных закономерностей для предсказания. Классификация («распознавание образов») осуществляется, когда разделение объектов на множество классов известно («обучение с учителем»/supervised learning) и возникает необходимость определить их отличия на основе выделения разделяющих признаков или их сочетаний. В результате осуществляется поиск скрытых логических закономерностей, которые позволяют охарактеризовать классы, определить их сходства/различия. В результате получается решающее правило (правила) как комплекс разделяющих признаков, которое позволяет, например, отнести новый объект к тому или иному классу.

Цели классификации:

получение решающего правила (правил);

– определение признаков (сочетания признаков), важных для определения различий между классами;    

– выявление скрытых (например, логических) закономерностей.  

На основе классификации могут решаться задачи: прогнозирования, визуализации, уменьшения размерности, выявления ассоциаций, регрессии, выявления последовательностей, анализ отклонений. Результаты дополнительно анализируются, в том числе для целей интерпретации и для практического использования. 

Основными проблемами при решении задачи классификации являются: 1) выбор метода классификации; 2) снижение размерности; 3) проблема перебора; 4) интерпретации найденных закономерностей.

Подробнее с методикой проведения классификации на основе структурно-логических (граф-схемных, логико-комбинаторных) методов, включая методы распознающих (решающих) деревьев можно ознакомиться в презентации и на сайте.