ВОЗМОЖНОСТИ DATA MINING КАК ИНСТРУМЕНТА ПОЗНАНИЯ: МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ

shegenn Ред. 01.07.2021

ВОЗМОЖНОСТИ DATA MINING КАК ИНСТРУМЕНТА ПОЗНАНИЯ: МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ

"От обоснованной догадки к гипотезе и дальше к теории - таков путь познания; от незнания к знанию, от неопределенности к истине - посредством чувств, разума, критического мышления и воображения."

Э.Фромм

Получение конкурентных преимуществ во многих отраслях возможно только в связи с нахождением в имеющихся оцифрованных данных истинных знаний. Необходимым шагом при этом является предварительное выявление в них скрытых и неочевидных закономерностей на основе использования методов Data Mining (DM). Для построения эффективной стратегии решения практических задач бизнеса важно знать возможности и пределы использования методов DM как инструмента познания.

Расширение возможностей существующих инструментов познания, а также поиск новых таких инструментов всегда вызывало большой интерес ввиду его исключительной важности для развития человеческой цивилизации, так как знания, полученные в результате их использования являются важнейшим средством преобразования действительности.

В последние десятилетия широкое распространение получили методы и инструменты Data Mining (DM). Это произошло в ответ как на запросы практики в различных отраслях народного хозяйства, так и в связи с ростом вычислительных возможностей компьютеров, которые позволили накапливать и обрабатывать большие объемы разнородных данных.

Алгоритмы DM, реализованные в виде компьютерных программ, фактически сформировали новый исследовательский инструментарий. В то же время, повсеместное широкое применение методов DM ставит вопросы методологического характера, касающиеся того, правильно ли понимаются их возможности и пределы, а также полученные после обработки данных результаты с точки зрения научного познания. На первый взгляд, это кажется отвлеченным вопросом, однако его прояснение даст возможность заинтересованным сторонам достигать лучших результатов и организовать более эффективные бизнес-процессы.

Отметим, что в разной степени методологии распознавания образов, как ранее назывались методы ДМ, уже уделялось внимание таких всемирно признанных в этой области ученых как М. Бонгард, Н.Загоруйко, А. Закревский, Л. Малиновский. Однако с точки зрения теории познания такой анализ ими не проводился.

Фактически, в большинстве исследований, связанных с использованием методов DM практически постоянно возникает вопрос, относящийся к методологии познания: «Какие знания и какого уровня можно извлечь из накопленных данных?». Этот вопрос константирует незрелость наших представлений о DM с точки зрения теории познания, а также суммирует множество практических проблем применения DM, которые не решаются наращиванием вычислительных возможностей или паралельными вычислениями при обработке больших массивов данных (Carbon, Jensen, Sato, 2016). Помимо трудностей правильного выбора и применения методов DM в отношении решаемых задач, нет полноценного понимания его возможностей и пределов применения, а также самого процесса (этапности) и получаемых результатов с точки зрения теории познания. В то же время осознание возможностей и пределов применения методов DM может привести к значительному изменению методологии исследования и решения практических задач и повышению эффективности применения рассматриваемых методов (О.С.Сизов, 2015).

Практика аналитической работы показывает, что методы DM действительно являются мощным инструментом научного познания, имеющим междисциплинарное значение. Более того, именно методы DM могут послужить сближению подходов к научному познанию, как в гуманитарных, так и в естественных науках. На основе DM решается огромное количество прикладных задач, совершенствуются и сами алгоритмы интеллектуального анализа данных. Однако в методологическом плане делается очень немного и специальных исследований в этом направлении практически нет, что существенно тормозит дальнейшее развитие DM, который, по большому счету, мог бы стать основой дисциплинарной революции в теории познания и даже позволить генерировать крупные инновации в сфере интеллектуальных технологий.

Цель проведенного исследования: уточнить возможности и пределы применения методов DM с точки зрения методологии научного познания.

Процесс научного познания – это процесс получения и использования знаний, который носит ступенчатый характер (Моисеев, 1982). Первый этап познания – это вычленение и формулировка проблемы, затем опыт, наблюдение, эксперимент, изучение феномена, второй этап – это обобщение фактов, выделение в них существенного, формирование, изобретение с их учетом гипотез и выводов, т.е. некоторая абстракция от первого. На третьем этапе проводится проверка на практике найденных абстракций, т.е. гипотез или выводов, полученных ранее. Это универсальная схема познания (рис.1).

Особенно остро эти вопросы начинают проявляться при использовании компьютеров для интеллектуального анализа данных. Основной вопрос здесь, очень важный с точки зрения познания – что привнесло в методологию научного познания применение методов DM и что может дать использование его результатов?

Применение инструментов DM начинается только тогда, когда имеются уже подготовленные данные, в виде выборок, в которых объекты представлены наборами многомерных данных – например, в виде обучающей выборки (ОВ). Общепризнано [Закревский, 1988], что в основе всех методов ДМ лежит индуктивный метод познания, т.е. в случае ДМ (индуктивного обучения) программа обучается на основе предъявленных ей эмпирических данных. Другими словами, программа строит некое общее правило на основе предъявленных ей эмпирических данных, полученных, в частности, путём наблюдения или эксперимента. При использовании любых методов DM конечный результат представляется в виде той или иной модели, отражающей некоторые закономерности, присущие исследуемым данным, которые логично назвать эмпирическими закономерностями (ЭЗ), и которые, возможно, носят характер гипотез, о чем весьма осторожно высказался (Закревский, 1988).

Рис.1. Общая схема научного познания (с использованием методов DM).

(DM – Data Mining, ЭЗ – эмпирическая закономерность)

Таким образом, основной результат применения методов DM – это полученные с их помощью ЭЗ в изучаемой предметной области, которые могут быть представлены в самых разных формах и видах. Эти ЭЗ являются, по сути, «заготовками», важным вспомогательным материалом для подготовки и формирования диалектического «скачка» или сложного перехода от эмпирического уровня познания к теоретическому уровню через изобретение гипотез, которые по выражению Ф.Энгельса, являются движущей силы науки (рис.1).

Для уточнения вопроса об уровне извлекаемых знаний с точки зрения теории научного познания при анализе накопленных данных в конкретной предметной области нам не обойтись без методологии научного познания, которая «изучает методы построения научного знания и методы, с помощью которых добывается новое знание, т. е. методы и формы научного исследования, в минимальной степени занимаясь технической стороной дела» (Штофф, 1978).

Принято различать следующие уровни методологии научного познания (Штофф, 1978):

Методика – самый низший уровень, примеры – инструкции, технические приемы и т.п.;
Научный метод, опирающийся на знание соответствующих закономерностей, то есть на теорию данной предметной области.
Общенаучный метод, достаточно общий метод научного исследования, применимость которого выходит за рамки той или иной научной дисциплины и опирается на существование закономерностей, общих для различных областей.
Методы, применяемые во всех науках без исключения, хотя и в различных формах и модификациях. Это самые общие методы научного познания, и их исследование составляет предмет философской методологии. (философии науки).

С учетом вышеизложенного предлагается дополнить приведенную выше классификацию уровней методологии научного познания в виде перечня пунктов 1-4, предложенного В. Штоффом, схемой, представленной на рис. 2 – своеобразным графическим дополнением к этим пунктам и наглядно показывающим результаты работы в конкретной изучаемой предметной области индуктивного подхода, который лежит в основе всех методов DM, по отношению к уровням научного познания.

Рис.2. Взаимосвязь уровней познания

Сокращение: ЭЗ – эмпирические закономерности. ОВ – обучающая выборка. ЭВ – экзаменационная выборка

Основное назначение этой схемы – показать взаимосвязь уровней познания, а, самое главное, показать предельные возможности любых методов DM. Из предыдущего изложения и из поясняющего рисунка следует, что предел уровня методологии научного познания, достигаемый с помощью методов или инструментов DM, есть самый низкий из этих уровней – уровень методик.

ЭЗ как результат вполне понятен специалисту в предметной области и пригоден для дальнейшей обработки, как базис для возможного перехода к гипотезе, которая не является автоматическим результатом индукции, выступает не как индуктивное заключение, а как один из возможных ответов на возникшую проблему, в том числе в виде догадок, предположений и вытекающих из них следствий с последующей проверкой на практике. Но появление гипотезы обязательно.

С помощью DM у нас появляется возможность автоматической генерации ЭЗ, которые выступают «кирпичиками» для выдвижения и построения гипотез в рамках решения конкретной задачи. То есть появлению гипотезы предшествует очень важный этап генерации (поиска) ЭЗ – это как раз и есть вклад DM в процесс познания! Причем этот этап происходит автоматически, на основе алгоритмов, изобретенных человеком и реализованных в виде компьютерных программ (человек только выбирает подходящий алгоритм и загружает данные).

В то же время, возможность перехода от ЭЗ к гипотезе, как вероятному знанию - путь не такой простой и прямолинейный. Здесь наблюдается пересечение или стык диалектической логики, методологии научного познания и психологии научного творчества (рис.3). Анализ структуры такого сложного диалектического пересечения является одной из трудных задач, стоящих на пути перехода эмпирического базиса к теоретическому построению (Штофф, 1978).

Рис.3.

Это также требует значительной и непростой интеллектуальной работы, определенных усилий от исследователя и, скорее всего, проведения дополнительных исследований, которые можно считать в большой степени продолжением DM. Это касается использования практически всех известных методов DM.

Таким образом, предельный результат, который может быть получен непосредственно при использовании любых инструментов DM – это уровень ЭЗ или говоря методологическим языком – уровень методик.

Отдельно нужно упомянуть такой класс моделей DM как нейронные сети. Использование нейронных сетей приводит в ряде случаев к неплохим результатам, однако, к сожалению, они фактически ничего не дают с точки зрения методологии научного познания – мы не можем сформировать ЭЗ в этом случае и, тем более, перейти к формулировке и изобретению гипотез! Их уровень ограничивается уровнем «примитивного» (как у животных) распознавания (классификации) и не более того, а это само по себе не есть новое знание. С познавательной и методологической точек зрения – это тупиковый вид DM или это совершенно другая парадигма научного познания. Фактически, об этом же идет речь и в работе (Zhi Chen, Yijie Bei and Cynthia Rudin, 2020), в которой авторы пытаются «нащупать» пути понимания работы нейронных сетей.

Отметим, что именно на выдвижение ЭЗ и нацелен веб-сервис по обработке цитограмм, который позволяет цитологам-исследователям автоматически генерировать ЭЗ и со значительной вероятностью успеха изобретать на их основе гипотезы для решения стоящих перед ними задач. В качестве примера такого подхода можно использовать изображения, приведенные в работе, посвященной диагностике лейкозов (Глузман с соавторами, 2000, Леках, 2011).

Во многих случаях, решение конкретных практических задач, ограничивается, с точки зрения познания, фактически уровнем ЭЗ, на основе которой формулируют в дальнейшем, в лучшем случае, инструкции или правила принятия решения, и остаются на первом, нижайшем из возможных, эмпирическом уровне познания. В краткосрочной перспективе бизнес как сферу практической деятельности это устраивает, но в долгосрочной перспективе теряется главное – нахождение действительных новых знаний, которые могут быть воплощены в инновации, или разработку нового метода, образа действий, бизнес-модель и т.п., что может дать конкурентное преимущество высшего порядка.

Точно также зачастую бизнес устраивает и уровень «примитивной» классификации, присущей нейронным сетям.

Исходя из этого, можно утверждать, что методы DM могут обеспечить только уровень эмпирического познания в исследуемой конкретной предметной области: уровень методик, инструкций, который полностью вписывается в схему на рис.1 и рис.2.

Теперь становится ясно, почему нет «прорывных» открытий, сделанных с помощью DM, – потому что они могут быть сделаны пока только в конкретной предметной области, а это требует тесного сотрудничества и взаимодействия, полноценной научной коммуникации с представителями той самой предметной области, что является самым большим препятствием для такого рода достижений.

Отсюда следует ряд выводов.

Методы DM, как и Big Data, – это новая, человеко-машинная методология эмпирического познания.
У этих методов есть свой предел в виде ЭЗ, представленных в различном виде.
ЭЗ могут служить «заготовками» для подготовки, генерации и формулировки гипотез с целью дальнейшего, более глубокого познания предметной области.
Для выбора оптимальной стратегии использования инструментов DM нужно четкое понимание целей решения задачи.
Использование инструментов DM требует тесного сотрудничества со специалистами в конкретной предметной области, что, в свою очередь, вызывает ряд вопросов, связанных с: инициированием подобного сотрудничества; готовностью специалистов в предметной области; постановкой задачи в соответствующем разрезе; созданием коллектива, решающего задачу; и т.д.
«Уход» специалистов по DM в область создания стандартизованного программного обеспечения (облачные сервисы, веб-сервисы, десктопные приложения) не решает задачу углубления познания; пределом все равно остается эмпирическое познание – получение ЭЗ для данной конкретной предметной области. В этом случае тяжесть решения конкретной задачи по углублению познания, подготовки, генерации и формулировки гипотез полностью перекладывается на специалистов предметной области.

Полноценное взаимодействие специалистов в предметных областях и Data Scientist является значительно более трудоемким в смысле организационных и коммуникационных издержек, но, с нашей точки зрения, такой подход, тем не менее, способен обеспечить глубинные прорывы в предметной области. Возможен и промежуточный вариант, который сейчас начинает активно использоваться в бизнесе. Многие компании осознали, что без эффективных «постановщиков» задач и аналитиках, разбирающихся в инструментах DM, простое использование десктопных, веб- и облачных сервисов малопродуктивно.

С методологической точки зрения установлен важный факт – предел применимости любых методов DM – это уровень ЭЗ, т.е. уровень методик и инструкций в определенной предметной области, в которой применяются методы интеллектуального анализа данных. На сегодня – это единственное и зримое достижение любых алгоритмов DM. Заметим, что один из доступных и подходящих для исследователей, не имеющих специальной подготовки в области математики и информатики, веб-сервисов для нахождения ЭЗ, реализован на портале ScienceHunter

Литература

Бонгард М.М. Проблема узнавания. Москва: «Наука», 1967 г., 320 с.

Загоруйко Н.Г. Методы распознавания и их применение. – М.: 1972, Советское радио. – 208 с.

Загоруйко Н.Г. Прикладные методы анализа данных и знаний. – Новосибирск: ИМ СО РАН, 1999. – 270 с.

Закревский А.Д. Логика распознавания. Мн.: Наука и техника, 1988, 118 с.

Малиновский Л.Г. Процессы классификации – основа построения наук о действительности // Алгоритмы обработки экспериментальных данных. М.:Наука, 1986, с.155-182.

Carbon A., Jensen M., Sato A.-H. (2016). Challenges in data science: a complex systems perspective. Chaos, Solitons & Fractals, 90, 1-7. https://doi.org/10.1016/j.chaos.2016.04.020

Сизов О.С. Вопросы практического внедрения Big Geo Data на примере развития технологий дистанционного зондирования. Геоматика, №3, 2015 г., с.16-25.

Моисеев Н.Н. Человек, среда, общество. Проблемы формализованного описания. Москва: «Наука», 1982. 240 с.

Штофф В.А. Проблемы методологии научного познания. Москва, 1978. 269 с.

Zhi Chen, Yijie Bei and Cynthia Rudin "Concept Whitening for Interpretable Image Recognition". Nature Machine Intelligence, Dec. 7, 2020. DOI: 10.1038/s42256-020-00265-z

Диагностика лейкозов. Атлас и практическое руководство / Под. ред. Д.Ф. Глузмана. К.: МОРИОН, 2000. – 224с.

Леках В.А., Больные вопросы современной онкологии и новые подходы к лечению онкологических заболеваний, М., «Либроком», 2011 г., с. 89.