32x32

shegenn 19.05.2020

«Статистическое мышление» и «Большие данные»

Автор: Ю. П. Адлер

«Большие данные» («Big Data») – важное новое направление, связанное со сбором и анализом очень больших массивов данных, например, таких, что не помещаются в обычный компьютер. Это открывает неслыханные возможности практически во всех областях человеческой деятельности.

Сторонники этого направления не без основания полагают, что открывающиеся возможности радикально изменят всю нашу жизнь. Однако в эйфории открывающихся возможностей многим кажется, что все старые теоретические модели, связанные со сбором и анализом данных, теперь можно отбросить, ограничившись лишь простым корреляционным анализом. Между тем, сторонники принципов «статистического мышления» смотрят на дело иначе. Они полагают, что некоторую дисциплину в подходе к сбору и анализу больших массивов данных всё-таки придётся сохранить. Данная работа направлена на обсуждение этой коллизии. Мы полагаем, что точкой зрения «статистического мышления» не стоит пренебрегать.

 

«Все модели ошибочны, но некоторые из них полезны».

   Дж. Бокс

«Цель расчётов – не числа, а понимание».

  Р. В. Хемминг

 «Для человеческого ума не доступна совокупность причин явлений. Но потребность в отыскании причин вложена в душу человека».

  Л. Толстой

С ростом технических возможностей у людей растут и потребности в наилучшем использовании этих возможностей. Это хорошо видно на примере «Больших данных» («Big Data»). Как только сбор данных резко подешевел благодаря многочисленным датчикам, штрих-кодам и встроенным компьютерам, появилась идея таких программных продуктов, которые позволяют объединить в единую сеть большое число обычных компьютеров, а такая сеть способна обрабатывать огромные объёмы данных, что немыслимо для обычных компьютеров. Больше того, удалось резко ослабить требования к однородности и упорядоченности собираемых данных, что, в свою очередь, существенно снижает затраты. И дело не только в затратах: открываются новые возможности, которые действительно меняют практически всё, что нас окружает.

Адептам этого нового подхода кажется, что можно забыть многие классические методы сбора и анализа данных, вместе с многочисленными проблемами их сбора и анализа, накопившимися за многие десятилетия. Смотрите, что, например, говорит главный редактор журнала Wired Magazine Крис Андерсон летом 2008 года (цитируем название его работы) [1]: «Конец теории: потоп данных делает научный метод излишним». Дальше Крис писал: «Шестьдесят лет назад компьютер сделал информацию читабельной. Двадцать лет назад Интернет сделал информацию ценной. Десять лет назад сделали машину-поисковик для одной базы данных. Сегодня «Гугл (Google)» и подобные ему компании ворочают петабайтами данных. Мы дети эпохи петабайтов.» В этой эпохе многое иначе, чем прежде. Килобайты хранились на флоппи-дисках, для мегабайтов нужен жёсткий диск, терабайты нуждаются уже в дисковом массиве, в матричной дисковой подсистеме с двумя или более дисковыми накопителями, ну а петабайты хранятся в «облаках». Для хранения массивов такого размера пришлось разработать в 2005-2010 годах специальные «облачные» хранилища (см., например, [2]).

Питер Норвиг, директор по исследованиям в «Гугл», открывая одну из конференций, сославшись на наш первый эпиграф, сказал: «Все модели ошибочны, и мы всё чаще можем преуспеть без них». Перечисляя такие достижения науки, как механику Ньютона, квантовую физику, теорию Дарвина, генетику, Крис [1] говорит, что во всех таких науках создаются лишь частные модели, которые всё время пересматриваются и со временем становятся такими сложными, что работать с ними становится всё дороже, а ответы получаются всё менее интересными. Что же касается наук о человеке и об обществе, то они, по его мнению, совсем не продвинулись в понимании своих объектов. «Что мы знаем о том, почему человек поступает так, как он поступает?» – спрашивает он. Его статья заканчивается риторическим вопросом: «Что наука может дать «Гуглу»?». Это важный вопрос, к которому мы ещё вернёмся. Пока же выясним, каким таким магическим оружием обладает «Гугл», что оно служит ему вместо «сезама», открывающего любую дверь? Оказывается, это не новость, это самая обычная корреляция, только прилагаемая к большим массивам данных. «Корреляции вполне достаточно» [1]. Хотя Крис позже несколько смягчил свою позицию, всё же главные вопросы остались. И мы обсудим их после обращения к книге [3] – первой переведённой на русский язык книге про «Большие данные». Её авторы занимают сходную с Крисом позицию, но, поскольку это книга, они аргументируют свою позицию более обстоятельно. Вот краткий пересказ основных моментов главы «Корреляции».

Есть главный вопрос, ради ответа на который в прошлом велись научные исследования. Это вопрос «Почему?» такой вопрос требует предположения о существовании причинной связи между изучаемыми явлениями. Если мы верим в причинность, тогда естественно реализовать процесс: выдвижение гипотезы – проверка гипотезы всеми доступными способами – выдвижение новой гипотезы, поскольку предыдущая редко оказывается приемлемой. Это долго, дорого и не эффективно. Главная трудность заключается в том, что сам исходный вопрос поставлен не верно. Вместо «Почему?» надо задавать вопрос «Что?». Тогда мы сразу отказываемся заниматься поисками причинности, а вместо этого бесполезного занятия, начинаем исследовать корреляции между многими миллионами переменных в массивах не только большой размерности, но и с огромным числом реализаций (наблюдений, опытов, событий). И тогда, как по мановению волшебной палочки, появляются нужные нам ответы. Совокупность полученных корреляций позволяет делать прогнозы с высокой вероятностью успеха, и это есть основа успеха в использовании «Больших данных». Конечно иногда полезны нелинейные корреляции, но это – дело будущего.

Далее авторы [3] со ссылкой на работы лауреата Нобелевской премии американского психолога и экономиста Даниэла Канемана обсуждают проблему причинности. Есть, – говорят они, – два способа постижения мира:

  • с помощью быстрых иллюзорных причинно-следственных связей, и
  • медленным методичным казуальным экспериментом.

По Д. Канеману это соответствует двум формам мышления – быстрой и медленной. Причём, как думают авторы [3], внутреннее ощущение причинности не углубляет нашего понимания мира. Это – лишь иллюзия понимания.

Давайте теперь обратимся к нашему второму эпиграфу. Из того, что мы что-то измерили или вычислили, практически ничего не следует. Результат вычислений надо ввести в некоторый контекст, только тогда его можно будет как-то использовать. Если, например, мы определили, что рост некоторого человека равен двум метрам пятидесяти сантиметрам, то, само по себе, это лишь констатация. Но, если мы узнаем, что люди выше двух метров встречаются довольно редко, а такого роста вообще не встречаются в настоящее время, тогда мы понимаем, что либо в результат вкралась ошибка, либо обнаружен уникальный человек. На обыденном языке это и называется пониманием. Оно далеко от проблем причинности и связанных с ними философских рассуждений. Понимать – значит вписать в контекст и получить возможность принимать решения. И контекст может оказаться не адекватным, и решения могут оказаться ошибочными. Но люди иначе действовать пока не умеют. Они будут воспринимать обнаруженные ошибки как источник информации, которая должна способствовать переходу на новый, более глубокий, уровень понимания. В быту это называется жизненным опытом.

Случилось так, что для решения задач, связанных с «Большими данными», на первых порах пригодился анализ корреляций. Это один из самых распространённых инструментов прикладной статистики. В европейскую науку его, видимо, ввёл Жорж Кювье в 1806 году. Он интересовался тем, как по отдельным элементам можно восстановить, например, скелет животного в археологии и в палеонтологии. Впрочем, у него было много предшественников. Достаточно вспомнить Гулливера, которому для того, чтобы пошить рубашку, измерили практически только диаметр большого пальца правой руки у основания, поскольку в Лапутии корреляция а-ля Кювье была уже известна в 1720 году (когда вышел из печати роман Джонатана Свифта). В статистическую практику его ввёл Френсис Гальтон в 1888 году, а аккуратно описал математически в последние годы XIX века Карл Пирсон. С тех пор утекло много воды. Была обнаружена зависимость способа оценки корреляции от видов шкал, в которых описываются переменные задачи. В работе [4] рассматриваются многие коэффициенты корреляции и статистические критерии проверки гипотез об их значимости. Опыт работы с корреляциями показал, что центральная проблема – это «ложные» корреляции. Эту проблему прекрасно иллюстрирует такая статистическая байка. Когда статистики добрались до книг регистрации жителей города Стокгольма, они обнаружили там массу самых разнообразных записей за сто лет. Их заинтересовали данные по числу новорождённых в семьях этого города, и по числу аистов, которые, согласно правилам, регистрировались. Корреляция между этими двумя показателями оказалась практически неотличимой от единицы! Наконец-то удалось научно «доказать», что аисты приносят детей. Сторонники точки зрения, что детей находят в капусте, были посрамлены. Такова сила корреляции. Понятно, что в данном случае секрет прост: и дети, и аисты зависят от уровня материального благосостояния жителей.

Нас, применительно к «Большим данным», интересуют многомерные корреляции. Ими статистика тоже занималась. В начале 20 века британские психологи задумались над тем, зависит ли успеваемость учеников по одному предмету от успехов по другим предметам. Всё началось с работ Ч. Спирмена в 1906 году. Постепенно это переросло в огромную область прикладной многомерной статистики, получившей название «факторный анализ» [5]. Для факторного анализа характерна неоднозначность результатов и трудность их интерпретации. Похоже, что «Большие данные» рано или поздно столкнутся с аналогичными проблемами. Недавно появилась книга о корреляции для не специалистов в статистике [6]. Мораль проста: корреляция – это сложный и коварный инструмент, выдающий неоднозначный результат. Соблазнительно интерпретировать его как причинный, хотя ясно, что это опасно. То, что в «Больших данных» называют корреляциями и вычисляют по формуле коэффициента корреляции, есть в сущности некоторая мера, пропорциональная косинусу угла между многомерными векторами, то есть, мера коллинеарности векторов. Она становится мерой корреляции только в рамках определённой статистической модели. Таким образом мы получаем пучки векторов, которые находятся под малыми углами между собой, и, соответственно, близкие к ортогональным к ним. И все промежуточные варианты, конечно. Вполне возможно, что информация такого рода полезна.      

Теперь мы вынуждены вернуться к детерминизму и к моделям, которые ему противопоставляются. Обратимся для начала к нашему третьему эпиграфу. Лев Толстой, как обычно, удачно обобщает ситуацию с причинностью. Вечный спор между лапласовским детерминизмом («дайте мне координаты и скорости всех частиц во вселенной, и я предскажу безошибочно их прошлое, настоящее и будущее») и стохастическими моделями мира (например: «мир – это сеть, в узлах которой расположены драгоценные камни, и каждый камень отражает все остальные и отражается во всех остальных»), конечно, никогда не кончится. Правда, есть убедительные свидетельства того, что в микромире господствуют стохастические представления. Вот, что писал Нильс Бор в 1949 году: «На обсуждении стоял вопрос, следует ли рассматривать отказ от причинного описания атомных процессов, фактически содержащийся в попытках овладения новым положением вещей, как временное пренебрежение идеалами, которые в конечном счёте снова вернут свои права, или же дело идёт о необратимом шаге на пути к настоящей гармонии между анализом и синтезом физических явлений» [7].

Лаплас полагал, что мир детерминирован, а отдельные ошибки, сбои, неточности – просто естественные следствия сложности мира и нашей неспособности к абсолютному познанию. После рождения квантового мира такая позиция становится трудно защитимой. Поэтому в конце прошлого века В. В. Налимов [8] разработал концепцию вероятностного видения мира. Вот что он пишет (с. 17): «Речь идёт не только о вероятностном видении Мира, связанном с его бесконечной сложностью, но «на самом деле» внутренне детерминистичном, а именно о вероятностном Мире, где вероятность в самой сути. Это – вероятностная онтология вероятностного Мира, а не вероятностная гносеология детерминистического Мира.»

Таким образом, можно полагать, что чаша весов склоняется в сторону вероятностных представлений, чему способствуют и «Большие данные», прежде всего благодаря своим размерам. Похоже, что никак кроме «Большие данные» не изменили ситуацию с причинностью, она и раньше была не ахти. Кажется, что теперь невозможно содержательно интерпретировать полученные результаты. Мы думаем, что дело просто в том, что пока ещё не накоплен опыт выдвижения объяснений. Видимо он скоро накопится. Как известно, постфактум объяснить, при желании, можно всё. Насчёт моделей, похоже, тоже мы имеем дело с заблуждением. Теоретические модели и раньше были большой редкостью. Ведь не даром Норберт Винер предложил модель «чёрного ящика», которая предполагает, что у нас нет никаких теоретических соображений. Именно такая модель и используется в «Больших данных», только без названия. Нет оснований говорить о «конце теории» только потому, что используется модель «чёрного ящика». Есть ведь и другие научные основания. Достаточно обратиться, например, к Филиппу Франку [9], чтобы выяснить, что существуют, так называемые «интеллигибельные» принципы, не выводимые из опыта, но подчиняющие себе результаты опыта. К ним, например, относятся законы сохранения, второй закон термодинамики и другие концепции. Приступая к анализу «Больших данных» вы же не отменяете теорему Пифагора или законы преломления света. Поэтому мы уверены, что у науки всегда будет, что сказать «Гуглу».

Теперь мы готовы к обсуждению роли статистического мышления. При этом мы будем опираться на работу [10]. Вопреки распространённой точке зрения, мы думаем, что в интересах «Больших данных» максимально сблизиться со статистическим мышлением. Действительно, тогда возникнет столь недостающий фундамент. И все выиграют. Чем же может помочь статистическое мышление? Возможно, отчасти из-за рекламного характера многих публикаций об анализе «Больших данных» до сих пор не всё ясно с точки зрения методики сбора и анализа информации. Здесь статистическое мышление, с его дисциплиной, должно помочь систематическому подходу. Сколько переменных стоит включить в рассмотрение? Каких? В каких шкалах их представлять? Мысль о том, что всё это можно сделать «как попало» вряд ли выдерживает критики. Одно из ключевых понятий статистического мышления – это «вариабельность». Она присуща всем процессам, как природным (тогда её часто называют «изменчивостью»), так и созданным людьми. Между прочим, сколь угодно долгое наблюдение некоторого процесса, который меняется только в пределах своей естественной вариации, то есть, практически не меняется, не создаёт существенной информации об этом объекте. Всё, что можно узнать из такого наблюдения, – это оценка его среднего значения (для «Больших данных» очень надёжная оценка среднего, или, как говорят, меры центральной тенденции) и оценка некоторой меры вариабельности (например, квадратичной ошибки). Причём, весьма вероятно, что выявятся некоторые значимые корреляции, однако, к сожалению, скорее всего они будут ложными. Вот вам непосредственная польза от статистического мышления.

Другое важное понятие статистического мышления – это процесс, порождающий данные. Можно себе представить и данные, порождаемые несколькими разными процессами. Во всех случаях нам важно выяснить, как функционируют эти процессы, находятся ли они в статистически управляемых состояниях? Для ответов на такие вопросы обычно используются контрольные карты Шухарта, или иные аналогичные инструменты. Если гипотеза о статистической управляемости изучаемого процесса (объекта) не будет отвергнута в результате длительного наблюдения, то для получения информации о предмете нашего интереса стоит вводить в соответствующие процессы дополнительную искусственную вариацию. А это означает, что мы должны прибегнуть к методам планирования экспериментов. И мы думаем, что именно так и стоит действовать.

Говоря о том, сколько и каких переменных (факторов) следует включить в рассмотрение, важно помнить, что мы обычно не подозреваем, какие именно факторы надо рассматривать. Много лет назад я сотрудничал с одним большим предприятием по производству искусственного волокна. Один из важных для потребителей параметров (характеристик) этого волокна была прочность нитей на разрыв. Процесс формования волокон шёл при температурах, превышающих 1500°C, однако, их прочность, как мы случайно обнаружили, жёстко коррелирует с климатическими условиями местности, в которой располагался завод, прежде всего с температурой и влажностью. Это было трудно объяснить, и нам это так и не удалось, но сами закономерности прослеживались с высокой точностью на протяжении нескольких лет (назад). Насколько нам хватило данных цеховой лаборатории и местного Гидрометцентра. Так что, вопрос о выборе факторов остаётся открытым, несмотря на упрощение и удешевление процедур получения данных. Заметим ещё, что требует обсуждения одна специфическая проблема. В некоторых задачах выявление и оценивание отклика или откликов возникает само собой. Но есть и другие задачи, когда целевые функции не требуются. Такое различие может вести к далеко идущим последствиям.

Далее вступает в свои права метрология. В каких шкалах измеряются значения факторов? Какими приборами? С какими ошибками измерения? С помощью стабильной ли измерительной системы? Корреляции особенно чувствительны к выбору шкал. Один и тот же фактор может измеряться сотнями вариантов шкал. Корреляциям не безразличен выбор варианта. Для «Больших данных» не проблема – учесть роль «человеческого фактора» в процессе измерений. Например, нет сомнений, что оператор, проводящий химический анализ, вносит свой вклад в точность результата и другие метрологические характеристики. До последнего времени учёт факторов такого рода был затруднителен, причём, не по «идейным», а по чисто техническим причинам. Теперь, можно надеяться, подобные проблемы исчезнут.

Вот какую последовательность действий при работе с «Большими данными» предлагают авторы работы [10].

  1. Чёткая постановка задачи.
  2. Понимание процесса.
  3. Разработка стратегии анализа.
  4. Поиск источников вариации.
  5. Оценка качества данных.
  6. Глубокое знание предметной области.
  7. Последовательный подход.
  8. Моделирование процесса.

Сам термин «статистическое мышление» может ввести в заблуждение. Он, как отмечается в [10], относится не к алгоритмам, не к уравнениям, и даже не к данным, а к тому, как мы думаем о задачах, и о том, как применить к ним статистику. Это не методология, а философия. Стандартное определение этого термина, данное ещё в середине 90-х годов прошлого века Департаментом статистики Американского Общества Качества, сводится к следующему:

  • Все работы проходят в системе взаимосвязанных процессов.
  • Вариация присуща всем процессам.
  • Понимание и снижение вариации – ключи к успеху.

Следуя [10] рассмотрим для примера проблему оценки качества данных. Ясно, что анализ происхождения данных – начало всякого анализа. Когда данных очень много, их изучение существенно усложняется. Действительно, теперь нет возможности визуального контроля, часто смешиваются данные из разных источников, так что получается смесь «яблок с апельсинами», почти неизбежно возникают пропущенные данные, с которыми не понятно, что делать, данные систематически подвергаются автоматической очистке, что очень опасно, поскольку легко «выплеснуть ребёнка вместе с водой», и это перечисление можно продолжить.

Особого рассмотрения заслуживает привлечение к решению задачи всех субъективных данных, связанных с опытом работы специалистов в области, к которой принадлежит изучаемый нами объект, с мнениями экспертов в смежных областях, поскольку ясно, что «Большие данные» редко целиком укладываются в какую-нибудь узкую область знаний. Значит, речь идёт о командной работе над каждым проектом. А это, в свою очередь, ставит по-новому задачи обучения членов команды, выработки общей терминологии и организации непрерывного диалога.

Опыт показывает, что успех проектов такой сложности лежит через последовательный подход к исследованию. Здесь вполне уместен цикл Шухарта – Деминга.

В наши планы не входит более подробный анализ, нам было достаточно показать, что статистическому мышлению есть чем поделиться с «Большими данными». Вместе они готовы на большее вместе, чем порознь. Обзор по ранним работам в области «Больших данных» опубликован в [11].

Литература.

  1. Anderson C. The end of theory: the data deluge makes the scientific method obsolete. // Wired Magazine, June 23, 2008. Available at: wired.com/science/dis coveries/magazine/16-07/pb_theory. (Accessed January 11, 2014).
  2. Черняк Л. Интеграция – основа облака // Открытые системы, 2011. - № 7. – 16 сент.
  3. Майер-Шенбергер В., Кукьер К. Большие данные. Революция, которая изменит то, как мы живём, работаем и мыслим. – Перевод с английского Инны Гайдюк. – М.: Манн, Иванов и Фарбер, 2014. – 240 с.
  4. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. – Перевод с английского; Под общей редакцией Ю. П. Адлера. – М.: Прогресс, 1976. – 495 с.
  5. Лоули Д., Максвелл А. Факторный анализ как статистический метод. – Перевод с английского Ю. Н. Благовещенского. – М.: Мир, 1967. – 144 с.
  6. Благовещенский Ю. Н. Тайны корреляционных связей в статистике. – М.: Научная книга: ИНФРА-М, 2009. – 158 с. («Библиотека Солев»).
  7. Бор Н. Дискуссии с Эйнштейном о проблемах познания в атомной физике. – В сб.: Атомная физика и человеческое познание. – М.: Наука, 1961. – 151 с.
  8. Налимов В. В., Драгалина Ж. А. Реальность нереального. Вероятностная модель бессознательного. – М.: Издательство «МИР ИДЕЙ», АО АКРОН, 1995. – 432 с.
  9. Франк Ф. Философия науки: Связь между наукой и философией. – Перевод с английского; Под общей редакцией Г. А. Курсанова. – Изд. 3. – М.: Издательство ЛКИ, 2010. – 512 с.
  10. Roger W. Hoerl, Ronald D. Snee and Richard D. De Veaux //Applying statistical thinking to ‘Big Data’ problems. WIREs Computational Statistics. -Volume 6. - July/August 2014. – P. 222-232.
  11. Адлер Ю. П., Черных Е. А. Статистическое управление процессами. «Большие данные». – М.: МИСИС, 2016. -52 с.