Аналитическая культура. От сбора данных до бизнес-результатов - Карл Андерсон
Шрифт:
Интервал:
Теперь это кажется не таким удивительным. У нас имеется простой итоговый статистический показатель — среднее значение одной переменной. Существует множество потенциальных «решений», или выборок, которым может соответствовать это значение.
Сейчас я покажу вам гораздо более удивительный пример. Предположим, у вас четыре набора данных с двумя переменными со следующими характеристиками.
![Аналитическая культура. От сбора данных до бизнес-результатов Аналитическая культура. От сбора данных до бизнес-результатов](https://pbnuasecond.storageourfiles.com/s18/84055/img/i_031.jpg)
Это система с жесткими заданными ограничениями. Значит, графики этих четырех наборов данных с идентичными статистическими характеристиками должны быть достаточно похожими, не так ли? А вот рис. 5.4 показывает, что это далеко не так.
![Аналитическая культура. От сбора данных до бизнес-результатов Аналитическая культура. От сбора данных до бизнес-результатов](https://pbnuasecond.storageourfiles.com/s18/84055/img/i_032.jpg)
Рис. 5.4. Квартет Энскомба. В каждом из четырех наборов данных идентичны среднее значение х, среднее значение y, дисперсия х, дисперсия y, корреляция и прямая линейной регрессии (до двух знаков после запятой)
Источник: https://en.wikipedia.org/wiki/Anscombe’s_quartet
Это так называемый квартет Энскомба[83], названный по имени математика и статистика Фрэнсиса Энскомба, который составил его в 1973 году. Энскомб выступил против существовавшей на тот момент доктрины в области статистических вычислений, которая гласила, что:
1) числовые данные точные, а графики — приблизительные;
2) для каждого конкретного вида статистических данных существует только один набор вычислений, обеспечивающий правильный статистический анализ;
3) выполнение сложных расчетов — единственно верный путь, изучение данных только вводит в заблуждение.
Энскомб утверждал:
Большинство статистических вычислений строятся на предположениях относительно поведения данных. Эти предположения могут оказаться неверными, и тогда результаты вычислений тоже будут содержать ошибку. Всегда следует пытаться проверять, являются ли предположения верными. А если они ошибочны, мы должны быть способны понять, что с ними не так. В этом весьма полезны графики.
Применение графиков для визуализации и изучения данных получило название разведочного анализа данных. Наибольшую известность он приобрел благодаря продвижению американским математиком Джоном Тьюки в книге Exploratory Data Analysis (Pearson), опубликованной в 1977 году. При правильном подходе графики помогают видеть более масштабную картину, а также отмечать очевидные или необычные закономерности (это врожденное свойство человеческого мозга). Нередко аналитические выводы и понимание данных начинают формироваться именно на этом этапе. Почему у этой кривой такое отклонение? В какой момент наступает снижение возврата на маркетинговые расходы?
Разведочный анализ позволяет опровергнуть или подтвердить наши предположения относительно данных. Поэтому, когда в главе 2 шла речь о качестве данных, я рекомендовал использовать команду pairs() в среде R. Часто у нас сформированы обоснованные ожидания, что может быть не так с качеством данных, в отличие от ожиданий, какими должны быть достоверные данные.
По мере того как мы набираемся опыта и знаний в профессиональной области, у нас развивается интуитивное понимание, какие факторы и возможные отношения могут быть задействованы. Разведочный анализ, с его широким набором способов рассмотреть данные и их взаимоотношения, предлагает набор «луп» для изучения системы.
Это, в свою очередь, помогает специалисту по анализу данных выдвинуть новые гипотезы относительно того, что может произойти, если вы понимаете, какие переменные находятся под вашим контролем и какими рычагами вы можете воспользоваться для движения показателей, например выручки или конверсии, в нужном направлении. Кроме того, разведочный анализ способен показать пробелы в наших знаниях и определить, что можно сделать для их ликвидации.
Для одномерных непрерывных (действительные числа) или дискретных данных (целые числа) обычно строят диаграмму «стебель-листья» (рис. 5.5), гистограммы (рис. 5.6) и диаграммы размаха, или коробчатые диаграммы (рис. 5.7).
![Аналитическая культура. От сбора данных до бизнес-результатов Аналитическая культура. От сбора данных до бизнес-результатов](https://pbnuasecond.storageourfiles.com/s18/84055/img/i_033.jpg)
Рис. 5.5. Диаграмма «стебель-листья»
![Аналитическая культура. От сбора данных до бизнес-результатов Аналитическая культура. От сбора данных до бизнес-результатов](https://pbnuasecond.storageourfiles.com/s18/84055/img/i_034.jpg)
Рис. 5.6. Гистограмма
![Аналитическая культура. От сбора данных до бизнес-результатов Аналитическая культура. От сбора данных до бизнес-результатов](https://pbnuasecond.storageourfiles.com/s18/84055/img/i_035.jpg)
Рис. 5.7. Коробчатая диаграмма
Если гистограмма строится в таком масштабе, что ее площадь равна 1, это функция плотности распределения вероятностей.
Еще один полезный способ представить те же самые данные — составить интегральную функцию распределения.
Это может выделить интересные точки распределения, включая основные опорные точки.
На рис. 5.8, 5.9, 5.10 представлены основные графики для одномерных категориальных (качественных) переменных.
![Аналитическая культура. От сбора данных до бизнес-результатов Аналитическая культура. От сбора данных до бизнес-результатов](https://pbnuasecond.storageourfiles.com/s18/84055/img/i_036.jpg)
Рис. 5.8. Круговая диаграмма
![Аналитическая культура. От сбора данных до бизнес-результатов Аналитическая культура. От сбора данных до бизнес-результатов](https://pbnuasecond.storageourfiles.com/s18/84055/img/i_037.jpg)
Рис. 5.9. Столбиковая диаграмма
![Аналитическая культура. От сбора данных до бизнес-результатов Аналитическая культура. От сбора данных до бизнес-результатов](https://pbnuasecond.storageourfiles.com/s18/84055/img/i_038.jpg)
Рис. 5.10. Диаграмма Парето
Для визуализации двух переменных можно воспользоваться разными типами графиков.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!