Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Шрифт:
Интервал:
Для данных за 1991–1995 годы, представленных на диаграмме 2.5(a), коэффициент корреляции Пирсона равен 0,59. Это подкрепляет связь между увеличением количества и ростом выживаемости. При удалении данных о Бристольской больнице коэффициент повышается до 0,67, поскольку оставшиеся точки ближе к прямой линии.
Другой критерий – ранговый коэффициент корреляции Спирмена, названный в честь английского психолога Чарльза Спирмена (создателя двухфакторной теории интеллекта[58]), – зависит не от конкретных численных значений, а от их рангов, то есть от занимаемых ими мест, если их упорядочить по величине. Это означает, что он может быть близок к 1 или –1, если точки близки к линии со стабильным подъемом или понижением, даже если эта линия не является прямой. Ранговый коэффициент Спирмена для данных на диаграмме 2.5(a) равен 0,85, что существенно выше, чем коэффициент Пирсона, поскольку точки ближе не к прямой, а к возрастающей кривой.
Для данных за 2012–2015 годы на диаграмме 2.5(b) коэффициент корреляции Пирсона равен 0,17, а ранговый коэффициент Спирмена – 0,03, что говорит об отсутствии четкой связи между количеством операций и уровнем выживаемости. Однако при таком небольшом количестве больниц коэффициент корреляции может быть очень чувствителен к отдельным точкам-данным: если мы уберем самую маленькую больницу с высоким уровнем выживаемости, то коэффициент корреляции Пирсона резко повысится до 0,42.
Коэффициенты корреляции – это просто некоторые характеристики связей, и их нельзя использовать для вывода о наличии взаимозависимости между количеством операций и показателем выживаемости, не говоря уже о том, почему такая связь может существовать[59]. Во многих приложениях ось x представляет независимую переменную, и интерес вызывает ее влияние на зависимую переменную, которая изображается по оси y. Однако, как мы увидим далее в главе 4, посвященной причинно-следственным связям, такое предположение заранее фиксирует направление влияния. Даже по диаграмме 2.5(a) мы не можем сделать вывод, что повышение показателя выживаемости в каком-либо смысле вызвано увеличением числа операций, ведь на самом деле все может быть наоборот: лучшие больницы просто привлекают больше пациентов.
Описание трендов
Каковы закономерности роста мирового населения за последние полвека?
Население мира растет, и понимание движущих факторов демографических изменений крайне важно для подготовки к вызовам, с которыми разным странам придется столкнуться сейчас или в будущем. Отдел народонаселения ООН дает оценки численности населения для всех стран мира с 1951 года по настоящее время, а также с прогнозом до 2100 года[60]. Сейчас мы рассмотрим мировые тенденции, начиная с 1951 года.
На рис. 2.7(a) представлены простые линейные графики для населения начиная с 1951 года. Видно, что за этот период оно утроилось и составляет примерно 7,5 миллиарда. Увеличение произошло в основном за счет стран Азии, однако закономерности для других континентов на рис. 2.7(a) уловить трудно. Впрочем, использование логарифмической шкалы на рис. 2.7(b) позволяет их разделить, обнаруживая более крутой уклон у Африки и более пологий в других местах, в частности в Европе, где в последнее время численность населения уменьшается.
Рис. 2.7
Общая численность населения планеты, отдельных континентов и стран между 1950–2015 годами: (a) показывает тренды на стандартной шкале; (b) – на логарифмической шкале, вместе с линиями трендов для отдельных стран с населением не менее миллиона человек в 1951 году
Серые линии на рис. 2.7(b) отображают изменения в отдельных странах, однако выявить отклонения от общей тенденции к росту невозможно.
На рис. 2.8 представлена простая сводная характеристика тренда для каждой страны – относительный рост населения за период с 1951 по 2015 год. Скажем, относительный рост 4 означает, что в 2015 году в стране жило в четыре раза больше людей, чем в 1951-м (как, например, в Либерии, Камеруне и на Мадагаскаре). Использование значков, пропорциональных размеру страны, привлекает внимание к более крупным государствам, а группировка по частям света позволяет сразу же обнаруживать как общие кластеры, так и выбросы. Всегда полезно разделять данные в соответствии с каким-нибудь фактором (в нашем случае – с континентом), который в какой-то степени объясняет общие изменения.
Рис. 2.8
Относительный рост населения с 1951 по 2015 год в странах, население которых в 1951 году составляло не менее миллиона человек
Значительный рост населения наблюдается в Африке, но с большим разбросом и одним экстремальным случаем – Кот-Д’Ивуар. Азия тоже демонстрирует существенные различия, что отражает широкое разнообразие стран этого континента; здесь экстремальные случаи – Грузия и Япония, с одной стороны, и Саудовская Аравия – с другой (у нее самый высокий показатель относительного роста населения в мире). Рост в Европе относительно низкий.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!