Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
По этой причине нам приходится пользоваться еще одной статистикой, которая также является отражением «середины» распределения, однако делает это несколько иначе. Речь идет о так называемой медиане. Медиана – это точка, которая делит распределение пополам таким образом, что одна половина наблюдений располагается выше медианы, а другая половина – ниже. (При наличии четного количества наблюдений медиана представляет собой среднюю точку между двумя средними наблюдениями.) Если мы вернемся к примеру с баром, то срединный (медианный) годовой доход для десяти человек, сидевших поначалу за стойкой, равняется 35 000 долларов. Когда в заведении появился – и уселся на одиннадцатый стул – Билл Гейтс с говорящим попугаем, срединный годовой доход для одиннадцати человек по-прежнему составлял 35 000 долларов. Если представить, что посетители бара расселись за его стойкой в порядке возрастания их доходов, то доход посетителя, сидящего на шестом стуле, будет срединным для данной группы людей. Даже если бы в заведение зашел Уоррен Баффет и уселся рядом с Биллом Гейтсом на двенадцатый стул, медиана все равно осталась бы неизменной[10].
В случае распределений без «отщепенцев» срединное (медиана) и среднее значения совпадают. Выше говорилось о гипотетической сводке данных, отражающих качество принтеров конкурирующей фирмы. В частности, я представил эти данные в виде так называемого частотного распределения (гистограммы). Число проблем с качеством на один принтер представлено на горизонтальной оси (внизу); высота каждого вертикального столбца соответствует проценту проданных принтеров, у которых наблюдалось такое число проблем с качеством. Например, у 36 % принтеров конкурента в течение гарантийного периода возникало по две проблемы с качеством. Поскольку это распределение включает все возможные случаи проблем с качеством (в том числе и их отсутствие), сумма всех долей (процентов) должна равняться 1 (или 100 %).
Поскольку такое распределение почти симметрично, среднее и срединное значения довольно близки друг к другу. Распределение слегка скошено вправо, что объясняется малым количеством принтеров, имеющих множественные дефекты. Эти «отщепенцы» слегка смещают среднее значение вправо, однако на медиану это не влияет. Допустим, что перед тем как составить для босса отчет о качестве принтеров, вы принимаете решение вычислить медианы, то есть число проблем с качеством для принтеров, проданных вашей и конкурирующей компанией. Нажав всего несколько клавиш, вы получите результат. Медиана проблем с качеством для принтеров конкурента равняется 2; а для принтеров вашей фирмы – 1.
Что из этого следует? Оказывается, медиана проблем с качеством на каждый принтер вашей фирмы фактически меньше, чем у вашего конкурента. Поскольку супружеская жизнь Ким Кардашьян становится однообразной, а полученный результат вас заинтриговал, вы распечатываете распределение частот проблем с качеством у принтеров, проданных вашей компанией.
Из приведенных выше гистограмм становится ясно, что для вашей компании нехарактерно равномерное распределение проблем с качеством. Напротив, у вас налицо проблема «лимона»[11]: у малого числа ваших принтеров наблюдается большое количество дефектов. Эти «отщепенцы» способствуют наращиванию среднего значения, тогда как медиана остается неизменной. Более важным с производственной точки зрения является то обстоятельство, что вам нет необходимости переоснащать весь производственный процесс; достаточно лишь определить, какое из предприятий компании выпускает некачественную продукцию, и исправить ситуацию[12].
Вычисление среднего и медианы не представляет особых трудностей; самое главное в этом случае – определить, какой именно показатель «середины» более точен в каждой конкретной ситуации (именно этот фактор нередко используется для манипулирования средними показателями). Между тем у медианы имеются весьма полезные «родственники». Как указывалось выше, медиана делит любое распределение пополам. Затем его можно разбить на четверти, или, как их еще называют, квартили. Первый квартиль состоит из нижних 25 % наблюдений; второй из следующих 25 % наблюдений и т. д. Еще один вариант – разделить распределение на децили, каждый из которых заключает в себе 10 % наблюдений. (Если ваш доход находится в верхнем дециле американского распределения доходов, то это означает, что вы зарабатываете больше, чем 90 % ваших коллег-рабочих.) Можно пойти еще дальше и разбить распределение на сотые доли, или процентили. Каждый процентиль представляет 1 % распределения; таким образом, первый процентиль представляет нижний 1 % данного распределения, а 99-й – его верхний 1 %.
Преимущество описательных статистик такого рода заключается в том, что они указывают, где именно располагается то или иное конкретное наблюдение по сравнению с остальными. Например, информация, что ваш ребенок по результатам теста на понимание прочитанного материала получил третий процентиль, должна сказать вам о том, что вы уделяете недостаточно внимания совместному обсуждению книг, прочитанных вашим ребенком. Вам вовсе не обязательно знать подробности самого теста или точное количество вопросов, на которые ваш ребенок ответил правильно. Однако его попадание в определенный процентиль в любом случае говорит о том, насколько успешно ваш ребенок сдал этот тест по сравнению с другими его участниками. Если тест был сравнительно легким, то большинство его участников правильно ответят на подавляющее число вопросов, при этом количество правильных ответов у вашего ребенка все равно будет меньшим, чем у большинства других участников тестирования. Если же тест был очень трудным, то у всех его участников окажется малое число правильных ответов, однако и в этом случае «рейтинг» вашего ребенка будет несколько ниже, чем у остальных.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!