О чем говорят цифры. Как понимать и использовать данные - Ким Хо
Шрифт:
Интервал:
Релевантность. Представленные данные должны иметь непосредственное отношение к проблеме, для решения которой они собирались. Они должны быть репрезентативными по отношению к той группе или организации, которую они предположительно представляют. Если данные не дают хотя бы некоторых ответов на вопросы, они бесполезны.
Точность. Если данные релевантные, но неточные, их необходимо отбросить. Точность данных можно оценить, изучив вопрос о том, кто и как их готовил. Если данные не проходят эту проверку на точность, они опять-таки бесполезны.
Правильная интерпретация данных. Даже точные данные могут ввести в заблуждение, если их неправильно истолковать. Особенно склонны неверно интерпретировать данные те люди, у которых есть скрытые мотивы и цели. Рассмотрим пример, в котором интерпретация данных способствовала формированию субъективного мнения.
Критик из журнала Newsweek, писавший рецензию на книгу «Лучшая половина» (The Better Half) о первых суфражистках, завершил свой опус несколько провокационно. Он задал риторический вопрос, что сказали бы Сьюзан Энтони и ее подруги, если бы узнали о том, что пятьдесят лет спустя после предоставления американским женщинам политических прав социологи Колумбийского университета обнаружили: лишь одна из двадцати двух женщин голосовала не за того кандидата, за которого голосовал ее муж.
Один из читателей в ответ на это написал: «Я думаю, что суфражистки были бы весьма довольны. Их движение проделало большую работу, если менее чем через пятьдесят лет после предоставления женщинам политических прав только один муж из двадцати двух имел мужество голосовать не так, как его жена»[100].
Таким образом, всегда стоит задавать себе вопрос, насколько правильна интерпретация данных с учетом проблем и мотивов того лица, которое ее представило.
Стоит с особой осторожностью относиться к аргументации, основанной на причинно-следственных связях: их выявить очень сложно. Как мы уже упоминали во вставке об экспериментах «сумасшедшего ученого», если вы формируете контрольную и целевую группу, случайным образом распределяя в них людей, и эти группы демонстрируют различные результаты, то обычно аналитик приписывает это воздействию тестируемого фактора. Но если вы просто выявили статистическую связь между двумя факторами, вряд ли она окажется причинно-следственной. Возможно, вы слышали фразу «корреляция – еще не причина». Это важно помнить.
Когнитивные психологи Кристофер Чабрис и Даниэль Симонс предложили эффективную процедуру для выявления причинно-следственной связи в книге «Невидимая горилла и другие способы нашей интуиции обмануть нас» (The Invisible Gorilla and Other Ways Our Intuitions Deceive Us): «Когда вы слышите или читаете о наличии связи между двумя факторами, задумайтесь, можно ли говорить о том, что в тестовую группу для их проверки люди отбирались действительно случайно. Если это невозможно, слишком дорого или этически неприемлемо, то проводить эксперимент нельзя и причинно-следственная связь считается неподтвержденной»[101].
Например, вы прочитали в газете: «В ходе десятилетнего эксперимента доказано, что запойное пьянство приводит к раку». Задумайтесь над тем, возможно ли в данном случае случайное распределение участников на тестовую и контрольную группы с последующей просьбой к одним запойно пить, а к другим – соблюдать трезвость в течение десяти лет. Наверно, нет. Куда более вероятно, что исследователь обнаружил корреляционную зависимость между запойным пьянством (по всей видимости, по собственным словам опрашиваемого) и случаями рака в группе населения, которую мониторили в течение десяти лет. Возможно, исследователь учитывал, что выявленная корреляция может объясняться и другими факторами (например, сильно пьющие люди часто курят), но уж репортер точно об этом не задумывался.
Если вы заподозрили, что кто-то в вашей организации является сторонником софизма cum hoc ergo propter hoc (после этого – значит по причине этого), то для предотвращения неправильных выводов следует тщательно следить за разработкой условий экспериментов, хорошо знать статистику и эконометрику. Именно в этом случае лучше пригласить эксперта.
Задавать вопросы стоит для того, чтобы лучше понять суть проблемы и оценить методику ее решения. Аналогично, если у вас возникли сомнения по поводу представленных данных, следует без колебаний задавать вопросы. Многие стесняются задавать вопросы по поводу чисел, поскольку боятся показаться глупыми. Эти страхи преувеличены. Некоторые идеи по поводу того, какие вопросы лучше задавать, приведены во вставке «Хорошие вопросы о количественном анализе».
Хорошие вопросы о количественном анализе
Перечень приведенных далее вопросов, конечно, не исчерпывающий, но может помочь вам с чего-то начать. Они пригодны практически для любых видов количественного анализа или такого неколичественного, который должен стать количественным.
• Есть ли у вас данные в поддержку вашей гипотезы?
• Что вы можете сказать об источнике данных, использованных в анализе?
• Вы уверены, что выборка репрезентативна для генеральной совокупности?
• Присутствуют ли какие-либо выбросы в распределении данных? Как они влияют на конечный результат?
• Какие предположения вы положили в основу своего анализа?
• Есть ли какие-либо обстоятельства, способные повлиять на достоверность предположений и модели анализа?
• Почему вы выбрали этот подход к анализу?
• Какие преобразования данных вы провели, чтобы добиться соответствия между ними и моделью?
• Рассматривали ли вы какие-либо иные подходы к анализу данных, и если да, то почему от них отказались?
• Насколько вероятно, по вашему мнению, что независимые переменные действительно обусловливают динамику зависимых переменных? Можно ли провести еще какие-либо аналитические процедуры для подтверждения причинно-следственной связи?
Представьте, что кто-то задает вопросы по поводу представленных данных. Такой человек скорее будет выглядеть смелым и заслужит уважение, чем покажется глупым. Поэтому, если вам встретились непонятные числа, отважно задавайте вопросы. Более того, в некоторых случаях вопросы ожидаемы. Например, если вам показывают средние значения, спросите о дисперсии, или распределении, или стандартном отклонении. Вы можете также спросить, присутствуют ли в данных какие-либо выбросы, являющиеся результатом ошибок или экстраординарных событий, а также не пропущены ли данные, которые могут оказаться значимыми. Вы можете спросить, чему равна медиана, если представлены средние значения. Интерпретировать среднее значение, не имея данных о его дисперсии, опасно, поскольку результаты отдельных наблюдений могут существенно отличаться друг от друга. Кроме того, если кто-то говорит о данных из конкретного обследования, следует спросить, кто проводил это обследование, какова его методика и как были сформулированы вопросы. Говорить о результатах обследования, не зная ответы на эти вопросы, нельзя. Коротко говоря, имеет смысл приобрести привычку задавать вопросы и исследовать данные: это очень важно для выработки навыков количественного анализа.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!