📚 Hub Books: Онлайн-чтение книгРазная литератураНаукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке - Стюарт Ричи

Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке - Стюарт Ричи

Шрифт:

-
+

Интервал:

-
+
1 ... 37 38 39 40 41 42 43 44 45 ... 117
Перейти на страницу:
все равно что искать далекие галактики с помощью бинокля: даже если искомый объект точно где-то там, увидеть его у вас нет фактически никаких шансов. К сожалению, многие ученые, похоже, упускают это соображение из виду, особенно в избранной Маклаудом области исследований на животных. В обзоре 2013 года рассматривался целый ряд работ по нейронауке, в том числе те, где изучались, например, половые различия в способности мышей ориентироваться в лабиринтах[456]. Чтобы исследование имело достаточную статистическую мощность для обнаружения обычно ожидаемого эффекта пола в способности ориентироваться в лабиринтах, нужны были бы сто тридцать четыре мыши; иными словами, этот эффект гораздо более тонкий, чем “мужчины весят больше женщин”. Но типичное исследование из рассмотренных авторами обзора включало всего двадцать две мыши. И это относится не только к мышам в лабиринтах: похоже, проблема характерна для большинства типов исследований по нейронауке[457]. Еще в масштабных обзорах обнаружилось, что недостаточная статистическая мощность – обычное дело для медицинских испытаний, биомедицинских исследований в целом, экономики, нейровизуализации, исследований в области сестринского дела, поведенческой экологии и – какой сюрприз! – психологии[458].

Если исследования в этих областях имеют столь малую статистическую мощность, почему же тогда во многих из них все-таки обнаруживаются какие-то эффекты? Первая причина заключается в том, что они, возможно, подвергнуты p-хакингу: ученые не обнаружили эффекта при своем первоначальном анализе, поэтому подошли к полученным числам творчески[459]. Но даже и без p-хакинга в исследованиях с недостаточной статистической мощностью все равно время от времени обнаруживаются какие-нибудь эффекты, и происходит это по тревожной, хотя и немного мудреной, причине. Вспомните, как мы обсуждали ошибку выборки. Представьте, что средний эффект нашей таблетки от головной боли в популяции действительно составляет полбалла по шкале от 1 до 5. Иногда мы можем взять выборку, для которой эффект по случайности ниже среднего, и все будет выглядеть так, будто эффекта нет и вовсе. А иногда попадется выборка, где эффект выше среднего, поскольку так получилось, что в нее вошли только те люди, которым лекарство помогало сильно. В исследовании с низкой статистической мощностью мы можем получить положительный результат – значимое p-значение – только в том случае, если выборка демонстрирует необычно и обманчиво большой эффект.

Рискуя прозвучать тавтологично, сформулирую так: поскольку исследованиям с малой статистической мощностью хватает ее только для обнаружения больших эффектов, это единственные эффекты, которые там проявляются. Вот куда приводит нас логика. Если вы обнаружили эффект в исследовании с недостаточной статистической мощностью, он, вероятно, преувеличен[460]. Затем вступает в силу публикационное смещение: поскольку большие эффекты впечатляют, статью о них, по всей вероятности, в итоге опубликуют. Поэтому-то, когда читаешь научную литературу, кажется, что так много крошечных исследований сообщают о больших эффектах: как мы видели на воронкообразных диаграммах в предыдущей главе, в журналах часто упущены все мелкие исследования, которые из-за того, что в них не обнаружилось ничего “интересного”, были отброшены.

Эта ситуация создает проблемы для последующих исследований. Ученые разбирают опубликованную литературу, чтобы понять, какой величины эффекта ожидать в собственных экспериментах. Если в первоначальном небольшом исследовании величина эффекта преувеличивается, ученые для последующего изучения станут использовать маленькие выборки, полагая, что статистической мощности будет достаточно. Однако заявленный эффект, если он вообще существует, в действительности, вероятно, гораздо меньше и поэтому неуловим в экспериментах с малыми выборками[461]. Таким образом, исследования с недостаточной статистической мощностью запускают цепную реакцию: раз за разом впустую тратятся время, усилия и ресурсы в погоне за эффектом, который подобен гигантской тени, что отбрасывает мотылек, сидящий на лампочке.

Использование малых выборок не было бы столь пагубно, живи мы в мире, где и правда на каждом шагу встречались бы большие эффекты. Но обычно большие эффекты связаны с весьма очевидными факторами – вроде разницы в росте между мужчинами и женщинами, как в нашем примере. А большинство эффектов куда менее очевидны. В одном исследовании, посвященном клиническим испытаниям, обнаружилось, что медицинский эффект обычно бывает от малого до среднего. Грубо говоря, если в испытании участвовало сто человек, принимающих лекарство, и сто – плацебо и двадцати участникам стало лучше на плацебо, то человек на шесть больше (то есть около двадцати шести) почувствуют улучшение на лекарстве[462]. Даже для хорошо зарекомендовавших себя препаратов, таких как нейролептики при шизофрении, бензодиазепины при бессоннице и кортикостероиды при астме, эффекты все равно по величине лишь умеренные: в этих трех случаях плюс восемнадцати пациентам (итого получится около тридцати восьми) из лечебной группы станет лучше[463]. В исследованиях по психологии средний эффект тоже весьма скромен, и наверняка похожая ситуация наблюдается во многих других областях[464].

Когда речь идет об изучении таких необычайно сложных систем, как тело или мозг либо экосистема, экономика или общество, ученым редко удается найти единственный фактор, который оказывал бы огромное влияние на какой-то другой. Наоборот, большинство интересующих нас психологических, социальных и даже медицинских явлений состоят из множества мелких эффектов, каждый из которых играет свою маленькую роль. Например, если экономисты захотят объяснить, почему разные люди в их выборке имеют разный доход, им нужно будет учитывать, где живут участники, их происхождение, способности, личные качества и образование, налоговую систему их страны и ее изменения со временем и еще целую кучу других факторов и событий, которые на всех этапах жизни участников могли подтолкнуть их судьбу в том или ином направлении. Тот факт, что малые эффекты встречаются гораздо чаще и в совокупности оказывают влияние гораздо более значительное, чем эффекты большие, делает исследования с недостаточной статистической мощностью, которые рисуют наш мир полным этих больших эффектов, еще сильнее вводящими в заблуждение.

Один из самых конфузных примеров того, как исследования с низкой статистической мощностью сбивают ученых с пути, – это оживление вокруг так называемых генов-кандидатов. За последние лет десять генетики выучили болезненный урок об опасности исследований с низкой статистической мощностью. Давно было известно, в основном благодаря работам на близнецах, что рост и вес людей, результаты когнитивных тестов (IQ, коэффициент интеллекта), вероятность развития различных заболеваний и психических расстройств, а также многие другие характеристики зависят от генетических особенностей[465]. Однако только лет двадцать назад для генетиков стала широко доступна технология, с помощью которой можно было попытаться точно определить, какие именно участки ДНК с какими признаками связаны. Первые попытки были предприняты в исследованиях, где ученые выделяли и изучали конкретный ген – “кандидат” – в надежде установить, могут ли изменения в нем вызывать изменение соответствующего признака.

Поначалу казалось, что

1 ... 37 38 39 40 41 42 43 44 45 ... 117
Перейти на страницу:

Комментарии

Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!

Никто еще не прокомментировал. Хотите быть первым, кто выскажется?