Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Шрифт:
Интервал:
Избирательная отчетность начинает переходить границы между простой некомпетентностью и нарушением научной этики, и есть тревожные подтверждения того, что это не редкость. В США даже был вынесен обвинительный приговор за избирательное сообщение о значимых результатах в одном анализе для подмножеств. Скотт Харконен возглавлял компанию InterMune, занимавшуюся клиническими испытаниями нового препарата от идиопатического легочного фиброза. Испытание в целом не выявило никакой пользы, но у небольшой группы пациентов (с легкой и умеренной степенью заболевания) отмечалось значительное снижение смертности. Харконен выпустил для инвесторов пресс-релиз с указанием этого результата и добавил, что, по его мнению, такое исследование может привести к увеличению объемов продаж. Хотя это и не была заведомая ложь, жюри присяжных в 2009 году осудило его за мошенничество с использованием электронных средств коммуникации, а конкретно – за намерение обмануть инвесторов. Государство требовало 10-летнего заключения и штрафа в 20 тысяч долларов, однако Харконена приговорили к шести месяцам домашнего ареста и трем годам условно. Последующее клиническое испытание не выявило никакой пользы от лекарства для указанного подмножества больных[248].
Нарушения в статистике могут быть сознательными или нет. Они даже намеренно использовались, чтобы показать недостатки научного рецензирования и публикации. Йоханнес Боханнон из немецкого института диеты и здоровья провел исследование, в котором людей разделили на три группы: 1) придерживающихся обычной диеты; 2) низкоуглеводной; 3) низкоуглеводной с добавлением шоколада. После ряда измерений, проводившихся в течение трех недель, было сделано заключение, что потеря веса в группе людей, диета которых включала шоколад, превышает потерю веса в группе с низкоуглеводной диетой на 10 % (P = 0,04). Этот «значимый» результат предоставили в один журнал, который назвал его «выдающимся» и сообщил, что за 600 евро «он может быть опубликован в нашем основном журнале». После публикации пресс-релиза Институтом диеты и здоровья в СМИ появились многочисленные статьи под заголовками наподобие «Шоколад ускоряет потерю веса».
Но потом выяснилось, что все это было преднамеренным обманом. Йоханнес Боханнон оказался журналистом Джоном Боханноном, Института диеты и здоровья вообще не существовало; правда, данные исследования оказались несфабрикованными. Однако в каждой группе было всего по пять испытуемых, тесты проводились многократно, но сообщили только о существенных различиях.
Авторы этой сфальсифицированной работы сразу же признались в обмане. Однако далеко не все статистические махинации осуществляются с благими намерениями указать таким способом на слабые места экспертной оценки.
Преднамеренный обман
Умышленная фабрикация данных действительно практикуется, но считается, что достаточно редко. Проверка анонимных самоотчетов показала, что 2 % ученых признались в фальсификации данных, в то время как Национальный научный фонд и Отдел по обеспечению добросовестности в исследованиях сталкиваются с довольно небольшим числом заведомо нечестных действий, хотя обнаруженное количество наверняка занижено[249].
Кажется вполне логичным, чтобы мошенничество в статистике выявила сама статистика. Ури Симонсон, психолог из Пенсильванского университета, проверял статистические данные, описывающие предположительно рандомизированные испытания, которые должны демонстрировать типичный случайный разброс, но оказывались либо неправдоподобно похожими, либо неправдоподобно различными. Например, он заметил, что в одном отчете все три стандартных отклонения составили 25,11, хотя предполагалось, что их вычисляли для трех разных групп по 15 человек. Симонсон получил исходные данные и показал с помощью моделирования, что шансы получить такие одинаковые стандартные отклонения исчезающе малы, после чего исследователь, ответственный за этот отчет, был снят с должности[250].
Британский психолог Сирил Берт, известный своим исследованием наследственности IQ, был посмертно обвинен в мошенничестве, когда выяснилось, что коэффициенты корреляции, которые он приводил для IQ разлученных близнецов, практически не менялись со временем, несмотря на постоянное увеличение группы близнецов: коэффициент был равен 0,770 в 1943 году, 0,771 в 1955-м и 0,771 в 1966-м. Психолога обвинили в подтасовке данных, но поскольку все его записи были после его смерти сожжены, вопрос до сих пор остается спорным. Некоторые утверждают, что тут просто закралась ошибка, ведь обман слишком очевиден, вряд ли ученый мог его совершить.
Все было бы гораздо проще, если бы единственными проблемами статистики – пусть даже серьезными – были только некомпетентность и нечестность. Мы могли бы обучать, проверять, воспроизводить, открывать данные для проверки и так далее, об этом мы поговорим в последней главе, посвященной правильным методам работы. Но, увы, существует более масштабная и тонкая проблема, и именно она, по мнению некоторых, и есть главный фактор кризиса воспроизводимости.
«Сомнительные исследовательские практики»
Даже если данные подлинные, анализ произведен правильно, а статистика и соответствующее P-значение корректны, могут возникнуть затруднения с интерпретацией полученных результатов, если мы точно не знаем, исходя из чего исследователи сделали такие выводы.
Мы видели какие проблемы возникают, когда исследователи сообщают только о значимых результатах, но, возможно, более важен тот сознательный или неосознанный набор мелких решений, которые принимает исследователь в зависимости от того, что, как ему кажется, показывают данные. Такие поправки могут касаться изменения структуры эксперимента; решения о прекращении сбора данных; того, какие данные нужно исключить, какие коэффициенты подправить, какие группы выделить, на каких характеристиках сосредоточиться, на какие группы разделить непрерывные переменные, как обработать недостающие данные, и так далее. Симонсон называет такие решения «степенями свободы исследователя», в то время как Эндрю Гельман описывает их более поэтично – «сад расходящихся тропок». Все эти ухищрения увеличивают шансы на получение статистической значимости и все подпадают под общее название «сомнительной исследовательской практики».
Важно различать поисковые и подтверждающие исследования. Поисковые эксперименты – как раз то, о чем говорит их название: это гибкие исследования с целью рассмотреть многие возможности и выдвинуть гипотезы для последующей проверки с помощью более формальных подтверждающих экспериментов. В поисковых исследованиях можно применять самые разные настройки, но подтверждающие исследования нужно проводить в соответствии с заранее установленным и предпочтительно публичным протоколом. Любой может использовать P-значения, чтобы охарактеризовать силу доказательств для своих выводов, но эти P-значения надо четко различать и по-разному интерпретировать.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!