Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке - Стюарт Ричи
Шрифт:
Интервал:
Но не стоит этими новыми технологиями обольщаться – любое программное обеспечение подвержено своим собственным ошибкам. Приведем один особенно постыдный пример: выяснилось, что приблизительно в 20 % статей по генетике, в которых использовалась электронная таблица Microsoft Excel для перечисления изученных генов, из-за автозамены такие названия генов, как SEPT2 и MARCH1, преобразовывались в даты[693]. Результаты работы автоматического программного обеспечения должны тщательно проверяться людьми, как минимум до тех пор, пока мы не будем уверены, что расправились со всеми “глюками”. В теории, однако, кажется, что многие рутинные научные задачи могли бы аккуратнее выполняться нечеловеческим разумом: анализ больших массивов данных для выявления закономерностей; перелопачивание чисел в научной литературе для выработки консенсуса; даже интерпретация изображений блотов, клеток и сканов мозга. Учитывая огромное количество ошибок, встречающихся в научных работах, и то, как легко можно было бы избежать многих из них с помощью более автоматизированного процесса написания статей, в конечном итоге может оказаться неэтичным полагаться при выполнении этих задач только на людей.
Одна из проблем, на которую мы постоянно наталкивались, – извечное пристрастие ученых к новизне. Хотя новые, захватывающие результаты движут научный прогресс, мы видели, как одержимость “революционными” открытиями привела к тому, что целые области исследований основываются на шатких, невоспроизводимых доказательствах. Перефразируя слова биолога Оттолин Лейзер, можно сказать, что смысл революционности – в непременном строительстве нового; если вы только и делаете, что разрушаете все старое, в итоге вы останетесь ни с чем[694]. Как нам сделать надежные результаты приоритетнее новых? Как побороть публикационное смещение, гарантируя публикацию всех результатов – неважно, новаторские они или отрицательные?
Одно из предложений таково: нужно создать журналы, специализирующиеся на публикации отрицательных результатов, обеспечив тем самым более привлекательную альтернативу “картотечному ящику”. Так, например, в 2002 году именно с этой целью был создан журнал “Отрицательные результаты в биомедицине” (Journal of Negative Results in Biomedicine). Задумка хорошая, но, наверное, неудивительно, что едва ли кто-то жаждал, чтобы его исследование вышло в низкостатусном журнале отрицательных результатов, который “определяли как издание, публикующее статьи, которые ни один другой журнал не примет”[695]. Журнал закрылся в 2017 году – необычная судьба для научного издания в мире, стонущем под грузом новых статей[696].
Если идея со специальными журналами для отрицательных результатов не сработает, то как насчет журналов, открыто принимающих любые результаты при условии, что исследование, в котором они получены, признано методологически обоснованным? Еще такие издания могли бы стать пристанищем для исследований, воспроизводящих какие-то предыдущие работы, поскольку подобные исследования страдают от тех же предрассудков, что и отрицательные результаты. В последние годы появился целый ряд таких журналов (часто называемых мегажурналами, поскольку отсутствие требования подавать именно положительные или “захватывающие” результаты означает, что там публикуется много материалов), включая PLOS ONE, где я и мои коллеги в конечном итоге опубликовали наш отчет о неудавшемся повторении исследования Дэрила Бема по экстрасенсорике[697]. Это явный прогресс, но такие журналы все еще рискуют восприниматься учеными, заботящимися о своем статусе, как низкоуровневые. В идеале мы хотим видеть и в знаменитых журналах с высоким импакт-фактором верную долю отрицательных результатов и больше работ, посвященных попыткам воспроизвести более ранние исследования.
И тут есть хорошие новости. Хотя и не стремясь принимать к рассмотрению отрицательные результаты, многие известные журналы сейчас смягчают свое прежнее отношение к публикации исследований-повторений. Возьмем, к примеру, Journal of Personality and Social Psychology, который опубликовал работу Бема и отклонил нашу из-за своей общей политики “никаких повторений”. Теперь, после кризиса, на их сайте есть целый раздел, посвященный воспроизведению исследований, где отмечается: редакционная коллегия “признает важность повторений для создания совокупной базы знаний в нашей области. Поэтому мы призываем подавать на рассмотрение работы, в которых предпринята попытка воспроизвести важные результаты, особенно из тех исследований, что были ранее опубликованы в Journal of Personality and Social Psychology”[698]. Это хороший пример нового правила для научных журналов, предложенного психологом Санджаем Шриваставой и основанного на надписи “Сломали – покупаете” из некоторых магазинов керамики: если вы публикуете статью, то по крайней мере частично несете ответственность за публикацию последующей работы, проверяющей, воспроизводятся ли ее результаты[699].
Все больше и больше редакторов из самых разных областей следуют этому правилу; свыше тысячи журналов приняли недавно набор руководящих принципов, прямо заявляющих, помимо прочего, что исследования-повторения приветствуются[700]. Некоторые финансирующие структуры, такие как Нидерландская научно-исследовательская организация, вливают деньги в повторение исследований[701]. Шаги позитивные, но практика покажет, действительно ли журналы начнут регулярно публиковать больше исследований-повторений. Специалисты по метанауке будут за этим наблюдать.
Если ученым проще будет публиковать повторно проведенные исследования и отрицательные результаты, публикационное смещение может уменьшиться. Но как насчет других форм предвзятости, имеющих отношение к p-хакингу, с которыми мы столкнулись? Много десятков статей и даже целые книги посвящены подводным камням p-значений: они трудны для понимания, не говорят нам того, что мы действительно хотим узнать, и ими легко злоупотреблять[702]. В этой критике есть доля правды. В целом необходимо меньше внимания уделять статистической значимости – p-значениям ниже произвольного порога в 0,05 – и сосредоточиться на практической. В исследовании с достаточно большим размером выборки (и достаточно высокой статистической мощностью) даже очень маленькие эффекты – например, от таблеток, уменьшающих головную боль на 1 % от одного балла по нашей шкале боли от 1 до 5, – могут показать себя статистически значимыми, часто с p-значениями намного ниже 0,05, хотя по абсолютной величине эти эффекты практически бесполезны. Экономисты Стивен Зилиак и Дейрдре Макклоски писали, что это “безразмерный взгляд на статистическую значимость”, когда у ученых развивается полная концентрация на p-значениях в ущерб рассмотрению “силы” эффекта[703].
Для решения проблемы чаще всего предлагается попросту отказаться от идеи статистической значимости. В 2019 году более восьмисот пятидесяти исследователей подписали
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!