Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке - Стюарт Ричи
Шрифт:
Интервал:
451
Еще Маклауд и его коллеги проверяли, сообщается ли в статьях о конфликте интересов (см. четвертую главу).
452
Macleod M. R. et al. Evidence for the Efficacy of NXY-059 in Experimental Focal Cerebral Ischaemia Is Confounded by Study Quality. Stroke. 39, no. 10 (2008): 2824–9.
453
Классический реальный пример, иллюстрирующий эту мысль, часто приводится в учебниках по статистике – речь идет о президентских выборах 1936 года в США. Сотрудники журнала The Literary Digest провели массовый опрос, в котором участвовало два миллиона человек, однако не сумели сделать выборку случайной, поскольку контактировали с участниками по телефону. В то время только у состоятельных граждан имелись дома телефоны, а кроме того, чтобы раздобыть телефонные номера, сотрудники журнала воспользовались списками членов разных клубов, где менее богатые граждане опять-таки встречались реже. Так выборка оказалась нерепрезентативной, поэтому вышла ошибка: сотрудники журнала The Literary Digest неверно предсказали, что кандидат от республиканцев Альф Лэндон на голову разобьет Франклина Рузвельта. Рузвельт набрал 61 % голосов, а тот журнал вскоре прекратил свое существование. См. Lohr S. L., Brick J. M. Roosevelt Predicted to Win: Revisiting the 1936 Literary Digest Poll. Statistics, Politics and Policy. 8, no. 1 (2017): 65–84.
454
Simmons J. P. et al. Life after P-Hacking. SSRN. 2013.
455
Говоря о надежном обнаружении эффекта, авторы подразумевали широко используемый в научной литературе стандарт. Статистическая мощность обычно считается приемлемой, когда вероятность обнаружить с помощью статистического теста эффект, если он действительно существует (то есть получить p-значение меньше 0,05), равна 80 % или выше. Очевидно, что чем статистическая мощность больше, тем лучше, и при достаточно крупных выборках (или достаточно сильных эффектах) статистическая мощность может существенно превышать этот минимальный порог. При мощности в 80 % двадцатипроцентный шанс упустить эффект, если он и правда существует, – это вероятность ложноотрицательного результата.
456
Button K. S. et al. Power Failure: Why Small Sample Size Undermines the Reliability of Neuroscience. Nature Reviews Neuroscience. 14, no. 5 (2013): 365–76. См., в частности, табл. 2.
457
Разные области нейронауки, однако, порядочно отличаются друг от друга. Nord C. L. et al. Power-up: A Reanalysis of “Power Failure” in Neuroscience Using Mixture Modeling. Journal of Neuroscience. 37, no. 34 (2017): 8051–61.
458
Медицинские испытания: Lamberink H. J. et al. Statistical Power of Clinical Trials Increased While Effect Size Remained Stable: An Empirical Analysis of 136,212 Clinical Trials between 1975 and 2014. Journal of Clinical Epidemiology. 102 (2018): 123–8. Биомедицинские исследования: Dumas-Mallet E. et al. Low Statistical Power in Biomedical Science: A Review of Three Human Research Domains. Royal Society Open Science. 4, no. 2 (2017): 160254. Экономика: Ioannidis J. P. A. et al. The Power of Bias in Economics Research. Economic Journal. 127, no. 605 (2017): F236–65. Нейровизуализация: Cremers H. R. et al. The Relation between Statistical Power and Inference in FMRI. PLOS ONE. 12, no. 11 (2017): e0184923. Исследования в области сестринского дела: Gaskin C. J., Happell B. Power, Effects, Confidence, and Significance: An Investigation of Statistical Practices in Nursing Research. International Journal of Nursing Studies. 51, no. 5 (2014): 795–806. Поведенческая экология: Jennions M. D., Moller A. P. A Survey of the Statistical Power of Research in Behavioral Ecology and Animal Behavior. Behavioral Ecology. 14, no. 3 (2003): 438–45. Психология: Szucs D., Ioannidis J. P. A. Empirical Assessment of Published Effect Sizes and Power in the Recent Cognitive Neuroscience and Psychology Literature. PLOS Biology. 15, no. 3 (2017): e2000797.
459
Nelson L. D. et al. Psychology’s Renaissance. Annual Review of Psychology. 69, no. 1 (2018): 511–34.
460
Это своего рода “проклятие победителя”, иногда обсуждаемое на аукционах, – когда человек, сделавший выигрышную ставку, переоценивает свой лот, каким бы тот ни был. В науке это еще называют “феноменом Протея”, в честь героя греческой мифологии, принимавшего любое обличье. Идея в том, что на первых порах, когда некий эффект только-только открыли, его величина в разных исследованиях зачастую сильно различается, частично из-за тех проблем, которые мы обсуждали в контексте статистической мощности и неспособности некоторых исследований обнаруживать небольшие эффекты. См. Ioannidis J. P. A., Trikalinos T. A. Early Extreme Contradictory Estimates May Appear in Published Research: The Proteus Phenomenon in Molecular Genetics Research and Randomized Trials. Journal of Clinical Epidemiology. 58, no. 6 (2005): 543–9; Lemoine N. P. et al. Underappreciated Problems of Low Replication in Ecological Field Studies. Ecology. 97, no. 10 (2016): 2554–61; Button K. S. et al. Power Failure.
461
Похожая проблема затрагивает статьи, которые я цитировал выше, где рассматривалась статистическая мощность в конкретных областях. Статистическая мощность исследований оценивалась там задним числом: задавался вопрос “Какой она у них была, раз позволила обнаружить найденный ими эффект?”. Но если в тех исследованиях величина истинного эффекта переоценивалась, такой апостериорный метод завышает оценку мощности. Таким образом, проверка статистической мощности задним числом может внушить уверенность, будто мощность в вашем исследовании совершенно нормальна, хотя это не так. Лучше взять идеальную величину эффекта – ту, которую, исходя из практического значения вашего эффекта, вы бы сочли малой, средней или большой (например, используя значимую разницу по более добротному показателю, такому как изменение по шкале боли, доход в долларах, температура или скорость), – и сделать мощность вашего исследования достаточной (то есть включить в него достаточное количество участников или наблюдений), чтобы надежно этот эффект обнаружить. См. Gelman A. Don’t Calculate Post-Hoc Power Using Observed Estimate of Effect Size. 2018. www.stat.columbia.edu/~gelman/research/unpublished/power_surgery.pdf
462
Lamberink H. J. et al. Statistical Power of Clinical Trials. Величина эффекта, о которой я здесь говорю, – это d-значение Коэна, равное 0,21. Интерпретацию с количеством людей, которым станет лучше от лечения, я дал с помощью очень полезного калькулятора с сайта, созданного Кристоффером Магнуссоном: https://rpsychologist.com/d3/cohend.
463
Leucht S. et al. How Effective Are Common Medications: A Perspective Based on Meta-Analyses of Major Drugs. BMC Medicine. 13, no. 1 (2015): 253. В этом исследовании, посвященном величине эффекта от часто используемых медицинских препаратов, отмечены некоторые широко распространенные лекарства, оказывающие большой эффект (например, ингибиторы протонного насоса вроде омепразола, очень сильно влияющие на секрецию
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!