О чем говорят цифры. Как понимать и использовать данные - Ким Хо
Шрифт:
Интервал:
Этот довольно удивительный факт был обнаружен в 1881 году американским астрономом Симоном Ньюкомбом, заметившим, что в справочнике логарифмов первые страницы всегда гораздо более потрепанные, чем последующие. В 1938 году физик Франк Бенфорд сделал то же открытие на основе анализа гораздо большего массива данных, чем Ньюкомб. Он рассмотрел 20 229 наборов данных, включая географические координаты рек, бейсбольную статистику, количество статей в журналах, и номера домов первых 342 человек, перечисленных в рейтинге «Деятели науки Америки». Анализ всех этих вроде бы не связанных друг с другом баз данных показал, что вероятность распределения цифр на первое место в числе та же, что и для потрепанных таблиц логарифмов. Эта модель определения первой цифры в числе получила впоследствии название закона Бенфорда в честь ее первого исследователя. Стало общепризнанным действие закона Бенфорда во многих ситуациях реальной жизни.
Многие статистики и бухгалтеры твердо убеждены в том, что закон Бенфорда является очень простым, но надежным способом выявления возможных случаев мошенничества, хищений, неуплаты налогов и бухгалтерской небрежности. Идея проста: если кто-то фальсифицирует базу данных, то вряд ли он сможет имитировать распределение первой значимой цифры в числах в соответствии с законом Бенфорда. Поэтому простое сравнение распределения по закону Бенфорда и фактического распределения первых значимых цифр в базе данных поможет выявить сфальсифицированные блоки чисел. Как правило, в них частота распределения 1 как первой значимой цифры намного меньше 30 процентов, зато частота распределения 6 – намного больше, чем в доброкачественных массивах данных.
В 1972 году докторант университета Беркли Хэл Вэриан показал, что этот закон применим для выявления возможных искажений в массивах социологических данных, предоставляемых для подтверждения общественного мнения по готовящемуся политическому или экономическому решению. Судебный эксперт по бухгалтерским вопросам Марк Нигрини получил известность благодаря применению разработанной им на основе закона Бенфорда системы выявления мошенничества в некоторых громких делах в Бруклине. В наши дни многие налоговые управления используют специальное программное обеспечение для выявления фальсифицированных данных, разработанное на основе закона Бенфорда. Точно так же поступают крупные компании и аудиторские фирмы. В США доказательства фальсификаций на основе закона Бенфорда официально признаны в судебных разбирательствах на государственном уровне, уровне штата и местном уровне.
Болезнь Альцгеймера – это дисфункция мозга, вызывающая проблемы с памятью, мышлением и поведением. Симптомы обычно развиваются медленно, с течением времени усиливаются и в конце концов начинают мешать человеку выполнять обычные домашние дела; затем пациент умирает по неизвестной причине. Болезнь Альцгеймера лежит в основе 60–80 процентов всех случаев приобретенного слабоумия. Около 5,3 миллиона американцев, в том числе каждый восьмой в возрасте старше 65 лет (а их 13 процентов от общей численности населения), страдают от болезни Альцгеймера. В США эта болезнь является шестой по распространенности причиной смерти. Помимо страданий самого пациента необходимо принять во внимание эмоциональные и физические страдания его семьи, необходимость повседневного ухода, изменение социальных ролей в семье, трудное решение о помещении в специальное лечебное учреждение.
Причины возникновения и развития болезни Альцгеймера до конца не выяснены. Многие исследователи пытались найти взаимосвязь между развитием болезни и характеристиками (или маркерами) группы повышенного риска. Например, люди с низким уровнем образования в большей степени подвержены заболеванию, чему способствует их образ жизни, в том числе питание, ежедневные занятия, употребление алкогольных напитков и риски профессиональной деятельности. Профессор центра геронтологии Сандерс-Браун при Кентуккийском университете Дэвид Сноудон и его коллеги считают, что языковые способности – более надежный показатель для прогнозирования вероятности болезни Альцгеймера, чем образ жизни[81]. Они предположили, что высокий уровень лингвистических способностей становится неким буфером для развития когнитивного снижения мнемонических процессов в мозгу, обеспечивающих декодирование, организацию и поиск информации. Они провели образцовое и весьма креативное исследование, связав когнитивные способности в молодом возрасте с риском возникновения болезни Альцгеймера в пожилом. В качестве целевой выборки они, что весьма необычно, взяли членов монашеского ордена, причем в качестве источников информации использовались их автобиографии. Рассмотрим это исследование с точки зрения наших шести шагов количественного анализа.
Определение и формулирование проблемы. Определить, ассоциируются ли языковые способности в раннем возрасте с когнитивными функциями и низкой вероятностью болезни Альцгеймера в пожилом.
Обзор предшествующих исследований Многие аналитические процедуры, применявшиеся командой Сноудона, ранее были описаны в работах доктора Дэвида Векштейна и доктора Уильяма Марксбери. В 1989 году они проводили исследование изменений когнитивной функции и поведения, связанных с возрастом, в группе пожилых пациентов, согласившихся после смерти пожертвовать свой мозг для научных исследований. Цель исследования состояла в том, чтобы установить, как изменения ткани мозга связаны с развитием болезни Альцгеймера и других неврологических заболеваний.
Моделирование (отбор переменных). Участниками исследования Сноудона стали сестры ордена Нотр-Дам из Милуоки (штат Висконсин). С 1991 по 1993 год сестер монастыря, родившихся до 1917 года, попросили принять участие в долговременном исследовании причин болезни Альцгеймера в пожилом возрасте. Из 1027 подходивших по возрасту сестер предложение приняли 678 (66 процентов), дав письменное согласие. Процент согласившихся довольно высок, особенно с учетом того факта, что все участницы обязались пожертвовать свой мозг для научных исследований после смерти, а также ежегодно проходить обследование когнитивных функций и общего физического состояния. Далее Сноудон и его коллеги обследовали выборку из 93 участниц, при вступлении в монастырь написавших автобиографию. Эти бумаги сохранились в монастырском архиве. Были выбраны следующие переменные для анализа:
• Языковые способности в молодости (способность формулировать мысли и грамматическая сложность речи).
• Когнитивные функции (семь различных показателей) и наличие болезни Альцгеймера в пожилом возрасте.
Сбор (измерение) данных. Автобиографии сестер использовались для оценки их языковых способностей в молодости. После примерно четырех лет жизни в монастыре каждая из них написала автобиографию незадолго до принятия монашеского сана. Из архивных документов стало известно, что всех их попросили написать краткий очерк о своей жизни. «По объему он не должен был превышать двухсот-трехсот слов и одного листа… в нем должны быть указаны место рождения, имена родителей, памятные и поучительные события детства, посещение школы, факторы, повлиявшие на решение уйти в монастырь, религиозная жизнь с ее замечательными событиями».
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!