Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Шрифт:
Интервал:
отношение показателей: относительное увеличение ожидаемого числа событий за определенный период времени, связанное с каким-либо воздействием. Пуассоновская регрессия – это форма множественной регрессии, когда переменная отклика представляет собой наблюдаемый показатель, а коэффициенты соответствуют log(отношение показателей);
отношение правдоподобия: мера относительного подтверждения, которое дают данные для двух конкурирующих гипотез. Для гипотез H0 и H1 отношение правдоподобия при данных x определяется формулой p(x|H0) / p(x|H1);
отношение рисков: при анализе времени выживания – связанный с воздействием относительный риск пережить какое-то событие за определенный промежуток времени. Регрессия Кокса – это форма множественной регрессии, когда переменная отклика – это время выживания, а коэффициенты соответствуют log(отношение рисков);
ошибка второго рода: происходит, когда альтернативная гипотеза верна, но после проверки нулевая гипотеза не отвергается, то есть делается ложноотрицательное утверждение;
ошибка первого рода: происходит, когда ошибочно отклоняется верная нулевая гипотеза в пользу альтернативы, то есть делается ложноположительное утверждение;
ошибка прокурора: когда малая вероятность факта при условии невиновности ошибочно истолковывается как вероятность невиновности при условии наличия данного факта;
параметры: неизвестные величины в статистической модели, обычно обозначаемые греческими буквами;
перекрестная проверка: способ оценивания качества алгоритма для прогноза или классификации путем нескольких выделений части случаев в качестве тестового набора;
переобучение (переподгонка): построение статистической модели, которая чрезмерно адаптирована к тренировочному набору данных, из-за чего ее прогнозные возможности начинают ухудшаться;
пиктографические диаграммы: графическое отображение величин с помощью небольших изображений, например изображений людей;
Пирсона коэффициент корреляции: если у нас есть n пар чисел (x1,y1),(x2,y2)…(xn,yn) и ,sx – это выборочное среднее и среднеквадратичное отклонение для чисел x, а ,sy – это выборочное среднее и среднеквадратичное отклонение для чисел y, то коэффициент корреляции Пирсона определяется формулой
Предположим, что x и y стандартизованы до Z-оценок u и v соответственно, то есть, а . Тогда коэффициент корреляции Пирсона можно выразить как, то есть прямого произведения Z-оценок;
плацебо: пустое вещество (например, таблетка с сахаром), которое дают контрольной группе в рандомизированном клиническом испытании под видом реального лечения;
погрешность: правдоподобный промежуток, в котором может лежать истинная характеристика популяции. Часто используются 95-процентные доверительные интервалы, которые примерно заключают промежуток ±2 стандартных ошибки, но иногда используются «усы» (планки погрешностей), отображающие ±1 стандартную ошибку;
подтверждающие исследования и анализы: строгие исследования, в идеале выполняющиеся с заранее утвержденным протоколом в целях подтверждения или опровержения гипотез, выдвинутых в ходе «поисковых» исследований или анализов;
поисковые исследования и анализы: первоначальные гибкие исследования, которые допускают адаптивные изменения в планах и анализе в целях поиска многообещающих результатов и предназначены для того, чтобы генерировать гипотезы, которые будут проверяться последующими подтверждающими исследованиями;
поперечное исследование: исследование, в котором анализ основан исключительно на текущем состоянии участников, без какого-либо последующего наблюдения в течение долгого времени;
поправка/стратификация: включение в регрессионную модель известных возмущающих факторов, которые не представляют прямого интереса, но позволяют провести более сбалансированное сравнение между группами; при этом можно надеяться, что оцененные эффекты, связанные с объясняющими переменными, должны быть ближе к причинной связи;
последовательное тестирование: когда какая-либо статистическая проверка повторно проводится на накапливающихся данных, что повышает вероятность появления в какой-то момент ошибки первого рода. Если процесс продолжается достаточно долго, гарантируется «значимый результат»;
правдоподобие: мера подтверждения, обеспечиваемая данными для конкретных значений параметра. Когда вероятностное распределение какой-либо случайно величины зависит от параметра, например θ, то после наблюдения данных x правдоподобие для θ пропорционально p(x|θ);
практическая значимость: когда какой-нибудь результат имеет реальную важность. Масштабные исследования могут давать результаты, которые статистически значимы, но не имеют практической значимости;
предсказательная аналитика: использование данных в целях создания алгоритмов для прогнозов;
проверка гипотезы: формальная процедура для оценки подтверждения гипотезы имеющимися данными. Обычно представляет собой сочетание классических фишеровских критериев для проверки нулевой гипотезы с помощью P-значения и конструкции Неймана – Пирсона, где фигурируют нулевая и альтернативная гипотезы и ошибки первого и второго рода;
проспективное когортное исследование: когда выбирается множество испытуемых, измеряются фоновые факторы, а затем за ними следят и наблюдают за соответствующими результатами. Такие исследования – продолжительные и дорогостоящие и могут не идентифицировать многие редкие события;
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!