Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Шрифт:
Интервал:
зависимые события: когда вероятность одного события зависит от наступления другого;
закон больших чисел: общее название нескольких теорем о сходимости средних для последовательности случайных величин к истинному математическому ожиданию. На практике это означает, что выборочное среднее близко к среднему значению всей генеральной совокупности;
иерархическое моделирование: в байесовском анализе – когда параметры, определяющие число элементов (например, районов или школ), сами считаются взятыми из общего априорного распределения. Это приводит к уменьшению оценок параметров для отдельных элементов в сторону общего среднего;
индуктивное поведение: сделанное в 1930-х годах предложение Ежи Неймана и Эгона Пирсона по проверке гипотез в терминах принятия решений. От него остались идеи размера и мощности критерия, а также ошибок первого и второго рода;
индукция (индуктивное умозаключение): построение обобщающего вывода на основании частных примеров;
интерквартильный размах: мера разброса выборки или распределения; конкретно – разность между третьим и первым квартилем, то есть между 75-м и 25-м процентилем;
искусственный интеллект (ИИ): компьютерные программы, предназначенные для выполнения задачи, обычно связываемой с человеческими способностями;
исследование «случай – контроль»: ретроспективное исследование, в котором люди с заболеванием или с интересующей нас характеристикой (случаи) сопоставляются с одним или несколькими людьми, не имеющими заболевания (контрольные экземпляры), и сравниваются истории этих групп – чтобы увидеть, дают ли воздействия систематическую разницу между группами. Такая схема может оценивать только относительные риски, связанные с воздействиями;
калибровка: требование, чтобы наблюдаемые частоты событий соответствовали вероятностным прогнозам. Например, если вероятность какого-нибудь события 0,7, то оно должно происходить примерно в 70 % случаев;
качественная (категорийная) переменная: переменная, принимающая два или несколько дискретных значений, которые могут или не могут быть упорядоченными;
квартиль (генеральной совокупности): 25-й, 50-й и 75-й процентили;
комбинированные признаки: когда несколько объясняющих переменных соединяются и производят эффект, отличный от ожидаемого при их отдельном воздействии;
конструирование признаков: в машинном обучении процесс уменьшения размерности входных переменных с созданием сводных характеристик, которые содержат информацию о данных в целом;
контрольная группа: множество людей, которые не подпадали под интересующее нас воздействие;
контрольные граничные значения: заранее определенные ограничения для случайной величины, используемые при контроле качества для отслеживания отклонений от предполагаемых стандартов; например, могут отображаться на воронкообразном графике;
контрфактуальный: относящийся к сценариям вида «что, если», где рассматривается альтернативная история событий;
коэффициент регрессии: оцениваемый параметр в статистической модели, который выражает степень взаимосвязи между объясняющей переменной и результатом во множественной регрессии. Этот коэффициент будет иметь различную интерпретацию в зависимости от того, является ли результирующая переменная непрерывной (множественная линейная регрессия), долей (логистическая регрессия), целым числом (пуассоновская регрессия) или временем выживания (регрессия Кокса);
кризис воспроизводимости: утверждение, что многие опубликованные научные выводы основаны на недостаточно качественных работах, поэтому такие результаты не могут воспроизвести другие исследователи;
критерий независимости хи-квадрат/критерий согласия хи-квадрат: статистический критерий, показывающий степень несовместимости данных с принятой статистической моделью, заключающей нулевую гипотезу (например, величины независимы или имеют определенное распределение). А именно: критерий сравнивает множества каких-то наблюдаемых величин x1,…,xm и ожидаемых при нулевой гипотезе величин y1,…,ym. Простейший вариант критерия –
При нулевой гипотезе значение χ2 приближенно будет иметь известное χ2-распределение. Это позволяет вычислить соответствующее P-значение;
логарифмическая шкала: логарифм по основанию 10 для положительного числа x обозначается y = log10x, что эквивалентно x = 10y. В статистическом анализе log x обычно обозначает натуральный логарифм loge x, что эквивалентно x = ey, где e – основание натурального логарифма 2,71828…;
логистическая регрессия: форма множественной регрессии, когда переменная отклика – это доля, а коэффициенты соответствуют log(отношение шансов). Допустим, мы наблюдаем набор долей yi = ri/ni в предположении, что у нас биномиальные величины с вероятностями pi, а соответствующий набор предикторных переменных –. Предполагается, что логарифм шансов с оцениваемой вероятностью определяется линейной регрессией:
Допустим, что одна из предикторных переменных, например x1, является двоичной, где x1 = 0 соответствует отсутствию воздействия потенциального риска, а x1 = 1 соответствует воздействию. Тогда коэффициент b1 – это log(отношение шансов);
ложноположительный: неверная классификация «отрицательного» случая как «положительного»;
математическое ожидание (среднее): среднее значение случайной величины (взвешенное по вероятностям или по плотности). Для дискретной случайной величины это ∑xp(x), а для непрерывной случайной величины это ∫xp(x)dx. Например, если случайная величина X – это число очков, выпавших на симметричной игральной кости, то есть P(X = x) = 1/6 для x = 1,2,3,4,5,6, то ;
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!