Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер

Шрифт:

Интервал:

Перейти на страницу:

матрица ошибок: таблица, где собраны верные и неверные классификации, произведенные каким-либо алгоритмом;

машинное обучение: процедуры извлечения алгоритмов (например, для классификации, прогнозирования или кластеризации) из сложных данных;

медиана (выборки): значение, которое окажется посередине, если упорядочить числа в выборке. Более строго: упорядочив числа в выборке, обозначим наименьшее число x(1), второе по величине x(2) и так далее (получившийся набор x(1),x(2),…,x(n) называют вариационным рядом). Если n – нечетное число, то медиана – число, находящееся точно посередине вариационного ряда, то есть число Искусство статистики. Как находить ответы в данных . Если же n – четное число, то медианой обычно считают полусумму двух средних чисел;

метаанализ: формальный статистический метод объединения результатов нескольких исследований;

метод наименьших квадратов: предположим, что у нас есть n пар чисел (x1,y1),(x2,y2), Искусство статистики. Как находить ответы в данных ,sx – выборочное среднее и среднеквадратичное отклонение для чисел x иsy – выборочное среднее и среднеквадратичное отклонение для чисел y. Тогда прямая регрессии, вычисленная по методу наименьших квадратов, определяется уравнением

где

Искусство статистики. Как находить ответы в данных – прогнозируемое значение зависимой переменной для определенного значения независимой переменной x;

коэффициент наклона Искусство статистики. Как находить ответы в данных ;

отсекаемый отрезок Искусство статистики. Как находить ответы в данных . Прямая по методу наименьших квадратов проходит через центр тяжести;

i-й остаток – разность между i-м наблюдением и его предсказанным значением Искусство статистики. Как находить ответы в данных ;

скорректированное значение i-го наблюдения – это сумма остатка и отсекаемого отрезка, то есть Искусство статистики. Как находить ответы в данных . Это значение мы наблюдали бы в «среднем» случае, если бы имели а не x = xi;

остаточная сумма квадратов – это сумма квадратов всех остатков, то есть Искусство статистики. Как находить ответы в данных . Прямая, построенная по методу наименьших квадратов, определяется как прямая, минимизирующая сумму квадратов разностей;

коэффициент наклона b1 и коэффициент корреляция Пирсона r связаны формулой b1 = rsy / sx. Поэтому в случае, когда стандартные отклонения для x и y одинаковы, коэффициент угла наклона в точности равен коэффициенту корреляции;

множественная линейная регрессия: предположим, что для каждого отклика yi есть набор из p предикторных переменных (xi1,xi2,…,xip). Тогда множественная линейная регрессия по методу наименьших квадратов определяется уравнением

где коэффициенты b0,b1,…,bp выбираются так, чтобы минимизировать сумму остатков Искусство статистики. Как находить ответы в данных . Отсекаемый отрезок b0 – это просто среднее, а формулы остальных коэффициентов сложны, но легко вычисляются. Обратите внимание, что Искусство статистики. Как находить ответы в данных является спрогнозированным значением наблюдения y, если предикторные переменные были средними, и, как в случае линейной регрессии, скорректированные определяются суммой остатка и отсекаемого отрезка, или Искусство статистики. Как находить ответы в данных ;

многоуровневая регрессия и постстратификация (MRP): современный способ создания выборки, при котором из многих областей берутся достаточно небольшие количества респондентов с похожими характеристиками. Затем строится регрессионная модель для откликов в соответствии с демографическими факторами, что допускает дополнительный разброс между областями. Знание демографии для всех областей позволяет делать прогнозы на местном и национальном уровне с соответствующей неопределенностью;

1 ... 79 80 81 82 83 84 85 86 87 88

Перейти на страницу:

Поделиться книгой в соц сетях:

Сигнал и Шум. Почему одни прогнозы сбываются, а другие - нет - Нейт Сильвер

2021
Домашняя

Заставьте данные говорить. Как сделать бизнес-дашборд в Excel. Руководство по визуализации данных - Алексей Сергеевич Колоколов

2021
Разная литература 📚Бизнес

Джугафилия и советский статистический эпос - Дмитрий Орешкин

2021
Политика

Управление на основе данных. Как интерпретировать цифры и принимать качественные решения в бизнесе - Тим Филлипс

2021
Домашняя

Комментарии

Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!

Никто еще не прокомментировал. Хотите быть первым, кто выскажется?

Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер

Возможно, вас заинтересует

Сигнал и Шум. Почему одни прогнозы сбываются, а другие - нет - Нейт Сильвер

Заставьте данные говорить. Как сделать бизнес-дашборд в Excel. Руководство по визуализации данных - Алексей Сергеевич Колоколов

Джугафилия и советский статистический эпос - Дмитрий Орешкин

Управление на основе данных. Как интерпретировать цифры и принимать качественные решения в бизнесе - Тим Филлипс