Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Линейная регрессия: что она дает
Давайте быстро повторим то, что мы обсуждали ранее, в контексте парадигмы контролируемого обучения, представленной на рис. 9.1. У нас был набор данных, состоящий из столбца с входными значениями и столбца с выходными значениями, который мы подали на вход алгоритма линейной регрессии. Этот алгоритм извлек из данных оптимальные коэффициенты для подстановки в линейное уравнение Продажи = m(Температура) + b, создав модель Продажи = 1,03(Температура) – 71,07, которую можно использовать для прогнозирования прибыли от продажи лимонада.
Модели линейной регрессии пользуются популярностью во многих отраслях, потому что они не только делают прогнозы, но и объясняют то, как входные признаки соотносятся с выходными данными. (Кроме того, их совсем не трудно вычислить.) Коэффициент наклона, равный 1,03, говорит о том, что при повышении температуры на один градус можно ожидать увеличения продаж на 1,03 доллара. Это значение сообщает нам как величину, так и направление влияния входных данных на выходные.
Учитывая то, что в мире и в собираемых данных присутствует случайность и изменчивость, можно предположить наличие встроенной изменчивости и в значениях коэффициентов линейной регрессии. Если бы вы собрали новый набор данных о продажах своего лимонада, вы могли бы обнаружить, что при росте температуры на 1 градус ваша выручка увеличивается не на 1,03, а на 1,25 доллара. Данные, подаваемые на вход алгоритма, являются выборкой, поэтому вам следует думать о полученных результатах в терминах статистики. Статистическое программное обеспечение помогает это делать, предоставляя p-значения для каждого коэффициента (нулевая гипотеза, H0: коэффициент = 0) и сообщая о наличии статистически значимого отличия коэффициента от нуля. Например, коэффициент 0,000003 очень близок к нулю и для практических целей может считаться нулевым в вашей модели.
Иными словами, если коэффициент значимо не отличается от нуля, вы можете исключить соответствующий признак из своей модели, поскольку входное значение не влияет на выходное. Разумеется, уроки статистики из главы 6 не теряют при этом своей актуальности. Коэффициент может быть статистически, но не практически значимым. Всегда выясняйте коэффициенты моделей, влияющих на ваш бизнес.
Включение множества признаков
Мы предполагаем, что ваш бизнес не ограничивается простой торговлей лимонадом. Ваши продажи, скорее всего, зависят не только от температуры (если это сезонный бизнес), но и от многих других факторов. К счастью, простую модель линейной регрессии, о которой мы говорили выше, можно расширить, включив в нее множество признаков[87]. Регрессия с одним входным параметром называется простой линейной регрессией, а с несколькими – множественной линейной регрессией.
Рассмотрим пример множественной линейной регрессии на основе данных о жилье, которые мы анализировали в главе 5. Этот набор данных содержит 1234 дома и 81 входной параметр, из которых для упрощения примера мы рассмотрим только 6. (Мы также могли бы использовать АГК для снижения размерности, но не стали этого делать, чтобы не усложнять пример.)
Давайте построим модель для прогнозирования цены продажи дома (выходной параметр) на основе площади участка, года постройки, площади 1-го, 2-го этажа и подвала в квадратных футах и количества полноценных ванных комнат. На основе данных алгоритм линейной регрессии вычисляет наилучшие значения точки пересечения и коэффициентов, перечисленные в табл. 9.2.
Табл. 9.2. Модель множественной линейной регрессии для описания данных о недвижимости. Все соответствующие p-значения статистически значимы на уровне 0,05
Основной принцип модели множественной регрессии состоит в том, чтобы изолировать влияние одной переменной, контролируя при этом остальные. Например, мы можем сказать, что при прочих неизменных значениях входных данных цена продажи дома, построенного годом позднее (в среднем), будет выше на 818,38 доллара. Коэффициенты каждого признака показывают величину и направление его воздействия на цену. Обязательно учитывайте единицы измерения. Добавление 1 единицы площади в квадратных футах отличается от добавления 1 единицы к количеству ванных комнат. Статистик может масштабировать данные при необходимости сравнения сопоставимых коэффициентов.
Каждый коэффициент также подвергается соответствующему статистическому тесту, который сообщает нам о том, имеет ли его значение статистически значимое отличие от нуля. Если нет, мы можем без опасений исключить его из модели, поскольку он не добавляет никакую информацию и не влияет на результат.
Линейная регрессия: какую путаницу она вызывает
Если бы мы были какими-нибудь аферистами, мы бы закончили главу предыдущим разделом, предложив вам приобрести программу для расчета линейной регрессии в качестве панацеи, позволяющей решить все проблемы вашего бизнеса. Наш рекламный слоган был бы таким: «Введите данные, получите модель и начните делать прогнозы относительно своего бизнеса уже сегодня!» Звучит фантастически просто – однако к этому моменту вы уже наверняка понимаете, что при работе с данными ничто не так просто, как кажется (или рекламируется). Как говорилось в эпиграфе к этой главе, при неправильном применении линейная регрессия может оказаться потенциально опасной. Поэтому при создании или использовании регрессионных моделей всегда сохраняйте здоровый скептицизм. Уравнения, терминология и вычисления создают впечатление, будто модель линейной регрессии способна автоматически исправить любую проблему в вашем наборе данных. Но это не так.
Давайте рассмотрим некоторые подводные камни использования линейной регрессии.
Пропущенные переменные
Модели контролируемого обучения не могут выявить взаимосвязь между входной и выходной переменной в случае исключения входной переменной из модели. Рассмотрим нашу простую модель, которая предсказывала уровень продаж лимонада на основе средних значений прошлых продаж без учета температуры.
Главные по данным, будучи осведомленными об этой проблеме, могут предложить для включения в модели информативные, релевантные признаки. Однако не стоит отдавать выбор признаков на откуп аналитикам. Ключ к созданию успешной модели контролируемого обучения – включение в нее правильных данных и наличие опыта в интересующей предметной области.
Например, модель с ценами на жилье, описанная в предыдущем разделе, имеет значение R2, равное 0,75. Это означает, что с помощью нашей модели мы объяснили 75 % вариаций цены продажи. Теперь подумайте о не включенных в эту модель признаках, которые помогли бы предсказать цену дома, – например о таких вещах, как экономические условия, процентные ставки, рейтинги начальных школ и так далее. Эти пропущенные переменные не только влияют
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!