📚 Hub Books: Онлайн-чтение книгРазная литератураРазберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Шрифт:

-
+

Интервал:

-
+
1 ... 29 30 31 32 33 34 35 36 37 ... 69
Перейти на страницу:
не был проведен спланированный эксперимент и не были тщательно измерены различия между старым подходом и идеями стажера, то у вас нет оснований предполагать наличие причинно-следственной связи.

Подведение итогов

В этой главе вы узнали о статистическом выводе и о том, как можно оспаривать предоставляемые вам статистические данные. В частности, вы познакомились с вопросами, которые стоит задавать по поводу тех или иных статистических утверждений, а также узнали, почему это важно. Вот эти вопросы:

– Каков контекст этой статистики?

– Каков размер выборки?

– Что вы тестируете?

– Какова нулевая гипотеза?

– Каков уровень значимости?

– Сколько тестов вы проводите?

– Каковы доверительные интервалы?

– Имеет ли это практическое значение?

– Предполагаете ли вы наличие причинно-следственной связи?

Вооружившись этим списком, вы сможете эффективно оспаривать, понимать и оценивать статистические показатели, с которыми сталкиваетесь.

Часть III

Освойте набор инструментов дата-сайентиста

Скорее всего, взять в руки эту книгу вас побудили такие термины, как машинное обучение, искусственный интеллект и глубокое обучение. В этой части мы собираемся лишить их ореола таинственности.

Сфера данных, как бы мы ее ни назвали, постоянно изменяется. Однако фундаментальные концепции и инструменты существуют на протяжении десятилетий и лежат в основе самых актуальных тенденций, включая анализ текста и изображений. В части III вы найдете высокоуровневое описание этих концепций и методов.

Эта часть состоит из следующих глав:

Глава 8. Ищите скрытые группы.

Глава 9. Освойте модели регрессии.

Глава 10. Освойте модели классификации.

Глава 11. Освойте текстовую аналитику.

Глава 12. Концептуализируйте глубокое обучение.

Вы также узнаете о распространенных ошибках и ловушках, в которые попадают даже опытные аналитики.

Глава 8

Ищите скрытые группы

«Если вы проанализируете данные достаточно тщательно, то сможете отыскать послания Бога»

– Дилберт[71]

Представьте, что вам звонит друг и просит помочь категоризовать его музыкальную коллекцию, представляющую собой набор винтажных виниловых пластинок. Вы соглашаетесь.

По дороге вы задумываетесь о способе организации такой коллекции. Начать можно с очевидных категорий, например, с музыкальных жанров и поджанров. Также можно сгруппировать музыкальные композиции по периодам, в которые они были выпущены. Эту информацию легко найти на обложке альбома.

Однако, когда вы приезжаете к своему другу, он вручает вам высокую стопку черных виниловых пластинок без обложек.

Ваш друг говорит, что купил эти пластинки на гаражной распродаже и понятия не имеет о жанрах, исполнителях или периодах выхода записанных на них композиций. Вы вынуждены отказаться от своих предвзятых представлений о способах классификации записей, поскольку у вас нет обложек альбомов, на которые вы могли бы опереться при их группировке. Задача категоризации пластинок внезапно оказывается намного сложнее, чем вы предполагали.

Набравшись смелости, вы с другом достаете проигрыватель, прослушиваете альбомы и начинаете группировать их по категориям в зависимости от того, насколько они похожи. По мере прослушивания пластинок вы создаете новые группы, объединяете небольшие группы в одну и иногда переносите пластинку из одной группы в другую после ожесточенных споров о том, к какой группе она «ближе».

В конце концов у вас формируется 10 категорий, каждой из которых вы присваиваете описательное название.

То, что вы с другом только что сделали, называется обучением без учителя или неконтролируемым обучением. Вместо того чтобы опираться на предвзятые представления о данных, вы позволили данным организоваться самостоятельно[72].

Эта глава посвящена обучению без учителя – набору инструментов, предназначенных для обнаружения скрытых закономерностей и групп в наборах данных при отсутствии заранее определенных групп. Эта мощная техника используется в самых разных областях, начиная с распределения клиентов по разным маркетинговым категориям и заканчивая организацией музыкальных композиций на платформах Spotify или Pandora и упорядочиванием фотографий в телефоне.

Обучение без учителя

В основе обучения без учителя или неконтролируемого обучения лежит идея о существовании скрытых групп в совокупности данных. Есть много способов, позволяющих выявить эти интересные закономерности и группы, если таковые действительно существуют. Как главный по данным, вы должны уметь ориентироваться в многочисленных методах обучения без учителя при поиске скрытых групп данных.

Но с чего начать, учитывая пугающе большое количество доступных методов неконтролируемого обучения? К счастью, для применения этих методов вам достаточно базового понимания связанных с ними основных действий. В данном случае речь идет:

– о снижении размерности с помощью анализа главных компонент;

– кластеризации методом k-средних.

В этой главе мы рассмотрим данные методы и разберемся в том, что они означают и как именно позволяют достичь целей по снижению размерности и кластеризации соответственно.

Снижение размерности

Снижение размерности – это процесс, с которым вы уже знакомы. Его примером может служить фотография, которая сводит трехмерный мир к плоскому двухмерному изображению, которое можно носить в кармане.

В случае с наборами данных мы работаем со строками и столбцами – наблюдениями и признаками. Количество столбцов (признаков) в наборе данных называется размерностью данных, а процесс объединения множества признаков в меньшее количество новых категорий при сохранении информации о наборе данных – снижением размерности. Проще говоря, мы ищем скрытые группы в столбцах набора данных, чтобы объединить несколько столбцов в один.

Давайте разберемся, почему это важно. С практической точки зрения в наборах данных с множеством признаков очень сложно разобраться. Их загрузка в компьютер может занимать много времени, и с ними тяжело работать. Из-за этого процесс разведочного анализа данных становится крайне утомительным, а в некоторых случаях – фактически нереализуемым. Например, в биоинформатике размерность набора данных может быть огромной. Каждое наблюдение исследователей может включать экспрессии тысяч генов, многие из которых сильно коррелируют друг с другом (а, следовательно, являются потенциально избыточными).

Снижение размерности данных позволяет сократить время вычислений, устранить избыточность и улучшить визуализацию результатов. Но как именно это можно сделать?

Создание составных признаков

Один из способов снизить размерность набора данных – объединение нескольких столбцов в составной признак. Давайте посмотрим, как это делается, на примере реальных данных о результатах сравнительных тестов 32 автомобилей, опубликованных в журнале Motor Trend за 1974 год. Сравнение этих автомобилей проводилось по 11 признакам, таким как расход топлива в милях на галлон, мощность двигателя в лошадиных силах, вес и другие характеристики автомобиля[73]. Наша задача – создать метрику «эффективности» для ранжирования автомобилей от наиболее до наименее эффективных.

Рис. 8.1. Ранжирование автомобилей на основе различных составных признаков. Обратите внимание на увеличение дисперсии, то есть на

1 ... 29 30 31 32 33 34 35 36 37 ... 69
Перейти на страницу:

Комментарии

Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!

Никто еще не прокомментировал. Хотите быть первым, кто выскажется?