📚 Hub Books: Онлайн-чтение книгРазная литератураРазберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Шрифт:

-
+

Интервал:

-
+
1 ... 60 61 62 63 64 65 66 67 68 69
Перейти на страницу:
вероятности. При добавлении решающего правила она превращается в алгоритм классификации.

94

Описанные в этой главе деревья решений и ансамблевые методы можно использовать для решения задач регрессии. Так что, если выходной параметр вашего набора данных является числом, попробуйте их применить.

95

Число e в уравнении – математическая константа вроде π, которая применяется далеко не только в логистической регрессии. Это так называемая постоянная Эйлера, приблизительно равная 2,71828.

96

Чтобы по-настоящему понять эту формулу, необходимо познакомиться с концепцией логарифма отношения шансов, рассмотрение которой выходит за рамки данной книги.

97

Существует несколько алгоритмов для создания деревьев решений, но наиболее популярный из них – CART (Classification and Regression Trees, деревья классификации и регрессии). Подробную информацию о нем можно найти в работе Breiman, Leo; Friedman, J. H.; Olshen, R. A.; Stone, C. J. (1984). Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software.

98

Мы создали это дерево и его визуализацию с помощью (бесплатной) статистической программы R с открытым исходным кодом и пакетов «rpart» и «rpart.plot». Не все деревья решений, с которыми вы столкнетесь, будут иметь подобный уровень детализации.

99

Breiman, L. (2001). Random forests. Machine learning, 45(1), 5–32.

100

Построение моделей на основе случайных выборок данных называется «бэггингом». Случайные леса – один из вариантов применения данного метода.

101

Дополнительную информацию о градиентном усилении (бустинге) можно найти в главе 10 книги Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1, No. 10). New York: Springer series in statistics, и в указанных там источниках. Однако имейте в виду, что это довольно сложный текст.

102

Хороший обзор можно найти в статье “Ideas on interpreting machine learning” на сайте www.oreilly.com/radar/ideas-on-interpreting-machine-learning. В настоящее время проводятся исследования, направленные на улучшение понимания работы этих методов.

103

Признана экстремисткой на территории РФ.

104

Цитата из поста.

105

Сгенерируйте собственные вдохновляющие цитаты на сайте inspirobot.me.

106

Отличное описание системы вопросов-ответов, используемой компьютером Watson, можно найти в книге: Siegel, E. (2013). Predictive analytics: The power to predict who will click, buy, lie, or die. John Wiley & Sons.

107

Текстовая аналитика также иногда называется текст-майнингом.

108

Облако слов создано с помощью сайта wordclouds.com.

109

Любимое блюдо Джордана – это хот-дог.

110

Более подробное описание модели Word2vec можно найти в главе 11 замечательной книги: Mitchell, M. (2019). Artificial intelligence: A guide for thinking humans. Penguin UK.

111

Да, здесь мы игнорируем множество пар слов, которые могут присутствовать даже в самых коротких статьях. Уже одно это должно дать вам представление о той вычислительной сложности, с которой пришлось столкнуться компании Google.

112

Говядина = (0,1, 1,0, 0,9), Корова = (1,0, 0,1, 1,0), Свинья = (1,0, 0,1, 0,0). Если произвести сложение и вычитание соответствующих элементов, то получится Говядина – Корова + Свинья = (0,1, 1,0–0,1), что довольно близко к значению слова Свинина = (0,1, 1,0, 0).

113

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.

114

code.google.com/archive/p/word2vec.

115

Два популярных метода тематического моделирования – латентно-семантический анализ (ЛСА) и латентное размещение Дирихле (ЛРД).

116

Это изображение взято с сайта en.wikipedia.org/wiki/File: Topic_model_scheme.webm, создано Кристофом Карлом Кингом и распространяется по лицензии Creative Commons Attribution-Share Alike 4.0 International.

117

Одна из самых значимых статей в данной области – Drucker, H., Wu, D., & Vapnik, V. N. (1999). Support vector machines for spam categorization. IEEE Transactions on Neural networks, 10(5), 1048–1054.

118

Линейная регрессия не работает и в том случае, если в наборе данных содержится больше признаков, чем наблюдений. Тем не менее существуют разновидности линейной и логистической регрессии, позволяющие справиться с такой ситуацией.

119

Дополнительную информацию вы можете найти в статье https://ru.wikipedia.org/wiki/Байесовская_фильтрация_спама

120

Это называется поправкой Лапласа, которая помогает предотвратить высокую вариацию в небольших количествах значений, о которой мы говорили в главе 3.

121

Generative Pre-trained Transformer 3

122

https://www.forbes.com/sites/bernardmarr/2020/10/05/what-is-gpt-3-and-why-is-it-revolutionizing-artificial-intelligence/?sh=2f45a93b481a

123

Шолле Франсуа, «Глубокое обучение на Python» (Издательство: Питер, 2018).

124

Разумеется, продемонстрировать резкие и ожидаемые изменения в химии мозга можно не только с помощью такого экстремального примера, как выбегающий на дорогу олень. Дело в том, что ваш мозг обрабатывает входные и выходные данные прямо сейчас. Миллионы нейронов активируются в процессе чтения этих строк.

125

Нейронные сети можно использовать и для решения задач регрессии. Только при этом будет применяться другая функция активации, поскольку итоговое вычисление, по сути, будет сводиться к модели линейной регрессии.

126

Веса также называются коэффициентами. Для одних и тех же понятий существует несколько названий.

127

Для поклонников исчисления сообщаем, что обратное распространение ошибки, по сути, представляет собой цепное правило, предоставляющее инструменты для оптимизации вложенных уравнений, подобных тем, которые используются в нейронных сетях.

128

В случае линейной регрессии для параметров существует настоящий математический оптимум (то есть точка, в которой сумма квадратов является минимальной). К сожалению, при работе с нейронными сетями у нас часто нет никакого способа узнать, достигла ли наша нейронная сеть математического оптимума или просто «достаточно хорошего» результата.

129

Здесь мы должны сделать оговорку. Если функция активации не логистическая, то это утверждение неверно.

130

LeCun, Y., et al. (1989). Backpropagation applied to handwritten

1 ... 60 61 62 63 64 65 66 67 68 69
Перейти на страницу:

Комментарии

Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!

Никто еще не прокомментировал. Хотите быть первым, кто выскажется?