Сигнал и Шум. Почему одни прогнозы сбываются, а другие - нет - Нейт Сильвер
Шрифт:
Интервал:
Хотя системе Vladimir Хакебея и удалось сделать ряд правильных прогнозов, в целом она все же была ненамного более точной, чем медленные и устойчивые прогнозы Джеймса{204}, согласно которым одна и та же кривая старения применялась к каждому игроку. Отчасти проблема заключалась в том, что число 26 для количества категорий Хакебея было выбрано случайным образом, а для того, чтобы определить, к какой группе относится игрок, требовалось скорее искусство, а не наука.
Но, чтобы войти в число элитных игроков в бейсбол, человек должен обладать широким диапазоном физических и ментальных навыков: мышечной памятью, физической силой, координацией между глазами и руками, скоростью удара битой, распознаванием направления полета мяча и силой воли, позволяющей сохранять концентрацию даже в сложные для команды периоды. Понятие о существовании различных видов кривых старения, вытекающее из созданных системой Vladimir, казалось, более точно отражало всю сложность, присущую человеческой природе.
При разработке PECOTA я попытался заимствовать некоторые элементы у Хакебея, а некоторые – у Билла Джеймса. В выпуске Baseball Abstract за 1986 г. Джеймс представил так называемые оценки подобия, которые (как и предполагает их название) были призваны выявить статистическое подобие между статистикой карьеры любых двух игроков основной лиги. Концепция была сравнительно простой. Для начала каждому из двух игроков присваивалось по 1000 баллов, а затем при наличии между игроками различий по тому или иному параметру соответствующие баллы вычитались{205}. У игроков с высокой степенью подобия итоговый балл мог составлять 950 или даже 975, однако в других случаях расхождения накапливались достаточно быстро.
Оценки подобия могут оказаться невероятно полезными любому человеку с хорошим знанием истории бейсбола. Вместо того чтобы изучать статистику игрока в вакууме, специалисты могут оценить исторический контекст происходящего. Например, статистические результаты Педройи до достижения им возраста 25 лет были идентичны результатам Рода Кэрью, великого игрока из Панамы, возглавлявшего Minnesota Twins в 1970‑х, или результатам Чарли Герингера, звезде команды Tigers времен Великой депрессии. Оценки подобия Джеймса позволяют проводить ретроспективный анализ, предоставляя возможность оценивать прошлые события. Например, с его помощью можно проанализировать, насколько игрок заслуживает, чтобы его приняли в Зал славы.
Если вы считали, что ваш любимый игрок действительно заслуживает это, и могли увидеть, что это удалось 9 из 10 игрокам с идентичной статистикой, то у вас были все шансы верить в успех.
Но можно ли использовать оценки подобия и для предсказания? Например, если мы могли выявить сотню игроков, наиболее сопоставимых с Педройей по возрастным критериям, то в какой степени результаты этих игроков за всю карьеру могли подсказать нам, как будет развиваться карьера Педройи?
Меня заинтересовала эта идея, и так, понемногу, PECOTA начала свое существование в те долгие дни, которые я проводил в KPMG в 2002 г. Она приобрела форму гигантской и разноцветной электронной таблицы Excel. Этот выбор был довольно случайным, поскольку именно Excel был одним из моих основных рабочих инструментов в KPMG (каждый раз, когда мимо моего стола проходил кто-то из начальников, он предполагал, что я усердно тружусь над какой-то особенно сложной моделью для одного из наших клиентов{206}).
Постепенно, отнимая пару часов от работы и по нескольку часов от сна, я смог разработать базу данных, включавшую более чем 10 000 позиций «игрок – сезон» (я учел каждый сезон основной лиги, начиная со времен Второй мировой войны{207}). Кроме этого, я разработал алгоритм, позволяющий сравнивать любого игрока с другим. Алгоритм был чуть более сложным, чем алгоритм Джеймса, и предполагалось, что он сможет в полной мере воспользоваться изобилием данных, присущих бейсболу. В нем был заложен иной метод сравнения набора игроков, метод, называемый на техническом языке метод ближайшего соседа[44]. Также он учитывал более широкий набор факторов, включая рост и вес игрока, которые обычно принимаются во внимание лишь скаутами.
Как и система Хакебея, PECOTA предполагала, что различные типы игроков могут стареть по-разному. Однако я не стремился сопоставить игру каждого бейсболиста с одной из 26 кривых развития; более того, сопоставление происходило естественным образом с помощью поиска похожих игроков где-то далеко в статистической галактике бейсбола.
Если, допустим, обнаруживалось, что очень многие игроки, статистические параметры игры которых сопоставимы с данными Дастина Педройи, становились сильными игроками основной лиги, то это давало основания надеяться на успех и самого Педройи.
Однако чаще всего мне не удавалось найти однозначно сопоставимые результаты; пути игроков, имевших одинаковую статистику в определенные периоды их карьеры, могли значительно расходиться после этого. Я уже упоминал, что по оценкам подобия, созданным Джеймсом, Педройя был идентичен Чарли Гейгеру и Роду Кэрью, двум игрокам, имевшим долгую и яркую карьеру и попавшим в конце концов в Зал славы. Однако статистика Педройи за этот период была также идентична статистическим данным Хосе Видро, ничем не примечательного игрока второй базы команды Montreal Expos.
Еще сильнее различия могут проявляться у игроков низших лиг[45]. В 2009 г. среди игроков, которые выявила PECOTA для сопоставления с Джейсоном Хейвардом, 19-летним кандидатом на позицию в команде Atlanta Braves, можно было найти и участника Зала славы, и жертву убийства. Чиппер Джонс, один из близких по показателям к Хейварду игроков, был примером первого варианта. Это один из величайших игроков Atlanta Braves за все времена, он отыграл с клубом 17 сезонов, и его показатель результативности за всю карьеру в среднем составил 0,304. Он принес команде более 450 хоумранов. С другой стороны, система выдала мне имя Дернелла Стенсона, многообещающего молодого человека, чьи показатели были также идентичны цифрам Хейварда. В 2003 г. после одной из тренировочных игр в Аризоне неизвестные связали его, а потом застрелили, угнав при этом его внедорожник. Судя по всему, произошел случайный акт насилия.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!