Пифагорейское ожидание - Pythagorean expectation

Пифагорейское ожидание это спортивная аналитика формула, разработанная Билл Джеймс оценить процент игр бейсбол команда "должна" выиграть в зависимости от количества бежит они забили и позволили. Сравнение фактического и пифагорейского процента побед команды может быть использовано для прогнозов и оценки того, какие команды работают лучше или хуже. Название происходит от сходства формулы с теорема Пифагора.[1]

Основная формула:

где Win Ratio - коэффициент выигрыша, полученный по формуле. Ожидаемое количество побед - это ожидаемый коэффициент выигрыша, умноженный на количество сыгранных игр.

Эмпирическое происхождение

Эмпирически эта формула довольно хорошо коррелирует с тем, как на самом деле выступают бейсбольные команды. Однако со времени изобретения этой формулы статистики обнаружили в ней довольно обычную ошибку, обычно около трех игр. Например, 2002 Нью-Йорк Янкиз набрал 897 пробежек и позволил 697 пробежек. Согласно первоначальной формуле Джеймса, янки должны были выиграть 62,35% своих игр.

Исходя из 162 игр в сезоне, «Янки» должны были выиграть 101,01 игру. Янки 2002 года действительно пошли 103–58.[2]

Пытаясь исправить эту ошибку, статистики провели многочисленные поиски идеального показателя степени.

При использовании однозначного показателя степени 1,83 является наиболее точным и используется baseball-reference.com.[3] Таким образом, обновленная формула гласит:

Наиболее широко известна формула Пифагенпорта.[4] разработан Клэй Дэвенпорт из Бейсбольный проспект:

Он пришел к выводу, что показатель степени должен быть рассчитан для данной команды на основании количества забитых пробежек (R), разрешенных пробежек (RA) и игр (G). Не уменьшая показатель степени до единственного числа для команд в любом сезоне, Давенпорт смог сообщить среднеквадратичную ошибку 3,9911, в отличие от среднеквадратичной ошибки 4,126 для показателя степени 2.[4]

Менее известен, но не менее (если не более) эффективен Пифагенпат формула, разработанная Дэвидом Смитом.[5]

Давенпорт выразил свою поддержку этой формулы, сказав:

После дальнейшего обзора я (Клей) пришел к выводу, что так называемый метод Смита / Патриота, он же Пифагенпат, больше подходит. В этом, Икс = ((RS + ра)/грамм)0.285, хотя есть некоторая возможность для разногласий в показателе экспоненты. В любом случае, это уравнение проще, элегантнее и дает лучший ответ в более широком диапазоне забитых запусков, чем Pythagenport, включая обязательное значение 1 при 1 RPG.[6]

Эти формулы необходимы только в экстремальных ситуациях, когда среднее количество забитых ранов за игру либо очень велико, либо очень мало. В большинстве случаев простое возведение каждой переменной в квадрат дает точные результаты.

Существуют некоторые систематические статистические отклонения между фактическим процентом выигрыша и ожидаемым процентом выигрыша, в том числе: КПЗ качество и удача. Кроме того, формула имеет тенденцию к регресс к среднему, поскольку команды, выигравшие много игр, обычно недопредставлены формулой (что означает, что они «должны были» выиграть меньше игр), а команды, проигравшие много игр, как правило, перепредставлены (они «должны» выиграть больше). Ярким примером является Техасские рейнджеры (2016) Texas Rangers ..., которые превзошли свой прогнозный рекорд на 13 игр, установив рекорд 95-67, имея при этом ожидаемый рекорд побед-поражений всего 82-80.

Победы «второго порядка» и «третьего порядка»

В своем отчете о скорректированной позиции[7] Бейсбольный проспект относится к разным «порядкам» побед для команды. Основной порядок выигрышей - это просто количество выигранных игр. Однако, поскольку послужной список команды может не отражать ее истинный талант из-за удачи, были разработаны различные меры таланта команды.

Победы первого порядка, основанные на чистом запустить дифференциал, - количество ожидаемых выигрышей, генерируемых формулой "pythagenport" (см. выше). Кроме того, чтобы еще больше отфильтровать искажения удачи, Саберметристы может также рассчитать командный ожидал забеги забиты и разрешены через пробеги созданы -типовое уравнение (наиболее точное на уровне команды Базовые заезды ). Эти формулы приводят к ожидаемому количеству пробежек команды с учетом их атакующих и защитных характеристик (общее количество одиночных игр, парных ударов, пеших ходов и т. Д.), Что помогает устранить фактор удачи, связанный с порядком, в котором команды наносили удары и проходили в пределах тайма. Используя эту статистику, саберметристы могут подсчитать, сколько пробежек команда «должна» сделать или разрешить.

Подставляя эти ожидаемые набранные и разрешенные пробежки в формулу Пифагора, можно генерировать победы второго порядка, количество побед, которых заслуживает команда, на основе количества пробежек, которые они должны были забить и разрешить, учитывая их составляющие наступательные и защитные характеристики. Выигрыши третьего порядка - это победы второго порядка, которые были скорректированы с учетом силы расписания (качества подачи и ударов противника). Показан процент выигрыша второго и третьего порядка[согласно кому? ] чтобы предсказать будущий фактический процент побед команды лучше, чем фактический процент побед и процент побед первого порядка.[нужна цитата ]

Теоретическое объяснение

Изначально корреляция между формулой и фактическим процентом выигрыша была просто экспериментальным наблюдением. В 2003 году Хайн Хундал дал неточный вывод формулы и показал, что показатель Пифагора составляет примерно 2 / (σπ) куда σ было стандартным отклонением забегов, набранных всеми командами, деленным на среднее количество забитых запусков.[8] В 2006 г. профессор Стивен Дж. Миллер предоставил статистический вывод формулы[9] при некоторых предположениях относительно бейсбольных игр: если заезды каждой команды следуют Распределение Вейбулла а количество забитых и разрешенных за игру пробежек статистически независимый, то формула дает вероятность выигрыша.[9]

Проще говоря, формула Пифагора с показателем степени 2 немедленно следует из двух предположений: что бейсбольные команды выигрывают пропорционально их «качеству», и что их «качество» измеряется отношением их забитых пробежек к их разрешенным пробегам. Например, если команда А забила 50 пробежек и допустила 40, ее показатель качества будет 50/40 или 1,25. Показателем качества для ее (коллективной) команды соперника В в играх против А будет 40/50 (поскольку забеги, забитые А, разрешены забегами В, и наоборот), или 0,8. Если каждая команда выигрывает пропорционально ее качеству, вероятность победы A будет 1,25 / (1,25 + 0,8), что равно 50.2 / (502 + 402), формула Пифагора. То же самое соотношение верно для любого количества набранных и разрешенных запусков, что можно увидеть, записав вероятность «качества» как [50/40] / [50/40 + 40/50], и очистка фракций.

Предположение о том, что одним из показателей качества команды является соотношение количества забитых и разрешенных пробежек, является естественным и правдоподобным; это формула, по которой определяются индивидуальные победы (игры). [Существуют и другие естественные и правдоподобные кандидаты для оценки качества команды, которые, при допущении модели «качества», приводят к соответствующим формулам ожидания процента выигрыша, которые примерно так же точны, как и пифагоровы.] Предположение, что бейсбольные команды выигрывают пропорционально их качество не естественно, но правдоподобно. Это неестественно, потому что степень, в которой спортсмены выигрывают пропорционально их качеству, зависит от роли, которую шанс играет в спорте. Если шанс играет очень большую роль, то даже команда с гораздо более высоким качеством, чем ее противники, будет выигрывать лишь немного чаще, чем проигрывает. Если шанс играет очень небольшую роль, то команда с чуть более высоким качеством, чем ее оппоненты, будет выигрывать гораздо чаще, чем проигрывать. Последнее в большей степени характерно для баскетбола по разным причинам, в том числе из-за того, что набирается гораздо больше очков, чем в бейсболе (давая более качественной команде больше возможностей продемонстрировать это качество и, соответственно, меньше возможностей для случая или удачи, чтобы позволить более низкоуровневой команде). качественная команда для победы.)

В бейсболе есть как раз то количество шансов, которое позволяет командам побеждать примерно пропорционально их качеству, то есть давать примерно пифагоровский результат с показателем два. Более высокий показатель баскетбола около 14 (см. Ниже) объясняется меньшей ролью, которую в баскетболе играет случай. И тот факт, что наиболее точный (постоянный) показатель Пифагора для бейсбола составляет около 1,83, что чуть меньше 2, можно объяснить тем фактом, что в бейсболе (очевидно) немного больше шансов, чем позволяло бы командам выиграть в точной пропорции их качество. Билл Джеймс осознал это давно, когда заметил, что повышение точности его исходной формулы Пифагора с показателем два может быть достигнуто простым добавлением некоторого постоянного числа к числителю и удвоенной константы к знаменателю. Это приближает результат к 0,500, на что влияет немного большая роль случайности, а также то, что при использовании показателя степени 1,83 (или любого положительного показателя степени меньше двух). Можно попробовать различных кандидатов на эту константу, чтобы увидеть, что лучше всего соответствует реальным данным.

Тот факт, что наиболее точным показателем для формул Пифагора для бейсбола является переменная, зависящая от общего количества пробежек за игру, также можно объяснить ролью случайности, поскольку чем больше набранных пробежек, тем меньше вероятность того, что результат будет получен. случайности, а не к более высокому качеству команды-победителя, проявившейся во время возможности подсчета очков. Чем больше показатель степени, тем дальше от процента выигрыша 0,500 является результат соответствующей формулы Пифагора, что является тем же эффектом, что и уменьшение роли случая. Тот факт, что точные формулы для переменных показателей дают более высокие показатели по мере увеличения общего количества пробежек за игру, таким образом, согласуется с пониманием роли, которую играет случай в спорте.

В своей статье о бейсболе 1981 года Джеймс явно разработал другую формулу, названную формулой log5 (которая с тех пор оказалась эмпирически точной), используя понятие, что 2 команды имеют процент личных побед друг против друга пропорционально мера «качества». Его показатель качества составлял половину «соотношения побед» (или «шансов на победу») команды. Коэффициент побед или шансы на победу - это соотношение побед команды над лигой к ее потерям против лиги. [Джеймс в то время, казалось, не знал, что его показатель качества выражается в соотношении побед. Поскольку в модели качества любой постоянный фактор в показателе качества в конечном итоге отменяется, показатель качества сегодня лучше воспринимать как просто само соотношение выигрышей, а не его половину]. Затем он заявил, что формула Пифагора, которую он ранее разработал эмпирически. , для прогнозирования процента выигрышей от запусков, была «тем же самым», что и формула log5, хотя и без убедительной демонстрации или доказательства. Его предполагаемая демонстрация того, что они были одними и теми же, сводилась к тому, чтобы показать, что две разные формулы упрощаются до одного и того же выражения в особом случае, который сам по себе трактуется расплывчато, и нет признания того, что частный случай не является общим. Впоследствии он также не обнародовал какой-либо явной, основанной на качестве модели для формулы Пифагора. По состоянию на 2013 год в саберметрическом сообществе все еще мало осведомленности о том, что простая модель «команды выигрывают пропорционально качеству», использующая соотношение прогонов в качестве меры качества, напрямую ведет к исходной формуле Пифагора Джеймса.

В Резюме 1981 г. Джеймс также говорит, что он сначала попытался создать формулу «log5», просто используя процент побед команд вместо прогонов в формуле Пифагора, но это не дало достоверных результатов. Причина, неизвестная Джеймсу в то время, состоит в том, что его попытка формулировки подразумевает, что относительное качество команд определяется соотношением их процентов побед. Однако это не может быть правдой, если команды выигрывают пропорционально своему качеству, поскольку команда 0,900 побеждает своих оппонентов, чей общий процент побед составляет примерно 0,500, в соотношении 9: 1, а не их соотношении 9: 5. От 900 до 0,500 процентов выигрыша. Эмпирическая неудача его попытки привела к его окончательному, более окольному (и гениальному) и успешному подходу к log5, в котором по-прежнему использовались соображения качества, хотя и без полного понимания предельной простоты модели, ее более общей применимости и истинной структурной характеристики. сходство с его формулой Пифагора.

Использование в баскетболе

Американский спортивный руководитель Дэрил Мори был первым, кто применил пифагорейские ожидания Джеймса к профессиональному баскетболу, будучи исследователем в STATS, Inc.. Он обнаружил, что использование 13,91 для показателей обеспечивает приемлемую модель для прогнозирования процентного соотношения выигранных и проигранных:

«Модифицированная теорема Пифагора» Дэрила была впервые опубликована в Баскетбольное табло STATS, 1993–94.[10]

Известный баскетбольный аналитик Дин Оливер также применил теорию Пифагора Джеймса к профессиональному баскетболу. Результат был похож.

Другой известный баскетбольный статистик, Джон Холлингер, использует аналогичную формулу Пифагора, за исключением того, что показатель степени равен 16,5.

Использование в профессиональном футболе

Формула также использовалась в профессиональный футбол веб-сайтом футбольной статистики и издателем Футбольные аутсайдеры, где он известен как Пифагорова проекция. Формула используется с показателем 2,37 и дает прогнозируемый процент выигрыша. Затем этот процент побед умножается на 16 (для количества игр, сыгранных в сезоне НФЛ), чтобы получить прогнозируемое количество побед. Это прогнозируемое число, заданное уравнением, называется выигрышами Пифагора.

Издание 2011 г. Футбольный альманах аутсайдеров[11] говорится: "С 1988 по 2004 год, 11 из 16 Суперкубки выиграла команда, возглавлявшая НФЛ в пифагорейских победах, тогда как команда с наиболее реальными победами одержала всего семь. Чемпионы Суперкубка, лидировавшие в лиге по пифагорейским победам, но не настоящие, включают 2004 Патриоты, 2000 Вороны, 1999 Бараны и 1997 Бронкос."

Несмотря на то что Футбольный альманах аутсайдеров признает, что эта формула была менее успешной при отборе участников Суперкубка в 2005–2008 годах, она вновь подтвердила себя в 2009 и 2010 годах. Кроме того, «[t] пифагорейский прогноз также по-прежнему является ценным предсказателем ежегодных улучшений. Команды, выигравшие минимум на одну полную игру больше, чем их прогноз Пифагора, имеют тенденцию к регрессу в следующем году; команды, выигравшие минимум на одну полную игру меньше, чем их прогноз Пифагора, как правило, улучшают в следующем году, особенно если они были на уровне или выше. 500, несмотря на их неуспеваемость. Например, 2008 Новый Орлеан Сэйнтс пошел 8–8, несмотря на 9,5 пифагорейских побед, намекая на улучшение, которое произошло с в следующем году сезон чемпионата."

Использование в хоккее

В 2013 году статистик Кевин Дайаратна и математик Стивен Дж. Миллер представили теоретическое обоснование применения пифагорейского ожидания к хоккею с шайбой. В частности, они обнаружили, что, делая те же предположения, которые Миллер сделал в своем исследовании бейсбола в 2007 году, в частности, что забитые и голые голы позволяют отслеживать статистически независимый Распределения Вейбулла, что ожидание Пифагора работает так же хорошо для хоккея с шайбой, как и для бейсбола. Исследование Дайаратны и Миллера подтвердило статистическую правомерность этих предположений и по оценкам показатель Пифагора для хоккея с шайбой должен быть немного выше 2.[12]

Смотрите также

Примечания

  1. ^ «Гейм-дизайнер: объяснения Пифагора». Получено 7 мая 2016.
  2. ^ "Нью-Йорк Янкиз 2002". Baseball-Reference.com. Получено 7 мая 2016.
  3. ^ "Часто задаваемые вопросы". Baseball-Reference.com. Получено 7 мая 2016.
  4. ^ а б «Бейсбольный проспект - возвращение к теореме Пифагора». Бейсбольный проспект. Получено 7 мая 2016.
  5. ^ "Оценщики W%". Получено 7 мая 2016.
  6. ^ «Бейсбольный проспект - Глоссарий». Получено 7 мая 2016.
  7. ^ «Бейсбольный проспект - скорректированная таблица». Получено 7 мая 2016.
  8. ^ Хундал, Хайн. «Вывод формулы Пифагора Джеймса (Длинный)».
  9. ^ а б Миллер (2007). "Вывод формулы Пифагора выигрыша в бейсболе". Шанс. 20: 40–48. arXiv:математика / 0509698. Bibcode:2005математика ...... 9698M. Дои:10.1080/09332480.2007.10722831.
  10. ^ Деван, Джон; Зминда, Дон; STATS, Inc. Персонал (октябрь 1993 г.). Баскетбольное табло STATS, 1993-94 гг.. STATS, Inc. п. 17. ISBN  0-06-273035-5.
  11. ^ Футбольный альманах аутсайдеров 2011 (ISBN  978-1-4662-4613-3), стр. xviii
  12. ^ Дайаратна, Кевин; Миллер, Стивен Дж. (2013). «Формула Пифагора о победах и поражениях и хоккей: статистическое обоснование использования классической формулы бейсбола в качестве инструмента оценки в хоккее» (PDF). Журнал исследований хоккея 2012/13. XVI: 193–209.

внешняя ссылка