что такое отклонение по глико в шахматах
Глико
Система Глико применяется в настоящий момент на свободном интернетовском шахматном сервере (FICS), а вариации системы Глико были приспособлены для нескольких коммерческих интернетовских игровых организаций, таких как ChronX, Case’s Ladder и других.
Вы можете соглашаться со мной или нет, но, по моему мнению, самым большим очарованием для игроков шахматных турниров или соперников в других видах спорта является измерение их игровой силы. Система ранжирования Эло, разработанная в начале 60-х Арпадом Эло, была первой шахматной системой ранжирования, которая несла в себе вероятностную основу. Позже она была принята многими шахматными федерациями и даже организациями, отвечающими за такие игры, как Scrabble, настольный теннис и т.д. Хоть система Эло и является значительным шагом вперед по отношению к более ранним системам, у нее тоже есть свои проблемы. В 1995 году, в ответ на имеющиеся там недостатки, я создал систему ранжирования Глико. Система моя получена путем рассмотрения статистической модели исходов шахматных игр, и принятия затем математических приближений, позволяющих простейшие вычисления. Система Эло является одним из специальных случаев моей системы.
Проблема системы Эло, которую исправляет система Глико, это достоверность рейтинга игрока. Предположим, что два игрока, оба с коэффициентом Эло в 1700, встречаются на турнире, и первый побеждает второго. По версии Американской Шахматной Федерации системы Эло первый игрок получит в этом случае 16 рейтинговых очков, а второй игрок потеряет те же 16 очков. Но предположим, что первый игрок только что вернулся к играм на турнирах после многих лет «отдыха», а второй игрок режется в шахматы каждый выходной. В этой ситуации рейтинг первого игрока в 1700 очков является не совсем достоверным отражением его силы, в то время как рейтинг второго игрока в 1700 является вполне реальным отображением его игрового мастерства. Моя интуиция подсказывает мне, что (1) рейтинг первого игрока должен увеличиться намного (больше 16-ти), поскольку его рейтинг не совсем реален, и то, что он побил игрока с практически точным рейтингом в 1700 очевидно наводит на мысль, что его сила заведомо превышает 1700, и (2) рейтинг второго игрока должен немного уменьшиться (менее 16-ти очков), поскольку про его рейтинг и так уже известно, что а) он находится в районе 1700, и б) он проиграл игроку, чей рейтинг не заслуживает доверия, и потому о его собственной игровой силе могут быть сделаны лишь небольшие догадки.
Хоть большинство ситуаций не столь экстремальны, мне кажется, что в систему ранжирования полезно включить меру достоверности чьего-либо рейтинга. Потому-то система Глико и превосходит систему Эло, что вычисляет не только рейтинг R, который может быть представлен, как «наилучшая догадка» о чьей-либо игровой силе, но и «рейтинговое отклонение» (RD) (в статистической терминологии, стандартное отклонение), которое измеряет неопределенность рейтинга. Высокие RD отвечают ненадежным рейтингам, указывая, что игрок выступает не часто или что игрок участвовал лишь в небольшом количестве игр. Низкий RD указывает на то, что игрок постоянно принимает участие в турнирах.
В системе Глико игровой рейтинг изменяется только по прошествии игр, но его RD изменяется и после окончания игры, и по прошествии времени, в течение которого игрок не принимал участия в турнирах. Одним из свойств Системы является то, что сыгранные матчи всегда уменьшают RD игрока, а время, проведенное вне турниров, всегда его увеличивает. Смысл этого заключается в том, что чем больше сыграно игр, тем больше информации о способностях игрока получено, и тем точнее становится рейтинг. Время идет, и мы начинаем сомневаться в силе игрока, и это находит свое отражение в возрастании RD.
Обратите внимание, что в системе Глико изменения в рейтинге не столь сбалансированы, как это есть в системе Эло. Если рейтинг одного игрока возрос на x очков, то совсем необязательно, что рейтинг его соперника уменьшится на те же x очков. Фактически в системе Глико количество очков, на которое уменьшится рейтинг соперника, регулируется значениями RD обоих игроков.
Поскольку игрок в системе Глико имеет и рейтинг, и RD, то обычно более информативно описать силу игрока в виде интервала (нежели просто указать его значение). Одним из путей является создание 95% доверительного интервала. Наименьшим значением интервала является рейтинг игрока минус двойной RD, а наивысшим значением является рейтинг игрока плюс двойной RD. Так, например, если чей-либо рейтинг равен 1850 и RD равно 50, то интервал будет простираться между 1750 и 1950. Мы можем сказать тогда, что мы на 95% уверены, что реальная сила игрока лежит находится между 1750 и 1950. Если у игрока низкий RD, то интервал будет уже, и мы будем на 95% уверены в реальной силе игрока в меньшем интервале значений.
Формулы:
Чтобы применить рейтинговый алгоритм, будем считать, что игры внутри «рейтингового периода» происходят одновременно. Период этот может быть и несколько месяцев, и одна минута. В первом случае берутся рейтинги и RD игроков на начало рейтингового периода, затем рассмотриваются исходы встреч, и в конце периода вычисляются обновленные рейтинги и RD (которые потом в свою очередь будут использованы как начальные рейтинги и RD для последующего рейтингового периода). Когда период равен минуте, рейтинги и RD будут обновляются на поматчевой основе (именно этой системой пользуется FICS). Система Глико работает наилучшим образом, когда число игр в рейтинговом периоде невелико, скажем в среднем 5-10 на одного игрока за период. Длина времени рейтингового периода есть воля администратора.
Шаг 1. Определим рейтинг и RD для каждого игрока в начале рейтингового периода.
(а) Игрок еще не включенный в рейтинги получает 1500 очков рейтинга и RD, равный 350.
(б) В противном случае, используя наипоследнейший рейтинг, и вычислив новый RD из старого RD (RDold) по формуле:
Шаг 2. Для обновления рейтинга каждого игрока по отдельности выполняются следующие вычисления:
Пусть r’ и RD’ означают рейтинги и рейтинговые отклонения на момент окончания рейтингового периода. Тогда формулы обновления рейтинга и рейтинговых отклонений примут следующий вид:
Эти вычисления следует выполнить для каждого игрока, попавшего в рейтинговый период.
Пример:
Для демонстрации Шага 2 предположим, что игрок с рейтингом в 1500 сыграл матчи против 1400, 1550 и 1700, выиграв первую встречу и проиграв две оставшиеся. Предположим, что отклонение рейтинга этого игрока равно 200, а у его оппонентов 30, 100, и 300 соответственно.
Рейтинговая система Glicko
RD измеряет точность рейтинга игрока, при этом один RD равен одному стандартному отклонению. Например, игрок с рейтингом 1500 и RD 50 имеет реальную силу от 1400 до 1600 (два стандартных отклонения от 1500) с достоверностью 95%. Дважды (точно: 1,96) RD добавляется и вычитается из их рейтинга, чтобы вычислить этот диапазон. После игры величина изменения рейтинга зависит от RD: изменение меньше, когда RD игрока низкое (так как его рейтинг уже считается точным), а также когда RD его оппонента высок (поскольку истинный рейтинг противника не равен хорошо известно, поэтому информации собирается мало). Само значение RD уменьшается после игры, но со временем бездействия оно будет медленно увеличиваться.
Шаг 1. Определите RD
Шаг 2: Определите новый рейтинг
Новые рейтинги после серии m игр определяются по следующему уравнению:
грамм ( р D я ) знак равно 1 1 + 3 q 2 ( р D я 2 ) π 2 <\ displaystyle g (RD_ ) = <\ frac <1> <\ sqrt <1 + <\ frac <3q ^ <2>(RD_ ^ <2>)> <\ pi ^ <2>>>>>>>
Шаг 3. Определение нового отклонения рейтингов
Функция предыдущего расчета RD заключалась в том, чтобы соответствующим образом увеличить RD, чтобы учесть возрастающую неопределенность в уровне навыков игрока в период отсутствия наблюдения со стороны модели. Теперь RD обновляется (уменьшается) после серии игр:
Рейтинговая система Glicko
RD измеряет точность рейтинга игрока, при этом один RD равен одному стандартному отклонению. Например, игрок с рейтингом 1500 и RD 50 имеет реальную силу от 1400 до 1600 (два стандартных отклонения от 1500) с достоверностью 95%. Дважды (точно: 1,96) RD добавляется и вычитается из их рейтинга, чтобы вычислить этот диапазон. После игры величина изменения рейтинга зависит от RD: изменение меньше, когда RD игрока низкое (так как его рейтинг уже считается точным), а также когда RD его оппонента высок (поскольку истинный рейтинг противника не равен хорошо известно, поэтому информации собирается мало). Само значение RD уменьшается после игры, но со временем бездействия оно будет медленно увеличиваться.
Шаг 1. Определите RD
Шаг 2: Определите новый рейтинг
Новые рейтинги после серии m игр определяются по следующему уравнению:
грамм ( р D я ) знак равно 1 1 + 3 q 2 ( р D я 2 ) π 2 <\ displaystyle g (RD_ ) = <\ frac <1> <\ sqrt <1 + <\ frac <3q ^ <2>(RD_ ^ <2>)> <\ pi ^ <2>>>>>>>
Шаг 3. Определение нового отклонения рейтингов
Функция предыдущего расчета RD заключалась в том, чтобы соответствующим образом увеличить RD, чтобы учесть возрастающую неопределенность в уровне навыков игрока в период отсутствия наблюдения со стороны модели. Теперь RD обновляется (уменьшается) после серии игр:
Система рейтинга Glicko: простой пример использования Clojure
Пару недель назад я писал о системе рейтингов Elo и, узнав о ней больше, я узнал, что одна из ее слабых сторон заключается в том, что она не учитывает надежность рейтинга игроков.
Например, игрок, возможно, не играл в течение длительного времени. Когда они в следующий раз играют матч, мы не должны предполагать, что точность этого рейтинга такая же, как и у другого игрока с таким же рейтингом, но который играет регулярно.
Марк Гликман написал систему рейтинга Glicko, чтобы учесть неопределенность, введя «отклонение рейтингов» (RD). Низкий RD указывает, что игрок часто участвует в соревнованиях, а более высокий RD указывает, что они этого не делают
Еще одно различие между Глико и Эло заключается в следующем:
Интересно отметить, что в системе Glicko изменения рейтинга не сбалансированы, как это обычно бывает в системе Elo.
Если рейтинг одного игрока увеличивается на x, рейтинг противника обычно не уменьшается на x, как в системе Эло.
Фактически, в системе Glicko величина, на которую уменьшается рейтинг противника, определяется RD обоих игроков.
Значение RD фактически указывает нам диапазон, в котором, вероятно, существует фактический рейтинг игрока. то есть 95% доверительный интервал.
Например, если игрок имеет рейтинг 1850 и RD 50, то интервал 1750 — 1950 или (Рейтинг — 2 * RD) — (Рейтинг + 2 * RD)
Алгоритм имеет 2 шага:
В документе приведен пример для подражания, и включены промежуточные этапы, которые упростили построение алгоритма по одной функции за раз.
Мы можем использовать следующую таблицу, чтобы проверить, что мы получаем правильные результаты, когда мы ее называем:
И рейтинговые системы Glicko, и Glicko-2 являются общественным достоянием и реализованы на игровые серверы онлайн (нравится Покемон Showdown, Личинка, Бесплатный шахматный сервер в Интернете, Chess.com, Онлайн-сервер Go (OGS), [1] Counter Strike: глобальное наступление, Team Fortress 2, Dota Underlords, Guild Wars 2, [2] Splatoon 2, и Dominion Online), соревнования по программированию. Формулы, используемые для систем, можно найти на веб-сайте Glicko.
RD измеряет точность рейтинга игрока, при этом один RD равен одному стандартному отклонению. Например, игрок с рейтингом 1500 и RD 50 имеет реальную силу от 1400 до 1600 (два стандартных отклонения от 1500) с достоверностью 95%. Дважды RD добавляется и вычитается из их рейтинга для расчета этого диапазона. После игры величина изменения рейтинга зависит от RD: изменение меньше, когда RD игрока низкое (поскольку его рейтинг уже считается точным), а также когда RD его оппонента высок (поскольку истинный рейтинг противника не равен хорошо известно, поэтому информации собирается мало). Само значение RD уменьшается после игры, но оно будет медленно увеличиваться со временем бездействия.
Система рейтингов Glicko-2 улучшает рейтинговую систему Glicko и дополнительно вводит волатильность рейтинга σ. [3] Слегка модифицированная версия рейтинговой системы Glicko-2 реализована Австралийская шахматная федерация. [4]
Содержание
Алгоритм
Шаг 1. Определите RD
Шаг 2: Определите новый рейтинг
Новые рейтинги после серии m игр определяются по следующему уравнению:
грамм ( р D я ) = 1 1 + 3 q 2 ( р D я 2 ) π 2
Шаг 3. Определите новое отклонение рейтингов
Функция предыдущего расчета RD заключалась в том, чтобы соответствующим образом увеличить RD, чтобы учесть возрастающую неопределенность в уровне навыков игрока в период отсутствия наблюдения со стороны модели. Теперь РД обновляется (уменьшается) после серии игр: