Интеллектуальный фотофиниш

Котелок

Развлекательный сайт с длинными текстами

Данные и аналитика
Интеллетуальные игры
ЧГК

Обзор популярных задач на собеседованиях

Во многих соревнованиях тема дополнительных показателей является достаточно острой, иногда даже холиварной. По-другому быть не может, ведь они выходят на сцену в самый драматичный момент, когда определяются судьбы кубков, медалей, а порой и карьер.

Есть, например, мнение, что если бы Саутгейт-игрок забил тот пенальти в 1996, то, возможно, стиль сборной Англии при Саутгейте-тренере был более смелым.

Конечно, основная тема для споров - это мера случайности различных доппоказателей, сама по себе или в сравнении с "настоящей игрой". В каждом виде соревнований эти показатели и споры об их случайности свои, тут сложно придумать какой-то универсальный ответ.

Я довольно много играю в спортивное "Что? Где? Когда?", поэтому хочу сделать заход в этой области. Благо, данных много, они неплохо оцифрованы. Да и само соревнование по механике достаточно простое.

Собираются команды, им задают вопросы, они на них дают ответы. За каждый правильный ответ команды получают +1, за неправильный - не получают ничего. Итоговая сумма и есть результат соревнования.
Команд один и тот же турнир может играть много (тысячи), так что одинаковые результаты появляются часто. Есть устоявшиеся практики того, что делать в этих случаях.

Самое простое - это не делать ничего. Сыграли одинаково - ну и молодцы. Универсальный рецепт для многих и многих соревнований.
Конечно, есть Её Величество Перестрелка. Просто сыграть ещё, но меньше и уставшими. Аналог серии пенальти в футболе или армагеддона в шахматах, возможно, даже ближе к тай-бреку в теннисе. К сожалению, организационно это можно сделать не всегда.

Есть доппоказатель, который зависит от сложности вопросов. Его очень неудачно назвали вопросным рейтингом. Суть простая: чем более сложные вопросы берёт команда, тем лучше.

Есть метод, при котором турнир разбивается на серию мини-турниров, а потом складывается результат этих мини-турниров. С учётом того, что разные туры часто делают редакторы, которые придерживаются разного стиля, это может быть важной штукой.

Есть ещё всякие микроматчи и наноматчи, но они решают немного другую задачу (что делать, если команды играют разное множество вопросов).

А вот рейтинг силы команды как доппоказатель практически не используют. Возможно, потому что есть две позиции: присуждать более высокое место команде, у которой рейтинг а) выше (будет более спортивно) и б) ниже (раз она доганала более сильную по посеву, то она молодец). И чем спорить, проще использовать другой показатель.

Дальше попробую разобраться на данных, какой критерий лучше с точки зрения предсказательной силы.

Формулировка задачи
Мы хотим понять, можно ли использовать те или иные доп показатели, т.е. измеряем их предсказательную силу, если она высокая, то показатель хороший. Если он предсказывает с точностью подброшенной монетки, то плохой.

Предсказываем мы по факту игровую силу команд здесь и сейчас. А точнее, их силу в ближайшем будущем, на том же турнире, в тех же составах.

Дополнительные показатели нужны для того, чтобы распределять кубки, медали и выводящие месте. В остальном случае ничего плохого нет в том, чтобы разделить места.

Примем за аксиому, что лучший дополнительный показатель - это ещё поиграть, то есть перестрелка. Я знаю, что есть иная точка зрения. Но она не так популярная, а наличие перестрелки в регламенте вызывает наименьшее количество возмущений. Поэтому рассматривать будем случаи, когда перестрелку проводить не получится.

Использовав уточнения выше, можно свести задачу к достаточно конкретной. Нам нужно научиться с помощью доппоказателей предсказывать результат "виртуальной перестрелки". Для этого мы из каждого турнира "отщипнём" небольшой набор вопросов (допустим, 8 штук), считаем доппоказатели по основной части и пытаемся предсказать результат команды на "дополнительной". Это максимально приближенная к жизни симуляция перестрелки, которую можно придумать.

Разумеется, получившийся результат надо сравнить

со случайной тасовкой команд, выше результатов которой нужно быть всегда
с прогнозом по стартовому рейтингу, это, наоборот, будет "оценка сверху", точность, которую не так просто получить
с прогнозом "по взятым вопросам", т.к. нам критичны именно случаи, когда этого показателя недостаточно

Критерий точности
Как будем измерять точность? Нам нужно "надеть" набор команд на набор итоговых мест от первого до последнего. Это называется задачей ранжирования. Умные люди считают, что лучше всего для этого подходит метрика под названием NDCG (Normalized Discounted Cumulative Gain). Решения будем по ней принимать, но за компанию бахнем и старую добрую точность (т.е. долю команд, которые заняли ровно то место, что им предсказали).

Измерять результат мы будем отдельно для трёх сегментов команд:

лучших 10%,
следующих 40%
и худших 50% по стартовому рейтингу команд Есть все основания считать, что эти сегменты будут вести себя по-разному. Исходя из наших целей, в качестве результата будем брать только "верхний" сегмент, остальные просто посмотрим.

Таким образом мы для каждого турнира получим число, которое показывает, как хорошо на нём мы можем предсказать "виртуальную перестрелку". Дальше мы усредним это результат по всем турнирам за какое-то долгое время, взвесив турниры по числу команд.

Полученные числа будут что-то говорить уже не о турнирах или командах, а о самих методах.

Тестируем методику на одном турнире
Давайте для начала на посмотрим на масштабе турнира, как эти метрики выглядят, как они меняются по мере прохождения дистанции.
В качестве примера возьмём один массовый синхронный турнир (ОЧР-1) на привычные 36 вопросов и один довольно большой очник с дистанцией подлиннее (Гостиный двор, Калуга). Не забываем про то, что лучшие, средние и худшие команды будем смотреть отдельно.

На двух турнирах в каждом сегменте все наши предсказания лучше случайной выборки. Уже победа.
С увеличением дистанции точность "игровых" дополнительных показателей растёт, это логично. Иногда происходят провалы, это тоже нормально, игра есть игра.
Прогноз "по взятым" оказывается самым точным. Хм, число взятых вопросов в прошлом лучше всего предсказывает число взятых вопросов в будущем? Конечно, мы это ожидали.
А вот факт того, что прогноз "по рейтингу вопросов" и "по сумме мест в турах" окажется не просто хорошим, а лучше прогноза по стартовому рейтингу - это приятные новости.

А теперь неприятный факт. Везде ситуация хорошая и устойчивая. И только в сегменте лучших 10% результаты достаточно волатильны. Маленькие выборки? С одной стороны, да, 7 и 30 команд - не густо. С другой стороны, именно этим командам вопросы перестрелки актуальнее всего.
Но это же просто два турнира. Может, удачные, может, нет. Выводы нужно делать по более широкой выборке.

Замер на широкой выборке
Давайте теперь посмотрим, как наши дополнительные показатели ведут себя на дистанции с 2022 года (3 полных сезона + текущий).
Это 1624 турнира. Не самый большой массив данных на нашей планете, но нам хватит.

Итак, как же наши прогнозы ведут себя в разбивке по сегменту стартовой крутости?

Закономерности остались прежние. Прогнозы "виртуальной перестрелки" по рейтингу взятых вопросов и сумме мест в турах

значимо лучше случайной тасовки
значимо лучше прогноза по стартовому рейтингу
уступают по точности прогнозу "по числу взятых"
показывают максимально волатильные результаты в сегменте 10% самых сильных команд

Между собой прогнозы очень похожи. Для сегмента 10% лучших команд чуть лучше прогноз "по рейтингу взятых", для остальных - по сумме мест в турах.

Мы уже получили ответ на вопрос, который нас волновал. Дополнительные показатели можно и нужно использовать для распределения медалей и выводящих мест тогда, когда перестрелка невозможна. Они точно лучше для предсказания результата "здесь и сейчас" не только бросания монетки, но и других известных нам способов.

Если нет иных аргументов, то для заявленных задач рейтинг сложности вопросов чуть-чуть лучше, чем сумма мест в турах.

Но, конечно, хочется, посмотреть эти данные в каких-то крупных разрезах.

Исследования по значимым разрезам
Давайте посмотрим, что там у нас по разным сегментам.Логика графиков будет та же. По вертикали будет точность, каждая метрика своим цветом. По горизонтали - те или иные сегменты.

На нерейтинговых турнирах точность тоже выше? У меня нет идей почему.
На больших турнирах точность повыше, чем на других. Это нормально, закон больших чисел. Интересно, почему предсказательная сила стартового рейтинга хуже на турнирах среднего размера?
Прогноз на простых пакетах (trueDL < 3.2) оказался точнее, а рейтинговые сюрпризы, наоборот, чаще.
По сезонам результат тоже устойчив, это хорошо.
А вот с удлинением дистанции точность растёт не так быстро, как хотелось бы. Обидно. Факторы усталости шумят?

Распределение точности конкретных моделей (с сохранение цветов) в виде ящика с усами:

Выводы
Что мы можем сказать в итоге?

Турниры разные, результаты на каждом конкретном могут быть непредсказуемыми, но на дистанции прогнозная сила нашего фотофиниша высокая и устойчивая
Для распределения кубков, медалей и выводящих мест в верхней части турнирной таблицы лучше всего использовать рейтинг сложности вопросов, но и сумма результатов туров тоже приемлема
Конечно, в ситуации конкретного турнира и двух команд, которые пришли к финишу с одинаковым результатом, может произойти что угодно. Доказать проигравшей команде, что какое-то число в табличке имеет вес, сложно. Но не это ли повод сыграть следующий турнир?

Ссылки
Исходный код, который позволит вам собрать данные с API турнирного сайта. Для получения доступа к API никакой ключ не нужен, просто запускаешь и оно работает.
Исходный код всего исследования в виде Jupyter Notebook. Вы можете менять параметры в первой ячейке, перезапускать всю тетрадку и смотреть, как меняются результаты.

Читать комментарии