top of page

Usando o xG para projetar campeonatos


Antes de tudo devo deixar bem claro que no futebol não existem previsões, existem projeções. É impossível prever resultados e a enciclopédia do futebol possui inúmeros exemplos disso. Leicester no futebol inglês na última temporada, Once Caldas e Porto na Libertadores e Champions League de 2004, Portugal na última Euro, Santo André e Paulista nas Copas do Brasil de 2004 e 2005, até o inesquecível 7x1 era quase impossível de se prever. Chris Anderson em seu ótimo livro Os Números do Jogo diz que "o resultado de um jogo de futebol é 50% habilidade e 50% sorte". A questão é que, no sistema dos pontos corridos atual, um time joga 38 vezes no campeonato. É difícil que um time tenha sorte 38 vezes seguidas. Além disso, a sorte não é controlável. A habilidade é. Se uma equipe quiser alcançar as primeiras posições da tabela final, é improvável que uma diretoria peça a ajuda para trevos de quatro folhas. A habilidade do time é o único foco de desenvolvimento de sua comissão técnica. A lógica é simples, times mais fortes tendem a ganhar mais jogos. Imprevistos e zebras ocorrem é claro, mas espera-se que a taça de um campeonato longo fique com a melhor equipe, a que consiga manter um alto nível por mais tempo.

E o que isso tem a ver com o valor esperado de gols xG? Bom, o xG é a nossa medida de habilidade de uma equipe. Ou melhor, a habilidade de criar situações de gol. Juntando isso com o xGC - valor esperado de gols contra - temos os dois principais fatores que determinam o resultado de um jogo: a capacidade de uma equipe de fazer gols e de evitar tomar gols.

As probabilidades de resultados de uma partida provém não apenas do xG, mas de uma outra variável que integra o xG, o xGC, gols e finalizações. Chamo ela, não à toa, de Projeção de Gol (PdG). O conceito é simples de entender. Temos os resultados de cada jogo passado, além dos valores de xG, xGC, quantidade de gols e finalizações prós e contras de cada equipe antes de entrar em campo. Comparando estes números com os reais resultados das partidas, a PdG calcula quantos gols uma equipe com um certo valor de xG, gols pró e finalizações feitas deve marcar contra outra equipe com um certo valor de xGC, gols contra e finalizações concedidas.

Mas como transformar a PdG para probabilidades de vitória, empate e derrota? A PdG é um valor que estima quantos gols uma equipe irá marcar na partida. Suponha que o modelo indique que o Time A irá marcar 1.9 gols contra 1.1 gols do Time B. Acontece que os gols no futebol podem ser aproximados pela distribuição de Poisson. A distribuição de Poisson recebe como parâmetro um coeficiente (média) λ e o seu resultado são as probabilidades de uma variável aleatória qualquer ser igual a um valor específico k. Observe na imagem abaixo:

O eixo vertical denota a probabilidade da variável aleatória X ser igual a um número k, no gráfico representado pelo eixo horizontal. Observe que para um λ = 1, a probabilidade de X ser igual a 0 ou 1 são altíssimas se comparadas com as probabilidades de X ser igual a números maiores que 1. No entanto, para λ = 10, a probabilidade que X seja igual a 0 é muito baixa se comparado com a probabilidade de X ser igual a 9 por exemplo. No nosso caso, usaremos o valor de PdG de cada time como a média da distribuição de Poisson para tirarmos as probabilidades do time marcar 0, 1, 2... gols. Portanto, quanto maior a PdG, maior a probabilidade do time marcar um número maior de gols.

Agora que temos as probabilidades de cada possível resultado de uma partida, podemos simular o restante do campeonato. Através de simulações de Monte Carlo com números aleatórios, simulamos o as partidas restantes um número alto de vezes (limitado claro pelo poder computacional do computador). O motivo de simular um grande número de vezes é simples. Visto que a simulação usa números aleatórios, cada campeonato simulado é diferente do outro. Uma única simulação é resultado da aleatoriedade. Ao simular, digamos, 10.000 campeonatos, os efeitos dos eventos aleatórios se dissipam em meio ao grande número de eventos frequentes (como o melhor time ser campeão ou o pior time ser rebaixado).

Acima é o resultado da projeção após os jogos da 26ª rodada. No diagrama de caixas, o traço preto no meio representa a mediana de todas as simulações. Na caixa, à direita da mediana estão os primeiros 25% dos valores maiores que a mediana e à esquerda, os primeiros 25% dos valores menores que a mediana. Da mesma forma é possível observar em quantas simulações um certo time foi campeão:

O modelo prevê uma disputa muito acirrada entre Palmeiras e Flamengo. Enquanto na parte de baixo da tabela temos dois times praticamente rebaixados e praticamente uma disputa entre 4 times para as duas "vagas" restantes na segundona.

Isto tudo é resultado de um longo processo de estudo. Há muito o que melhorar, principalmente na parte de interpretação dos dados, visto que trabalho com dados coletados manualmente. Infelizmente, não existem dados sobre as finalizações disponíveis gratuitamente no Brasil, tão pouco existem uma grande quantidade de empresas que poderiam fornecer estes dados. Contudo, considerando o que tenho em mãos, o desenvolvimento deste trabalho têm sido divertido. Se você tem alguma sugestão de como melhorar o algoritmo ou tiver alguma duvida, entre em contato! Estou sempre aberto a novas sugestões.

Sobre

Inspirados em livros como Soccermatics de David Sumpter e Moneyball de Michael Lewis, decidimos utilizar conhecimentos em data science para traduzir em números o maior espetáculo que temos em solo brasileiro.​

  • Facebook - White Circle
  • Twitter - White Circle
bottom of page