E o vencedor da Copa é…

O Brasil desponta novamente como favorito para o Mundial da Rússia nos principais sites de apostas online: Sporting Bet ~22% e Bet365 ~20%, com nossa arqui-rival Alemanha na sequência. Essas chances são constantemente precificadas no livre mercado de apostadores ao redor do mundo, mas a dúvida permanece… 7×1 déjà vu ou esse ano conseguiremos levar o caneco? Podemos usar inteligência artificial para melhorar a assertividade da nossa “aposta”?

O mercado financeiro está sempre de olho nesse evento esportivo e grandes bancos publicam até relatórios com análises estatísticas e previsões de resultados. Em 2018, o mais comentado foi o relatório do Goldman Sachs, que utilizou técnicas de machine learning para sugerir um campeão. Brasil ficou com 18,5%, seguido de França (11,3%) e Alemanha (10,7%).

Vamos tentar entender um pouco melhor a técnica utilizada. Os pesquisadores usaram técnicas estatística de Random Forest, Naive Bayes (técnica que utiliza o Teorema de Bayes em estatística) e Lasso Regression. Com exceção da última, apresentamos ambas as técnicas em nosso curso de Data Science & Inteligência Artificial e acreditamos que algoritmos como SVM e Redes Neurais podem trazer resultados iguais ou superiores para um mesmo conjunto de dados (se você precisa entender melhor sobre Redes Neurais, veja este post). O próprio banco reconhece que o conjunto de dados é vasto, mas talvez não seja perfeito para predizer um resultado com alto grau de confiabilidade. Eles usam dados de Copas do Mundo, Eliminatórias e Campeonatos Europeus. Essa seleção de dados automaticamente exclui jogadores de outras ligas ou com pouca experiência em jogos da seleção. De qualquer forma, o resultado é um bom norte para o seu bolão desse ano e está em linha com o “livre mercado”.

Outro trabalho em inteligência artificial foi desenvolvido por pesquisadores alemães da Universidade de Dortmunt. Eles também utilizam a técnica de Random Forest e ressaltam os benefícios de utilizar essa técnica com relação à árvores decisórias comuns. Na última técnica, a medida que vamos nos aprofundando na árvore, podemos incorrer no problema de distorção do conjunto de treino, conhecido como overfitting (também discutimos esse problema em nosso curso). Andreas Groll e colegas consideram alguns outros conjuntos de dados além do desempenho dos atletas, como PIB do país, dados demográficos, ranking da FIFA, etc. Curiosamente, um dado que aparece como relevante para eles é o ranking feito pelos grupos de aposta.

Resultado inicial do modelo indica Espanha com 17,8% de chance de vitória da Copa. No entanto, ao levar-se em consideração os grupos e possíveis cenários na fase mata-mata, a grande favorita ao campeonato é a Alemanha (sim, Alemanha). Eles simularam o campeonato 100,000 vezes para encontrar o cenário ideal das oitavas-de-final até a grande partida. Teríamos nossa esperada revanche no último jogo e perderíamos com 64% de chance para o lado alemão 🙁

copa18_mata_mata

O ponta pé inicial da Copa acontece amanhã e estamos na torcida para, independente do que os computadores nos falem, o Brasil reverta a imagem que ficamos da última competição e traga um pouco de orgulho para um país que tanto precisa.