Conclusão
Esta dissertação teve como objetivo o estudo empírico de uma abordagem Data Mining na
previsão de resultados de jogos de futebol. CRISP-DM foi a metodologia de Data Mining seguida.
No geral, foram feitas duas iterações de todas as fases desta metodologia, embora por vezes fosse
necessário voltar à etapa anterior para correção de pequenos erros. O entendimento do problema
de previsão dos resultados foi feito com recurso à bibliografia estudada e descrita na revisão da
literatura.
Na primeira iteração foram recebidos os dados dos jogos da liga portuguesa fornecidos pelo
Laboratório SAPO/ U.Porto. Uma vez recebidos os dados, foi necessário compreender o seu conteúdo
e perceber a sua qualidade. Devido à análise feita com recurso a gráficos, foram detetados
dados duplicados, inconsistentes, sem informação, etc. Seguiu-se a limpeza dos dados e construção
de novas variáveis que fossem úteis de acordo com o problema. Depois da seleção de atributos
com recurso a técnicas de correlação, foram construídos 4 conjuntos de dados que foram aplicados
na fase de modelação. Os quatro conjuntos de dados tinham níveis de correlação diferentes.
Na fase de modelação foram criados modelos tendo por base 8 algoritmos e os quatro conjuntos
de dados criados anteriormente. Foram avaliados o desempenho dos modelos através da taxa de
acerto de cada um deles. Também foram estudadas algumas possíveis falhas nos modelos para que
fossem compensadas nas iterações seguintes.
Na segunda iteração, o Laboratório SAPO/ U.Porto forneceu novos dados com mais informação
sobre os jogos. Foram construídas novas variáveis e novos conjunto de dados para a fase da
modelação. Com base nos resultados da iteração anterior foram escolhidos 2 algoritmos para a criação
de novos modelos. Os resultados dos modelos da primeira e segunda iteração são muito idênticos,
o que significa que não houve evolução de desempenho. Perante esta estagnação, decidiu-se
alargar o conjunto de dados de treino. Sendo assim, o conjunto de dados de treino passou a conter
jogos de 4 épocas, quando anteriormente continha jogos de uma época. Com esta alteração o
desempenho dos modelos melhorou. O modelo com melhor desempenho alcançou uma taxa de
acerto de 58%. Uma vez escolhido o modelo final, foi testada a capacidade de generalização do
modelo com a previsão de jogos que ainda não tinham sido testados. O modelo obteve uma taxa
de acerto de 45% com os novos dados. Verificou-se uma descida no desempenho do modelo, o
que pode significar que o modelo está demasiado ajustado aos dados de treino. Com o desenvolvimento
de um modelo final pode afirmar-se que os objetivos desta dissertação foram alcançados
e cumpridos.
Trabalho Futuro
Após a realização da dissertação e análise dos resultados é possível a evolução do mesmo com
vista à melhoria do desempenho dos modelos.
Esta dissertação abordou o problema de previsão do resultado de um jogo como sendo uma
de três hipóteses, vitória da equipa da casa, empate ou derrota. Das três hipóteses, a vitória da
equipa da casa é o acontecimento que acontece com mais frequência. Uma abordagem futura seria
encarar o problema de classificação como tendo um atributo alvo de duas classes, vitória ou não
vitória da equipa da casa. A não vitória seria a previsão de empate ou derrota. Um modelo que
classifique duas classes tem tendência a ter uma taxa de acerto maior do que um que classifique
três classes.
Uma outra abordagem futura poderá ser a inclusão de novos atributos com características particulares
no conjunto de dados utilizado. Essas características podem ser de vários tipos. Características
físicas como por exemplo fadiga, jogadores lesionados, resistência, esforço, etc. Características
psicológicas como por exemplo mudança de treinador, jogadores insatisfeitos, concentração,
reação às adversidades, etc. Características do foro técnico-tático como táticas utilizadas, modelo
de jogo, pontos fortes e fracos, jogadores influentes, etc. Muitas destas características são subjetivas
o que torna difícil a sua caracterização, no entanto, serão mais-valias na construção de novos
modelos para a previsão de resultados.
Os modelos desenvolvidos tiveram melhor desempenho nos jogos da segunda volta do campeonato
do que nos jogos da primeira volta. Uma abordagem futura seria implementar um modelo
que fizesse a previsão do resultado somente nos jogos da segunda volta, tendo como dados de
treino os jogos da primeira volta.