CONCLUSÃO

Esta dissertação teve como objetivo o estudo empírico de uma abordagem Data Mining na

previsão de resultados de jogos de futebol. CRISP-DM foi a metodologia de Data Mining seguida.

No geral, foram feitas duas iterações de todas as fases desta metodologia, embora por vezes fosse

necessário voltar à etapa anterior para correção de pequenos erros. O entendimento do problema

de previsão dos resultados foi feito com recurso à bibliografia estudada e descrita na revisão da

literatura.

Na primeira iteração foram recebidos os dados dos jogos da liga portuguesa fornecidos pelo

Laboratório SAPO/ U.Porto. Uma vez recebidos os dados, foi necessário compreender o seu conteúdo

e perceber a sua qualidade. Devido à análise feita com recurso a gráficos, foram detetados

dados duplicados, inconsistentes, sem informação, etc. Seguiu-se a limpeza dos dados e construção

de novas variáveis que fossem úteis de acordo com o problema. Depois da seleção de atributos

com recurso a técnicas de correlação, foram construídos 4 conjuntos de dados que foram aplicados

na fase de modelação. Os quatro conjuntos de dados tinham níveis de correlação diferentes.

Na fase de modelação foram criados modelos tendo por base 8 algoritmos e os quatro conjuntos

de dados criados anteriormente. Foram avaliados o desempenho dos modelos através da taxa de

acerto de cada um deles. Também foram estudadas algumas possíveis falhas nos modelos para que

fossem compensadas nas iterações seguintes.

Na segunda iteração, o Laboratório SAPO/ U.Porto forneceu novos dados com mais informação

sobre os jogos. Foram construídas novas variáveis e novos conjunto de dados para a fase da

modelação. Com base nos resultados da iteração anterior foram escolhidos 2 algoritmos para a criação

de novos modelos. Os resultados dos modelos da primeira e segunda iteração são muito idênticos,

o que significa que não houve evolução de desempenho. Perante esta estagnação, decidiu-se

alargar o conjunto de dados de treino. Sendo assim, o conjunto de dados de treino passou a conter

jogos de 4 épocas, quando anteriormente continha jogos de uma época. Com esta alteração o

desempenho dos modelos melhorou. O modelo com melhor desempenho alcançou uma taxa de

acerto de 58%. Uma vez escolhido o modelo final, foi testada a capacidade de generalização do

modelo com a previsão de jogos que ainda não tinham sido testados. O modelo obteve uma taxa

de acerto de 45% com os novos dados. Verificou-se uma descida no desempenho do modelo, o

que pode significar que o modelo está demasiado ajustado aos dados de treino. Com o desenvolvimento

de um modelo final pode afirmar-se que os objetivos desta dissertação foram alcançados

e cumpridos.

Trabalho Futuro

Após a realização da dissertação e análise dos resultados é possível a evolução do mesmo com

vista à melhoria do desempenho dos modelos.

Esta dissertação abordou o problema de previsão do resultado de um jogo como sendo uma

de três hipóteses, vitória da equipa da casa, empate ou derrota. Das três hipóteses, a vitória da

equipa da casa é o acontecimento que acontece com mais frequência. Uma abordagem futura seria

encarar o problema de classificação como tendo um atributo alvo de duas classes, vitória ou não

vitória da equipa da casa. A não vitória seria a previsão de empate ou derrota. Um modelo que

classifique duas classes tem tendência a ter uma taxa de acerto maior do que um que classifique

três classes.

Uma outra abordagem futura poderá ser a inclusão de novos atributos com características particulares

no conjunto de dados utilizado. Essas características podem ser de vários tipos. Características

físicas como por exemplo fadiga, jogadores lesionados, resistência, esforço, etc. Características

psicológicas como por exemplo mudança de treinador, jogadores insatisfeitos, concentração,

reação às adversidades, etc. Características do foro técnico-tático como táticas utilizadas, modelo

de jogo, pontos fortes e fracos, jogadores influentes, etc. Muitas destas características são subjetivas

o que torna difícil a sua caracterização, no entanto, serão mais-valias na construção de novos

modelos para a previsão de resultados.

Os modelos desenvolvidos tiveram melhor desempenho nos jogos da segunda volta do campeonato

do que nos jogos da primeira volta. Uma abordagem futura seria implementar um modelo

que fizesse a previsão do resultado somente nos jogos da segunda volta, tendo como dados de

treino os jogos da primeira volta.