Sobre la consideración del fútbol profesional como una actividad que genera una cantidad cada vez mayor de datos, lo que le lleva a ser un ámbito perfecto para la aplicación de técnicas de ciencia de datos, la Universidad de Almería ha dado un paso más en la unión entre las matemáticas y este deporte. En concreto, se ha centrado en que tal volumen de información lleva consigo una gran incertidumbre asociada a los resultados de los partidos, y sobre ello han trabajado Antonio Salmerón, catedrático de Estadística en la UAL, y Nicolás Pérez, a partir de la tesis doctoral de este último.
Su investigación lleva por título ‘Predicting draws and number of fouls in football matches using Bayesian network classifiers’, y ha sido publicada en la prestigiosa revista ‘Progress in Artificial Intelligence’, de la editorial Springer, en el área de ‘Computer Science, Artificial Intelligence’. Por la naturaleza estadística de los modelos que han desarrollado en su trabajo, que facilita su aplicación en contextos de apuestas, han conseguido desarrollar una estrategia en función de la ganancia esperada.
Por otro lado, dicha estrategia de agrupación de datos puede emplearse en cualquier otro problema de predicción donde el interés esté precisamente en predecir sucesos raros o poco habituales. En detalle, la investigación ha utilizado modelos estadísticos llamados ‘clasificadores bayesianos’ para predecir diversos factores relacionados con partidos de fútbol, como el número de faltas y la probabilidad de que un partido termine en empate, que es, en realidad, el resultado más difícil de predecir.
Se han empleado datos históricos de La Liga desde la temporada 2010/2011, proponiendo formas novedosas de agruparlos con el objetivo de mejorar la capacidad de predicción. Es de destacar que los modelos estadísticos se han entrenado exclusivamente con datos disponibles de forma libre en internet y, por lo tanto, accesibles a todo el mundo. La principal ventaja del uso de clasificadores bayesianos frente a otros modelos de predicción, como los basados en redes neuronales, es que son fácilmente interpretables por humanos y es posible trazar el proceso que lleva al modelo a realizar una determinada predicción.






