Resumen:
Para marzo del 2020, la Organización Mundial de la Salud (OMS) declaró la epidemia de coronavirus como una pandemia mundial. Esto debido a que el brote de COVID-19 se había extendido por 118 países de todo el mundo, con un total a esa fecha de 125.260 casos confirmados. Sin embargo, los casos en todo el mundo superaron los 16 millones, de los cuales más de 650.000 resultaron mortales. A nivel nacional desde los primeros meses del año 2020 se reportaron casos de contagios por COVID-19 y desde ese entonces las cifras se incrementaron rápidamente. Con base en esto, el objetivo de este proyecto fue desarrollar un modelo que estime de la cantidad de contagios y muertes por COVID-19 en Colombia como apoyo al sistema de salud, identificando posibles contagios y muertes en el futuro. Las predicciones se basaron en el dataset publicado por el ministerio de Salud y Protección de Colombia. Este conjunto de datos contiene 3’514.639 casos reportados de los cuales 95.437 fueron notificadas como muertes, 3’450.758 como contagios y 3’380.599 como recuperados. Se realizaron 2 experimentos en diferentes espacios de tiempo, la primera predicción se realizó a finales del año 2021 desde octubre hasta diciembre y para el siguiente espacio de tiempo, la segunda predicción tuvo lugar desde finales del mes de mayo hasta finales del mes de junio del mismo año. Se seleccionó la metodología CRISP-DM para modelar los datos. Esta consta de seis fases, que van desde la comprensión del problema que, en este trabajo, es la dinámica de propagación del virus por COVID-19 en Colombia, y su relación con las decisiones en torno a la salud pública; La comprensión de datos, que es donde se recopilaron los datos y se analizó la existencia de valores nulos o valores fuera de rango, los cuales pueden convertirse en ruido para el proceso; la fase de preparación de datos abarca las tareas generales de selección de datos a los que les aplicó la técnica de modelado. En las fases de modelado y evaluación se eligió el modelo de inteligencia artificial más apropiado para el proyecto, y se evaluó su desempeño. Finalmente, los modelos obtenidos se analizaron con los criterios de Error Porcentual Absoluto Medio y Error Cuadrático Medio, donde es posible observar que con base a la métrica MAPE la predicción se puede considerar como muy precisa, una vez que se obtiene valores por debajo de 10, así como se contempla para la predicción en los casos de muertes durante ambos espacios de tiempo, el valor de MAPE no sobrepasa el 4%.