Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca

Cómo citar

Ayala-Yaguara, H. Y., Valenzuela-Sabogal, G. M., & Espinosa-García, A. (2020). Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca. Revista Ontare, 7, 134–150. https://doi.org/10.21158/23823399.v7.n0.2019.2676

Publicado: Oct 23, 2020

Doi

https://doi.org/10.21158/23823399.v7.n0.2019.2676

Dimensions

PlumX

Número

Vol. 7 (2019): Inteligencia Artificial y soluciones de ingeniería sostenible

Sección

Artículos científicos

Términos de Licencia (VER)

Los autores que publiquen en la revista Ontare deben diligenciar y firmar el formato de «Autorización de publicación de artículos de revista a favor de la Universidad Ean», mediante el cual declaran que no han infringido derechos de propiedad intelectual en su obra y confieren autorización de uso sobre esta a favor de la Universidad Ean.

Dicha autorización no constituye la cesión y transferencia de los derechos patrimoniales, dado que estos, en conjunto con los derechos morales, continúan bajo la titularidad de los autores.

Holmes Yesid Ayala-Yaguara

Universidad de Cundinamarca – Extensión Facatativá

https://orcid.org/0000-0003-0528-3161

Gina Maribel Valenzuela-Sabogal

Universidad de Cundinamarca - Extensión Facatativá

https://orcid.org/0000-0002-2833-1579

Alexander Espinosa-García

Universidad de Cundinamarca - Extensión Facatativá

Resumen

En el presente artículo se describe la obtención de un modelo de minería de datos aplicado al problema de la deserción universitaria en el programa de Ingeniería de Sistemas de la Universidad de Cundinamarca, extensión Facatativá. El modelo se estructuró mediante la metodología de minería de datos KDD (knowledge discovery in databases) haciendo uso del lenguaje de programación Python, la librería de procesamiento de datos Pandas y de machine learning Sklearn. Para el proceso se tuvieron en cuenta problemas adicionales al proceso de minería, como, por ejemplo, la alta dimensionalidad, por lo cual se aplicaron los métodos de selección de las variables estadístico univariado, feature importance y SelectFromModel (Sklearn). En el proyecto se seleccionaron cinco técnicas de minería de datos para evaluarlas: vecinos más cercanos (K nearest neighbors, KNN), árboles de decisión (decision tree, DT), árboles aleatorios (random forest, RF), regresión logística (logistic regression, LR) y máquinas de vectores soporte (support vector machines, SVM). Respecto a la selección del modelo final se evaluaron los resultados de cada modelo en las métricas de precisión, matriz de confusión y métricas adicionales de la matriz de confusión. Por último, se ajustaron los parámetros del modelo seleccionado y se evaluó la generalización del modelo al graficar su curva de aprendizaje.

Palabras clave

Minería de datos

Deserción universitaria

Universidad de Cundinamarca, extensión Facatativá

Análisis de regresión logística

Referencias (VER)

Fischer, E. S. (2012). Modelo para la automatización del proceso de determinación de riesgo de deserción en estudiantes universitarios. Santiago de Chile: Universidad de Chile.

Galvis, M.; Martínez, F. (2004). Confrontación de dos técnicas de minería de datos aplicadas a un dominio específico. Bogotá: Pontificia Universidad Javeriana.

Hernández, J.; Ramírez, J.; Ferri, C. (2004). Introducción a la minería de datos. Madrid: Pearson. MEN (Ministerio de Educación Nacional). (2009). Deserción estudiantil en la educación superior colombiana: metodología de seguimiento, diagnóstico y elementos para su prevención. Bogotá: Ministerio de Educación Nacional.

Moine, J. M.; Gordillo, S.; Haedo, A. (2011). Estudio comparativo de metodologías para minería de datos. Texto presentado en el XIII Workshop de Investigadores en Ciencias de la Computación. Red de Universidades con Carreras en Informática (RedUNCI), San Juan, Argentina, 5-6 de mayo. Recuperado de http://hdl.handle.net/10915/20034

Müller, A.; Guido, S. (2016). Introduction to machine learning: a guide for data scientists. Sebastopol CA: O' Reilly.

Pedregosa, F. et al. (2011). Scikit-learn: machine learning in python. Journal of Machine Learning Research, 12, 2826-2830. Recuperado de https://hal.inria.fr/hal 00650905

Raschka, S. (2015). Python machine learning. Birmingham: Packt Publishing.

Universidad de Cundinamarca. (2019). Boletín Estadístico X Edición. Universidad de Cundinamarca,
Dirección Planeación Institucional. Fusagasugá: Fusunga Casa Editorial.