Author: Erick Esteven Montelongo-Gonzalez

Modelos de aprendizaje automático para el apoyo en la clasificación de tipos de cáncer a partir de datos estructurados y no estructurados de expedientes clínicos

Erick Esteven Montelongo-Gonzalez (2020)

103 páginas. Maestría en Ciencias de la Computación.

Investigación realizada con el apoyo del Consejo Mexiquense de Ciencia y Tecnología (COMECYT).

La existencia de grandes volúmenes de datos generados por el área de la salud presenta una oportunidad importante para su análisis. Este puede obtener información que ayude a los médicos en el proceso de toma de decisiones para el diagnóstico o tratamiento de enfermedades, tales como el cáncer. El presente trabajo presenta una metodología para la clasificación de pacientes con cáncer de hígado, pulmón y pecho, a través de modelos de aprendizaje automático, para obtener el modelo que mejor se desempeña en la clasificación. La metodología considera tres modelos de la clasificación: Máquinas de Soporte Vectorial (SVM), Perceptrón Multi-Capa (MLP) y Ada- Boost utilizando tanto la información estructurada como no estructurada de los expedientes clínicos de los pacientes. Los resultados obtenidos muestran que el mejor modelo de clasificación fue el MLP utilizando solamente datos no estructurados, obteniendo un 89% de precisión, mostrando la utilidad de este tipo de datos en la clasificación de pacientes con cáncer.

The existence of large volumes of data generated by the health area presents an important opportunity for analysis. This can obtain information to support physicians in the decisionmaking process for the diagnosis or treatment of diseases, such as cancer. The present work shows a methodology for the classification of patients with liver, lung and breast cancer, through machine learning models, to obtain the model that performs best in the classification. The methodology considers three classification models: Support Vector Machines (SVM), Multi-Layer Perceptron (MLP) and AdaBoost using both structured and unstructured information from the patient's clinical records. Results show that the best classification model is MLP using only unstructured data, obtaining 89% of precision, showing the usefulness of this type of data in the classification of cancer patients.

Master thesis

Aprendizaje automático, Procesamiento del Lenguaje Natural, clasificación de cáncer, datos no estructurados. Machine learning, Natural Language Processing, cancer classification, unstructured data. Machine learning. Natural language processing (Computer science). Health informatics. Data structures (Computer science). Aprendizaje automático (Inteligencia artificial). Procesamiento de lenguaje natural (Computación). Estructura de datos (Computación). Q325.5 INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES SISTEMAS DE CONTROL MÉDICO