Título

Búsqueda de un conjunto óptimo de descriptores moleculares para la modelación QSAR

Search for an optimal subset of molecular descriptors for QSAR modeling

Autor

Luis Antonio García González

Colaborador

Carlos Alberto Brizuela Rodríguez (Asesor de tesis)

CESAR RAUL GARCIA JACAS (Asesor de tesis)

Nivel de Acceso

Acceso Abierto

Resumen o descripción

En la actualidad, se estima que más de 10 millones de vertebrados son utilizados cada año en estudios toxicológicos. Dadas estas circunstancias, varias agencias regulatorias están impulsando activamente a la comunidad científica para el desarrollo de una alternativa a la experimentación con animales. Entre las alternativas existentes se pueden encontrar los estudios in-silico, especialmente los métodos de Relación Cuantitativa Estructura-Actividad (QSAR por sus siglas en inglés), los cuales se destacan como uno de los más utilizados. Los estudios QSAR se basan en la hipótesis de que compuestos estructuralmente similares presentan una actividad similar, lo que permite predecir la actividad de nuevos compuestos en función de compuestos estructuralmente similares, para los cuales se definió su actividad de forma experimental. Estudios han demostrado que la selección del subconjunto “óptimo” de las variables (descriptores moleculares) que caracterizan estructuralmente los compuestos tiene mayor importancia para la construcción de un modelo QSAR robusto que la estrategia de modelación utilizada. Actualmente, los descriptores moleculares (DMs) utilizados para la modelación QSAR son calculados con herramientas computacionales que no tienen en cuenta si estos caracterizan bien la actividad que se quiere modelar y los compuestos que se están analizando. En este trabajo se describen las limitaciones del enfoque actual, teniendo en cuenta que, si se sigue este enfoque, se puede pasar por alto información relevante al suponer que el conjunto de DMs calculado caracteriza bien las estructuras químicas que se están analizando, cuando en realidad puede que esto no suceda. Estas limitaciones se deben principalmente a que dichas herramientas limitan el número de DMs que calculan, restringiendo el dominio de los parámetros en los que se definen los algoritmos que calculan los DMs, parámetros que definen el Espacio de Configuración de Descriptores (DCS por sus siglas en inglés). En este trabajo se propone relajar estas restricciones en un enfoque DCS abierto, de manera que se pueda considerar inicialmente un universo más amplio de DMs y que estos caractericen de manera adecuada las estructuras a modelar. La generación de DMs se aborda entonces como un problema de optimización multicriterio, y para darle solución, dos algoritmos evolutivos son propuestos. Estos algoritmos incluyen conceptos de coevolución cooperativa para medir la sinergia entre descriptores moleculares ...

Currently, it is estimated that more than 10 million vertebrates are used per year for toxicological studies. Numerous regulatory agencies are actively advocating for the development of alternative methods to avoid unnecessary experimentation on animals. Among the existing alternatives in silico studies, especially Quantitative Structure Activity Relationships (QSAR) methods, stands out as one ofthe most widely used approaches. QSAR Methods are based on the premise that molecules with similar structures presents similar activities, which makes it possible to predict the activity of new compounds based on structurally similar compounds, for which their activity has been defined experimentally. Studies have demonstrated that the selection of the “optimal” set of molecular descriptors (MDs) is more important to build a robust QSAR models than the choice of the learning algorithm. Nowadays, the molecular descriptors (MD) used for QSAR modeling are calculated using computational tools that do not consider whether they accurately characterize the activity to be modeled and the compounds being analyzed. We demonstrate here that this approach may miss relevant information by assuming that the initial universe of MDs codifies, when it does not, all relevant aspects for the respective learning task. We argue that the limitation is mainly because of the constrained intervals of the parameters used in the algorithms that compute the MDs, parameters that define the Descriptor Configuration Space (DCS). We propose to relax these constraints in an open CDS approach, so that a larger universe of MDs can initially be considered, and these descriptors can adequately characterize the structures to be modeled. We model the MD generation as a multicriteria optimization problem, and two genetic algorithms-based approaches are proposed to solve it. These algorithms include cooperative-coevolutionary concepts to consider the synergism between theoretically different MDs during the evolutionary process. As a novel component, the individual fitness function is computed by aggregating four criteria via the Choquet Integral using a fuzzy non-additive measure. Experimental outcomes on benchmarking chemical datasets show that models created from an “optimized” sets of MDs present greater probability to achieve better performances than models created from sets of MDs obtained without optimizing their DCSs. Therefore, it can be concluded that the proposed algorithms are more suitable ..

Editor

CICESE

Fecha de publicación

2023

Tipo de publicación

Tesis de doctorado

Formato

application/pdf

Idioma

Español

Sugerencia de citación

García González, L.A. 2023. Búsqueda de un subconjunto óptimo de descriptores moleculares para la modelación QSAR. Tesis de Doctorado en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 110 pp.

Repositorio Orígen

Repositorio Institucional CICESE

Descargas

52

Comentarios



Necesitas iniciar sesión o registrarte para comentar.