Comunicación

USO DE APRENDIZAJE COMPUTACIONAL PARA LA PREDICCIÓN DE MUTACIONES EN EL CODÓN DE INICIO

Autores:

Javier Castell Díaz1, Francisco Abad Navarro1, Eugenia de la Morena Barrio2, Javier CORRAL DE LA CALLE2, Jesualdo Tomás Fernández Breis1

Afiliaciones:

(1) TECNOLOGÍAS DE MODELADO, PROCESAMIENTO Y GESTIÓN DEL CONOCIMIENTO, IMIB-Arrixaca, España
(2) HEMATOLOGÍA Y ONCOLOGÍA MÉDICA CLÍNICO-EXPERIMENTAL, IMIB-Arrixaca, España

Comunicación:

Antecedentes:

SIFT y PolyPhen son técnicas de predicción del efecto de mutaciones cuyo uso está muy extendido por parte de investigadores gracias a su inclusión en sitios como Ensembl. Por un lado, SIFT compara secuencias de proteínas similares para decidir si el cambio de aminoácido por la mutación tendrá un efecto tolerable o dañino. Por otro lado, PolyPhen predice el posible impacto de la sustitución del aminoácido en la estructura y función de la proteína a partir de la estructura y secuencia del nuevo aminoácido. No obstante, estas técnicas no son óptimas para predecir los efectos de las mutaciones en el codón de inicio, dado que la importancia de este cambio de base no viene dada por la función del nuevo aminoácido, sino porque al desaparecer el codón de inicio, cambiará el lugar en el que comienza la traducción. Por ello, es más adecuado tener en cuenta otras características como la distancia al codón de inicio alternativo o si se mantiene el marco de lectura.

Métodos:

Nuestro método se apoya en el uso de algoritmos de aprendizaje automático para clasificar las mutaciones en el codón de inicio como benignas o deletéreas. Para desarrollar el modelo, seguimos un proceso basado en tres pasos, donde primero seleccionamos qué técnicas utilizar, luego escogemos los valores óptimos para sus hiperparámetros; y finalmente mezclamos las mejores configuraciones en un ensemble de votación. Para entrenar el modelo utilizamos un conjunto de datos compuesto por 26037 mutaciones observadas en el codón de inicio de genoma humano y 199 procedentes de genoma de cabra. Estas mutaciones están etiquetadas como benignas o deletéreas. La inclusión del genoma de cabra viene dado por la necesidad de reducir el desbalance, puesto que el 98,5% de las instancias corresponden a mutaciones deletéreas. Este conjunto de datos lo separamos en dos subconjuntos: entrenamiento y validación, reservando este último para obtener los resultados finales.

Resultados:

Los resultados preliminares durante el entrenamiento dejaban ver que se estaba produciendo overfitting en la predicción de mutaciones benignas, por lo que se implementaron umbrales durante el ajuste de hiperparámetros para reducirlo. Asimismo, gracias al uso del ensemble de votación, se pudo conseguir un mayor decremento del overfitting, así como una ligera mejora en la predicción. Los resultados finales para el subconjunto de validación nos daban un porcentaje de acierto general del 82,21%, en el que el acierto sobre mutaciones benignas era del 43,67% y el de mutaciones deletéreas, del 82,8%. Al compararlo con los resultados obtenidos por SIFT y PolyPhen para mutaciones en el codón de inicio, nuestro modelo supera a SIFT en todos los aspectos y mejora los resultados de PolyPhen en la clasificación de mutaciones deletéreas. En este sentido, consideramos preferible nuestra técnica para este tipo de mutaciones antes que PolyPhen, puesto que este último sufre de falsos negativos, lo que podría conllevar diagnosticar como benigna una mutación deletérea, con sus consecuentes problemas dentro de este ámbito.

Conclusiones:

Gracias al uso de técnicas de aprendizaje automático conseguimos desarrollar un modelo que mejora los resultados obtenidos por técnicas populares como SIFT o PolyPhen en la predicción de mutaciones en el codón de inicio. Asimismo, se mantiene la hipótesis de que es preferible analizar otro tipo de características para este tipo de mutaciones frente al enfoque previo de esas técnicas.


Dirección

Campus de Ciencias de la Salud
Carretera Buenavista s/n, 30120 El Palmar
Murcia, España

Ver en OpenStreetMap

Ver en Google Maps

Teléfonos

+34 868885229
+34 868885239
+34 868885249