Se puede hablar de un porcentaje de similitud entre

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: n de la estructura secundaria se convierte en un problema d e clasificación. L os aminoácidos se codifican con lo que se conoce como codificación ortonormal. A c ada aminoácido se le asigna un vector binario, como por ejemplo (1, O, O,..., 0) ó (O, 1, O,..., 0), cada uno de los cuales se elige de forma que sea único y ortonormal. De este modo, p ara codificar el alfabeto de los 20 aminoácidos proteicos se requiere que los aminoácidos se representen en un espacio de 20 dimensiones. L a red fue inicializada con pesos aleatorios y entrenada por medio del algoritmo de r etropropagación del error [Bis95], usando un conjunto de datos seleccionado de la base d e datos P D B {Protein Data Bank). E l entrenamiento se realiza empleando instancias a leatorias de dicho conjunto de datos. Esto evita que se produzcan oscilaciones asociadas c on correlaciones en los datos si son presentados de forma contigua [BBF+QQb]. L a red que construyeron superó a los métodos de predicción realizados hasta ese momento, aunque la falta de un conjunto de datos de prueba común hacía difícil la comparación. A pesar de esto, sus autores quedaron insatisfechos con el rendimiento de su red, en t orno al 6 4 % de predicciones correctas, describiéndolo como "decepcionantemente bajo". T ambién sugirieron que no se podrían realizar mejoras significativas sobre los resultados o btenidos. La ausencia de diferencia en el rendimiento de la predicción entre una red de una sola capa y una red con capas ocultas, indica que no hay correlaciones de segundo orden p ara ser explotadas. Nuevos experimentos con estructuras artificiales indicaron que la red e ra capaz de usar información de segundo orden, por lo que los autores concluyeron que t al información no estaba presente en el conjunto de datos usado. Finalmente, los autores 6.4. Predicción de la estructura secundaria de las proteínas 125 s ugirieron que hay un límite del 70 % en la exactitud de la predicción, demostrando la e quivalencia entre el conjunto de datos y un conjunto de datos artificial que contiene sólo c orrelaciones de primer orden y un 30 % de ruido. A p esar del pesimismo de los autores en cuanto a mejoras en la exactitud de la predicción, les siguieron una ola de artículos que utilizaban redes de neuronas para la predicción d e la estructura secundaria (HoIIey y Karplus [HK89], Kneller y Cohén [KCL90], Stolorz e t al. [SLX92]), esencialmente usando la m.isma técnica que Qian y Sejnowski, con la excepción de Maclin y Shalvik [MS93] que incorporaron las reglas de Chou-Fasman [CF74] e n el diseño de la red. 6 .4.3. Problemas de los métodos de primera y segunda generación Todos los métodos de la primera y segunda generación comparten, al menos, dos de los s iguientes problemas, estando presentes los tres problemas en la mayoría de los métodos: • E xactitud en las predicciones inferior al 70%. • L as /? láminas se predicen con una exactitud del 28-48 %, s olamente un poco mejor q ue de forma aleatoria. • L as hélices y las /? láminas predichas son demasiado cortas. E l primer problema está comúnmente relacionado con dos características: • L a formación de la estructura secundaria está parcialmente determinada por un largo r ango de interacciones, es decir, por contactos entre residuos que no son visibles por n ingún método basado en las estadísticas de segmentos formados por 11 a 21 residuos c ontiguos. • L a asignación de la estructura secundaria varía entre un 5-12% para una misma p roteína, dependiendo de cómo cristalice. E l segundo problema se debe a que la formación de P l áminas es determinada por más c ontactos no locales que la formación de hélices. E stos problemas hacen que las predicciones sean muy difíciles de usar en la práctica. 6 .4.4. Tercera generación L a principal característica de los métodos de tercera generación es el uso de información evolutiva para realizar las predicciones, lo que permite una mejora sustancial en los r esultados obtenidos. La información evolutiva que se usa en la predicción, son los perfiles (profiles) d e intercambio de residuos, extraídos de los alineamientos de la proteína de p artida. L as ventajas de estos métodos son: " E xactitud en las predicciones en torno al 80 %. 126 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional • E xactitud en la predicción de las ¡3 l áminas prácticamente igual que en las hélices y e n coil. Sin embargo, estos métodos siguen presentando una serie de problemas: • M alos alineamientos llevan a malas predicciones. • Se debe tener precaución al evaluar los resultados para proteínas con características i nusuales. C on el fin de entender la información evolutiva que usan los métodos de tercera generación, en la siguiente sección se analiza en profundidad el alineamiento de secuencias d e proteínas. Los métodos actuales que mejor exactitud están obteniendo, PHD [RSS94a], P SIPRED [Jon99], SAM-T02 [KBH98], SSPro [BBF+99a, BBF+...
View Full Document

Ask a homework question - tutors are online