Consideramos que esta modelizacin matemtica puede

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: conjunto de datos CB554 y RS126, y 138 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional Observados H H Predichoí E L obsff E obsg obsi L prdii prds prdL '^res T abla 7.1: Matriz de confusión para el problema PSSP q uitando las secuencias con cierto grado de similitud, se consiguió el conjunto de datos C B513. O tro conjunto de datos utilizado para nuestras pruebas es el proporcionado por U. H obohm, M. Scharf, R . Schneider y C. Sander (1992), denominado H S1771. S on los subconjuntos de la base de datos P D B {Protein Data Bank) [BWF"^00] no redundantes del E MBL {European Molecular Biology Lahoratory) a los que se puede acceder vía ftp anónimo de EMBL ^. E n el conjunto de datos se cumple que dos proteínas no tienen una i dentidad de secuencia mayor del 25 % (para alineaciones de 80 o más residuos de longitud). C ada cierto tiempo, este conjunto de datos es actualizado con las últimas proteínas i ntroducidas en la base de datos P D B . El conjunto de datos utilizado en este capítulo p ertenece al mes de Marzo de 2002. A demás de los conjuntos de datos RS126, CB513 y H S1771, se han utilizado seis c onjuntos de datos más, obtenidos del proyecto EVA [REOl]. Actualmente, EVA utiliza sólo p roteínas con estructuras nuevas para evaluar la predicción de la estructura secundaria. Del proyecto EVA se han seleccionado seis conjuntos de datos: EVAl con 114 secuencias, EVA2 con 116, EVAS con 107, EVA4 con 121, EVA5 con 200 y EVA6 con 507 secuencias. 7.3. E stadísticas para el problema PSSP P ara la validación de los resultados obtenidos por los métodos de predicción de estructura secundaria, se han definido una serie de estadísticas particulares. P ara poder realiziar las estadísticas se ha utilizado una matriz de confusión de tamaño 3 x3, en donde las filas reflejan los estados de la estructura secundaria real (obtenida con el p rograma DSSP [KS83]) y las columnas los estados de la estructura secundaria predicha p or el clasificador. En la tabla 7.1 se pueden ver los elementos de la matriz de confusión. D e la matriz de confusión se pueden obtener los siguientes valores: • ohsH'- r epresenta el número de estados héfice (H) observados, es decir, estados H que a parecen en la estructura real, • ohsB'- r epresenta el número de estados /? laminar (E) observados, • obsL' r epresenta el número de estados coil (L) observados, • W^H'- r epresenta el número de estados de la secuencia observada que se han predicho c omo hélice (H), ^ftp://ftp.einbl-heidelberg.de/pub/databases/protein_extras/pdb_select 7.3. Estadísticas para el problema PSSP 139 • prdE- representa el número de estados de la secuencia observada que se han predicho como P laminar (E), • prdi: representa el número de estados de la secuencia observada que se han predicho como coil, • Nres- representa el número total de estados de la cadena observada (longitud de la secuencia). Si se representa matemáticamente, se tiene que: Mij denota el número de residuos observados en el estado i y predichos con el estado j , coni,j e {H,E,L} El número total de residuos observados en el estado i es: 3 obsi = ^ M í , - \i,j e {H, E, L} (7.1) 3=1 El número total de residuos predichos con el estado i es: 3 y el número total de estados en la secuencia es: 7 .3.1. E xactitud de la predicción para los tres estados: Qz Es la medida que se utiliza tradicionalmente para evaluar la exactitud de la predicción de la estructura secundaria. Obtiene el número total de residuos predichos correctamente. P ara ello, suma los estados hélice, ^ laminar y coü que se han predicho correctamente (suma de los MÍÍ), dividiendo el resultado por el número total de residuos de la secuencia observada [Nres) Y mostrando el resultado en forma de porcentaje. El Qz se obtiene como: 1^ 0 3 = 1 0 0 - — 5 ] M,i (7.4) 1=1 7 .3.2. P orcentajes de exactitud por estados P ara definir la exactitud de un estado particular hay dos posibles variantes: • Porcentaje de estados que se han predicho correctamente (%obs). Q%obs ^ ^QQMÜ ^ obs-i (7.5) 140 Clasificación Supervisada Basada en RRBB. ApUcación en Biología Computacional De esta forma, por ejemplo, se tendrá para el estado Í = H (hélice) el porcentaje de H observadas que se han predicho correctamente. • Porcentaje de estados en la secuencia predicha que se han predicho correctamente ( %prd). Por ejemplo, para el estado i=H, se obtendrá el porcentaje de estados H que hay en la secuencia predicha, y que se han predicho correctamente. 7 .3.3. í ndice de información El índice de información viene dado por: .„/„ = .„ ( ^ ) (7.) donde Pobs describe la probabilidad de encontrar una cadena particular de N^-es residuos con ohsi residuos en la estructura i de todas las combinaciones posibles, y Pprd es la probabilidad de una realización particular de la matriz de confusión M. El índice de información se puede calcular como: mfo = info'^'°^' = 1 - (7.8) z.^¿=i y " •» ^ ^ - ^ i " " -Í ^-^i,j=i &...
View Full Document

Ask a homework question - tutors are online