2 k n i ndica el tamao de la ventana por ejemplo en

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: quot;'••'•o '•'•'- '•'"••Í3 ( 7.9) Nres I n Nres — Yli=i ohSi I n ohSi info'^°^'^ = 1 - ( 7.10) Nres In Nres - YA=I wdi Inprdi 7 .3.4. Coeficiente de correlación de M a t t h e w El coeficiente de correlación de Matthew [Mat85] es una medida que no se ve influida por el porcentaje de verdaderos positivos (cantidad de la estructura i predicha correctamente dividida por la cantidad de la estructura i que hay en la secuencia observada) en una muestra y es la manera más exacta de evaluar diferentes métodos. El resultado es un número comprendido entre -1 y 1, representando el 1 una coincidencia perfecta, el -1 una desigualdad total y O p ara indicar que la predicción no tiene correlación con los resultados. Aunque el coeficiente de correlación sea una medida útil de exactitud de la predicción, no evalúa cómo de parecida es la predicción a una proteína. Para saber cómo de realista es una predicción, se deben tener en cuenta las longitudes de los segmentos estructurales secundarios predichos (SOV) que se verán más adelante. El coeficiente de correlación de Matthew se obtiene de la siguiente formula: 7 .3. E stadísticas para el problema PSSP a= 141 ^^"^ - "^^V fe + Ui){pi + Oi){ni + Ui){ni + o¿) (7.11) c on: 3 3 3 3 d onde: • rii: c ontiene el número de estados distintos de i q ue se han observado y que se han p redicho como estado j , siendo j d istinto de i. P or ejemplo, para el estado i = H, se tiene la cantidad de estados L j E observados, que se han predicho como L o E. • uf contiene el número de residuos en estado i que se encuentran en la secuencia o bservada y que se han predicho como un estado distinto de i. P or ejemplo, para el estado i — H, contiene el número de estados H observados que se han predicho como E o L. • Pi'. r epresenta el número de residuos observados en el estado i p redichos correctamente. • of. r epresenta el número de residuos observados con estado distinto de i, y que se han predicho como estado i. 7 .3.5. SOV: medida de superposición de segmento T oda la estadística anterior es la estadística general que se puede aplicar a cualquier p roblema de clasificación. Sin embargo, la superposición de segmento -Segment OVerlap(SOV) es una medida, desarrollada por Rost [RSS94b] y modificada por Zemla [ZVFR99], que refleja los objetivos especíñcos de la predicción de la estructura secundaria. Al contrario que la medida Qz, que considera los residuos de forma individual, SOV m ide la exactitud considerando los distintos segmentos de una secuencia. SOV p roporciona la medida de la cantidad de superposición de segmentos para un solo estado (H, E ó L) o p ara los tres estados. T omando como ejemplo el estado coil ( L), la medida SOV c alcula la exactitud de la p redicción de los segmentos de la secuencia observada en dicho estado. Por segmento se e ntiende las partes de la secuencia donde aparece de forma consecutiva el estado i ( en este caso L). Así, se obtendrá un 100% cuando los segmentos de la secuencia observada s ean iguales en la secuencia predicha. Cuando se calcule el SOV p ara los tres estados, se t endrán en cuenta los segmentos de los tres estados (hélice, 0 l ámina y coií). S O V para un e s t a d o conformacional V iene dado por: 142 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional SOV{i) = 100-1. V minov{s^,s,) + 6is,,s,) S[i) donde: Si y S2- son los segmentos observados y predichos de la estructura secundaria en el e stado i - el cual puede ser H, E ó L-, Z en(si): es el número de residuos en el segmento s i , minov{si, S2): es la longitud del solapamiento actual de si y S2, es decir, la extensión p ara la que arabos segmentos tienen residuos en el estado Í, maxov{si, S2): es la longitud de la extensión total para la cual los segmentos si o §2 t ienen un residuo en el estado ¿, (5(si,S2): es el valor entero definido como: maxov{si, 5{s„S2) = rmn{ S2) — minov{si, int{0,5*len{s¡)) 52) > ^'''^^ m í(0,5 * len{s2)) • X^: se toma sobre todos los pares de segmentos (si, «2)) donde sj y «2 tienen al menos u n residuo en estado i e n común, • N(i): e s el número de residuos en el estado i. Se define como: N(i) = ^ len{si) + Y^ len{s2) S(i) 3'(i) (7.15) L as dos sumas se realizan sobre S y S'. S{i) es el número de todos los pares de s egmentos (si, S2), en los que si y «2 tienen en común al menos un residuo en estado i. S'{i) es el número de segmentos Si q ue no producen ningún segmento asociado. E n la figura 7.1 se muestra un fragmento de secuencia observada secuencia predicha, e n donde se pueden ver claramente los elementos de la fórmula de SOV. SOV: p ara tres e s t a d o s L a medida SOV p ara los tres estados se obtiene como: 1 Y ^ ^ m m o v ( s i , 5 2 ) + 5(si,52) lSS(Í)^-r'^ maxov{si,S2) ^ S{i) d onde ^ ^ N{i) es la suma de N{i) s obre los tres estados conformacionales 7.4. Modelización matemática de las proteínas y de PSSP 1 43 S. EEEEEEEEILLLLILLLLLEEEEE .EEEEEEi ,LÍLLLLlEEELL;LEEEE m inov maxov F igura 7.1: Fragmento de secuenc...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online