653927 e e 6703 l h h 631 t 2 5596 s 5966 6 905 6

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: stas instancias se realiza a través de una ventana de tamaño definido, que recorre todas l as secuencias. L a ventana tiene los siguientes parámetros: 146 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional 1. i E. N'^ ( número natural > 0), indica el punto de comienzo de la ventana según se d esplaza a lo largo de la secuencia. Por ejemplo, el valor i = 1 i ndica que la ventana c omienza en el residuo x j , ó z = 5 que comienza en el residuo x^. 2. k € N^ i ndica el tamaño de la ventana. Por ejemplo, en PHD [RSS94a] se utilizan v entanas de tamaño 13. 3. p E {1,2,... ,k} es u na posición especial dentro de la ventana, e indica el residuo p ara el cual se debe aprender la estructura secundaria. D e esta forma se define la función W, q ue recibe los parámetros de la ventana y u na estructura secundaria {x,e}, y d evuelve una subsecuencia de a; y un elemento de e. S imbólicamente: l y : N+ X N+ X N+ X {A*,S*) ^A*xS (7.29) e n donde, W{i, k,p, {x, e )) = (xi, Xi+i,..., Xi+k-i, f{x)\xi+p) (7.30) c on (x,e) = ( x i , a ; 2 , . . . , x „ , 6 1 , 6 2 , . . . , e „ ) . 7.4.2. Resultados L ineéis de trabajo futuro E s necesario seguir desarrollando la presente modelización matemática. El siguiente p aso es, sin duda, modelizar la información evolutiva de las proteínas. Este paso intermedio es imprescindible a la hora de poner definir de forma totalmente simbólica el problema de la predicción de la estructura secundaria de las proteínas. 7 .5. 7.5.1. Desarrollo de un clasificador para PSSP con redes Bayesianas Objetivos E n esta sección proponemos el uso de los clasificadores naive-Bayes e Interval Estimation naiVe-Bayes (ambos métodos basados en redes bayesianas) para la predicción de la e structura secundaria de las proteínas [RLPP02, RPH"'"03]. E l método que proponemos se basa en dos capas de predicción, la primera de tipo s ecuencia-estructura y la segunda del tipo estructura-estructura. Por supuesto, la primera c apa tiene que ser capaz de trabajar con la información evolutiva de las proteínas, como c ualquier otro método de tercera generación. D e esta forma, se explicará la obtención del conjunto de datos para el aprendizaje y l a validación, el cambio que ha sido necesario hacer al clasificador nai've-Bayes para que 7 .5. D esarrollo de un clasificador para PSSP con redes Bayesianas 147 p ueda trabajar con información evolutiva en la primera capa de predicción y el desarrollo d e la segunda capa. P or último, se describen las pruebas que han sido realizadas a fin de obtener la matriz de sustitución más adecuada para el cálculo de la información evolutiva y para el cálculo del t amaño de ventana óptimo. También se describen las pruebas realizadas para la segunda c apa de predicción. 7 .5.2. Obtención del conjunto de datos P ara obtener los casos con los que realizar los procesos de aprendizaje y validación d e ambos métodos, se ha partido del conjunto de datos CB513 [CB99]. Este conjunto de d atos, q ue contiene 513 proteínas, fue construido por Cuíf y Barton en 1999. P ara cada una de las proteínas de este conjunto de datos se ejecuta el programa PSI- BLAST [AMS+97] contra la base de datos de proteínas PIR-NREF y se obtiene su perfil. E ste perfil es una tabla que lista las frecuencias de cada aminoácido en cada posición de l a proteína. El perfil tiene tantas filas como aminoácidos tenga la proteína y 20 columnas, u na para cada aminoácido proteico. De esta forma, la posición (¿, j ) del perfil indica la f recuencia con que el aminoácido j a parece en la posición i d e la proteína. A p artir de los perfiles se extraen los casos con los que se entrenan y validan los m étodos. Estos casos están formados por una ventana de aminoácidos de tamaño impar y l a clase correspondiente al aminoácido que se encuentra en la posición central de esa v entana. Se debe sacar un caso para cada uno de los residuos de las distintas proteínas que c omponen el conjunto de datos, con el objetivo de realizar la predicción de la estructura s ecundaria de cada uno de ellos. 7 .5.3. M odificación del clasificador naive-Bayes para el uso de información evolutiva E n los métodos de predicción de tercera generación es necesario el uso de la información e volutiva contenida en los perfiles de las proteínas. Como comentamos previamente, un perfil tiene tantas ñlas como aminoácidos tiene la proteína y 20 columnas, una para cada a minoácido proteico. P or tanto, para cada variable predictora Xi n ecesitamos 20 valores, p¿ ,.--)P¿ c orrespondientes a cada uno de los 20 aminoácidos D e esta forma, la ecuación estándar del naíve-Bayes P{C = C¿\Xi=Xx,...,Xn = Xn) O P{C = Ci) [ ] Pi^k C fc=i l a podemos calcular como. = Xk\C = Q ) > (7.31) 148 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional n 20 PiC = Ci) n T^Pk^Pi^k = a^^^C = a) k=l 7.5.4. (7.32) 3=1 R e s u l t a d o s e x p e r i m e n t a l e s d e la p r i m e...
View Full Document

Ask a homework question - tutors are online