Una vez recopilado el conjunto de datos para el

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: . La desventaja que p resenta es el tiempo de respuesta de la predicción, que puede ser de hasta 10 horas. A demás, algunos envíos no obtuvieron respuesta. De las 3515 secuencias enviadas, 70 no obtuvieron resultado. 6. S ervidor P S I P R E D 156 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional E l servidor de predicción de estructura secundaria PSIPRED [Jon99] permite al u suario enviar una secuencia de aminoácidos, realizar la predicción de su estructiira s ecundaria y recibir los resultados de la predicción a través de correo electrónico. P SIPRED es un método simple y fiable de predicción de la estructura secundaria. B asa sus predicciones en un clasificador de dos capas implementadas con redes de n euronas. La primera red neuronal toma como entrada la matriz PSSM obtenida al e jecutar PSI-BLAST sobre secuencia de partida. La segunda red neuronal es del tipo e structura-estructura, similar a la que se describió en el algoritmo PHD [RSS94a]. L a versión 2.0 de PSIPRED incluye una mejora que realiza un promedio de la salida d e hasta 4 redes de neuronas independientes usadas en el proceso de predicción de l a primera capa. De esta forma se consigue aumentar la exactitud. E n cuanto a su funcionamiento, este es uno de los servidores que mejor comportamiento ha tenido. El único inconveniente que se ha encontrado es que su cola de t rabajos es muy pequeña (alrededor de 10 trabajos). Sin embargo, teniendo en cuenta que la predicción se obtiene en aproximadamente 2 minutos, esta desventaja se a tenúa. 7. S ervidor S A M - T 0 2 S AM-T02 [KBH98] es un método iterativo de búsqueda que crea modelos ocultos de Markov d e una secuencia de proteína, a través de búsquedas iterativas en una b ase de datos de proteínas. Actualmente, es el algoritmo de detección de homología r emota más sensible. R especto a su funcionamiento, es el servidor más lento de todos los utilizados. No p ermite enviar secuencias muy continuadas ya que se bloquea el acceso. Sólo permite e nviar unas 35 secuencias por día. 8. S ervidor S O P M E l método SOPM [GD94] está basado en la base de datos DSSP [KS83] que contiene l as proteínas y sus estructuras secundarias conocidas. De esta forma, dada una nueva s ecuencia, utiliza un algoritmo predictivo basado en similitudes de secuencia. L os resultados de las predicciones, para los conjuntos de datos enviados, se han obtenido de forma rápida y sencilla, sin encontrar ningún problema en el funcionamiento d el servidor. 9. S ervidor S S P r o S SPro es un sistema totalmente automatizado para la predicción de la estructura s ecundaria de las proteínas. El sistema se basa en un conjunto de redes de neuronas r ecurrentes bidireccionales (BRNNs) [BBF+99a, BBF+99b]. U n conjunto de 11 redes de neuronas recurrentes bidireccionales realizan el aprendizaje. Las redes contienen aproximadamente 70.000 pesos ajustables, y realizan el a prendizaje utilizando una entropía relativa entre las distribuciones objetivo y de s alida. E ste servidor ha sido el único al que no se han podido enviar automáticamente todas l as secuencias de los conjuntos de datos. Después de enviar los conjuntos de datos C B513, R S126 y H S1771, el servidor bloqueó el acceso por no poder servir tantas 7.6. Multiclasificador basado en redes Bayesianas para PSSP 157 p redicciones. Por esta razón, el resto de los conjuntos de datos tuvieron que ser e nviados por correo electrónico al administrador, que devolvió las predicciones por c orreo electrónico. Conjunto de datos SrJPred HHHEL... HH A RNST... RN Secuencia Secuencia por S^-PSIPred HHEEL... HH Estructura secundaría observada (SS) Sj-SSpro S,-SAM-T02 S^-PHOExpert S^-Prof HHHEL... LH HEEHH ... HH HEEEL... LH EEEEL ... HH HHHHL ... HH Conjunto de datos para metaclasificador iSi \S2 ÍS3 ÍH ÍE :H |E ¡E ¡E IE IS4 E L H L [H ÍH E L E L ÍH ÍH i s iSfi SSI S ! ÍH 1H H í H ! |H ÍE H > H ÍH | ÍE E \ H •E L H H E L, ÍH ! !H H H\ F igura 7.6: Obtención del conjunto de datos para el multiclasificador 7 .6.3. O btención del conjunto de datos para el multiclasificador P ara la obtención del conjunto de datos del multiclasificador, tal y como se puede observar en la figura 7.6 -aunque en total han sido usados nueve servidores, en la figura sólo aparecen los seis mejores-, han sido necesarios varios pasos: 1. Seleccionar un conjunto de proteínas con estructura secundaria conocida. Se han u tilizado todos los conjuntos de datos de proteínas descritos en la sección 7.2. Por tanto, se usarán los conjuntos HS1771, CB513, RS126 y los seis conjuntos del datos 158 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional d el proyecto EVA [REOl]. De ellos, sólo el conjunto HS1771 será utilizado para el a prendizaje (por ser considerado el más completo de ellos) y el resto de conjuntos s erán utilizados para la validación. 2. M andar estas secuencias de proteínas a los nueve servidores de Internet y esperar s us respectivas respuestas por correo electrónico o vía Web. 3. P rocesar los correos electrónicos o las páginas Web, y extraer la información de la e structura secundaria predicha por cada uno de ellos. 4. C on estos nueve resultados obtenidos se construye el conjunto de datos del multiclasificador. Por cada aminoácido de la proteína se construye una instancia del conjunto d e datos, que contiene las predicciones de cada servidor y la estr...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online