10 nres in nres yai wdi inprdi 7 34 coeficiente de

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: s proteínas (PSSP) ya h a sido abordado desde diversos enfoques metodológicos siendo, como ya se vio, muchos d e ellos pertenecientes al mundo del aprendizaje automático. Sin embargo, nunca se ha i ntentado plantear este problema con el uso de redes Bayesianas, por lo que nos hemos p ropuesto su implementación [RLPP02, RPH+03]. E l USO d e las redes Bayesianas puede suponer dos ventajas principales: • M ejoras en el proceso de aprendizaje, ya que uno de los principales problemas que p resentan las redes neuronales es el tiempo que se debe emplear en el mismo, que p uede llegar a ser de semanas. • M ejorar la transparencia del aprendizaje, ya que los clasificadores basados en redes B ayesianas generan estructuras comprensibles, en contraposición con los modelos o btenidos con las redes neuronales. L a principal dificultad en este punto radica en conseguir introducir la información e volutiva de las proteínas en las redes Bayesianas, información que actualmente están u tilizando todos los algoritmos de predicción de tercera generación. Esto ha propiciado q ue sólo naíve-Bayes e lENB hayan podido ser utilizados. 7 .1.3. Multiclasificador basado en redes Bayesianas para el problema P SSP C ombinar un conjunto de clasificadores ha demostrado ser una forma enciente de mejorar la exactitud de los clasificadores que se combinan. L o que proponemos en este apartado es la realización de un multiclasificador - u n clasificador de clasificadores- basado en redes Bayesianas, para la predicción de la estructura secundaria de las proteínas [RLP+03c] basado en el paradigma stacked generalization [Wol92]. C on este objetivo hemos desarrollado una aplicación Web que contacta con todos los s ervidores Web de predicción de la estructura secundaria existentes en Internet. A través d e esta aplicación se persiguen tres objetivos: • C omparar los algoritmos de predicción actuales, extrayendo estadísticas sobre la e xactitud de sus predicciones. Sin embargo, esto no es novedoso, ya que el proyecto 7.2. Conjuntos de datos para PSSP EVA {EValuation of Automatic protein structure prediction) el mismo objetivo y está actualmente en funcionamiento. 137 [REOl] fue creado con • T ener un punto central en Internet a través de cual, y con una sola petición, se p uedan conseguir los resultados de todos los servidores de predicción de estructura s ecundaria de Internet. • O btener el conjunto de datos necesario para la realización del multiclasificador de p redicción de estructura secundaria. 7 .2. C onjuntos de datos para P S S P P ara comparar dos métodos de predicción, se debe usar el mismo conjunto de datos de a prendizaje y validación, ya que si no, la comparación no es significativa. De esta forma, el p roblema de la predicción de la estructura secundaria de las proteínas se ha estandarizado s obre varios conjuntos de datos. L a elección de un conjunto de datos es un problema difícil, que requiere tanto de c onocimientos de aprendizaje automático como de conocimientos específicos del dominio. L a idea es escoger un conjunto representativo de instancias con soluciones conocidas que se p uedan utilizar en el proceso de aprendizaje. Sin embargo, existen tres posibles problemas: • L a elección de un conjunto de datos que no refleje la distribución de probabilidad s ubyacente del mundo real. • L a selección de instancias que contienen información contradictoria. • L a elección de un conjunto de datos que contiene correlaciones artificiales. L os conjuntos de datos que se utilizarán en las pruebas de este capítulo son: RS126 ( Rost y Sander - 1993) [RS93], CB513 (Cuff y Barton - 1999) [CB99], HS1771 (Hobohm et al. -1992) [HSSS92] y los conjuntos de datos obtenidos de la página del proyecto EVA [REOl]. U no de los conjuntos de datos utilizados en las pruebas es el propuesto por Rost y S ander (1993) [RS93], quienes seleccionaron 126 proteínas con las que realizar el aprendizaje y la validación de los algoritmos de predicción de estructura secundaria. Definieron l a "no-redundancia" para decir que dos proteínas en el conjunto de aprendizaje no comparten una identidad de secuencia de más del 25 %. Desafortunadamente, el conjunto de d atos RS126 contiene pares de proteínas que son claramente secuencias similares cuando s on comparados por métodos más sofisticados que el porcentaje de identidad. Hace mucho q ue se sabe que el porcentaje de identidad es una medida pobre de similitud de secuencias. E n 3Dee [SB98] {Datábase of Protein Domain Definitions) se creó un conjunto de s ecuencias [CB99] no redundantes, usando un algoritmo de comparación de secuencias s ensible y por análisis de grupo. Esto proporcionó un conjunto de 1.233 secuencias donde n ingún par compartió similitud de secuencia obvia. Las secuencias fueron entonces filtradas p ara permitir sólo estructuras obtenidas a través de la técnica de Rayos-X con resoluciones m enor o igual de 2,5 Angstrom. Esto dejó un conjunto representativo de 554 secuencias d e dominio, designado como CB554. Juntando el...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online