065 sovh 8147 7142 6944 5102 6414 7563 6566 7783 7148

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: uctura real. 7.6.4. Clasificadores de nivel-1 U na vez recibidas las predicciones de los nueve servidores, se calcularon las estadísticas d escritas en el apartado 7.3. Las estadísticas obtenidas se muestran en la siguiente sección d e resultados experimentales. C on las estadísticas en mano, se realizaron varios multiclasificadores basados en redes B ayesianas. Se han hecho un total de cinco multiclasificadores: • N aive-Bayes con los cinco mejores servidores (MC-NB-5). • N aive-Bayes con los seis mejores servidores (MC-NB-6). • I nterval Estimation Naive-Bayes con los cinco mejores servidores (MC-IENB-5). • I nterval Estimation Naive-Bayes con los seis mejores servidores (MC-IENB-6). • P azzani-EDA con los seis mejores servidores (MC-Pazzani-EDA). Pazzani-EDA realiza una selección de variables, por lo que no tendría sentido ejecutarlo con los cinco m ejores servidores. Los cinco mejores servidores han sido: SSPro, SAM-T02, Prof, P HD Expert y PSIPRED. El sexto mejor servidor fue JPred. 7.6.5. Resultados Resultados experimentales Se han extraído las estadísticas de los nueves servidores Web de predicción de la estructura secundaria descritos en la sección 7.6.2, y de los cinco multiclasificadores descritos en l a sección 7.6.4. Las tablas 7.6.5 a 7.6.5 contienen las estadísticas para los conjuntos de d atos de proteínas seleccionados. Son nueve tablas en total, para los conjuntos: H S1771, C B513, R S126, EVAl, EVA2, EVAS, EVA4, EVAS y EVA6. L os resultados experimentales muestran que el servidor de predicción que mejores r esultados obtiene es el PSIPRED. Además, también se demuestra que es posible mejorar e stos resultados a través de los multiclcisificadores. 7.6, Multiclasificador basado en redes Bayesianas para PSSP 159 E n la tabla 7.3 se muestran las mejoras obtenidas por los multiclasificadores en los diferentes conjuntos de datos respecto al algoritmo PSIPRED, que ha demostrado ser el m ejor de los clasificadores. La mayor de las mejoras se ha conseguido con el clasificador M C-Pazzani-EDA que porcentualmente supera al método PSIPRED en 1,21 %. Sin embargo, y teniendo en cuenta que al máximo valor que se puede obtener se estima en un 8 8%, l a mejora de error relativa es de 13,30%. MC-Pazzani-EDA mejora los resultados de PSIPRED en todos los conjuntos de datos menos uno, el EVA6. En la figura 7.7 se p uede observar la estructura final obtenida por Pazzani-EDA para el conjunto de datos d el multiclasificador. Como se puede apreciar, los cuatro mejores servidores de predicción h an sido introducimos en un tínico grupo. Comparación de los resultados experimentales de los multiclasificadores Conjunto MC-NB-5 MC-NB-6 MC-IENB-5 MC-IENB-6 MC-Pazzani-EDA 0,82 0,84 1,02 1,10 1,35 HS1771 0,58 0,57 CBS 13 0,66 0 ,73 1,04 0,64 RS126 -0,62 -0,80 -0,46 -0,79 1,48 1,47 1,51 EVAl 1,51 2 ,03 1,52 2 ,11 1,50 1,53 EVA2 1,55 1,9 1,21 0,86 1,23 0,91 EVAS 1,79 1,12 0,75 0,79 EVA4 1,16 1,72 0,82 0,84 1,14 1,19 EVAS 0,09 EVA6 -0,09 - 0,06 0,10 - 1,70 M ejora media 0^83 0^68 0^88 0,70 1,2F T abla 7.3: Comparación de los resultados experimentales obtenidos con los multiclasificadores en relación con PSIPRED E l análisis que se realiza a continuación está basado en el conjunto de datos H S1771. L as mejoras se han obtenido, sobre todo, en la predicción de las /? láminas, ya que su p redicción ha pasado de un 69,18% en el PSIPRED a un 79,05% en MC-Pazzani-EDA (es importante recordar que la estructura (3 l aminar es la más complicada de predecir). E ste espectacular incremento conlleva un empeoramiento de la predicción de la estructura coil que pasa del 80,29 % al 76,76 % (aunque sus predicciones son de mejor calidad, ya que p asan de un 75,72% a un 80,94%). R especto al índice de información, todos los multiclasificadores son superiores al método PSIPRED. Los multiclasificadores presentan unos índices de información de 0,43 ó 0,44, m ientras que P S I P R E D tiene un índice de información de 0,41. E n los coeficientes de correlación de Matthews los multiclasificadores también son s uperiores, sea cual sea la estructura secundaria analizada. P or último, en las estadísticas por segmentos, se mejora en las hélices y en las /? láminas, pero se empeora en las coil. Conclusiones E s esta sección se ha propuesto la realización de un multiclasificador basado en redes B ayesianas, para la predicción de la estructura secundaria de las proteínas. P ara poder llegar a este objetivo se ha desarrollado una aplicación Web en JSP y clases 160 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional de Java, que ha cumplido con dos importantes objetivos: • Comparar los algoritmos de predicción actuales, extrayendo estadísticas sobre la exactitud de sus predicciones. • Obtener el conjunto de datos necesario para la realización del multiclasificador de predicción de estructura secundaria. Una vez recopilado el conjunto de datos para el multiclasificador, se experimentó con varios de los algoritmos de clasificación desarrollados a lo largo de la tesis. Los multiclasificadores han demostrado un excelente resultado, ya que se ha conseguido superar en un 1,21 % de media al mejor de los clasificadores actuales. Además, se ha logrado una mejora espectacular en la predicción de las /? láminas, la estructura más complicada de predecir. Líneas de trabajo futuro Todavía queda mucho trabajo a desarrollar basado en el multiclasificador...
View Full Document

Ask a homework question - tutors are online