Aplicacin en biologa computacional ben02 e bengoetxea

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: p or F riedman y col. [FG96], q ue e stán basadas e n la c antidad d e i nformación mutua entre l as v ariables p redictoras. Los resultados obtenidos muestran q ue a mbos algoritmos desarrollados s on muy s uperiores al e nfoque d e P riedman y col. Esta vez, l a c omplejidad d e las e structuras encontradas y los v alores d el t anto p or c iento d e b ien clasificados obtenidos, hacen q ue la r ecomendación se d ecante p or B AN-voraz. BAN-voraz obtiene u na m ejora media d e 5,80% r especto a naiVe Bayes. E n relación a los clasificadores TAN, s e han p resentado d os a lgoritmos para l a b úsqueda d e estas estructuras. E l p rimer algoritmo, denominado TAN-voraz, está basado e n una b úsqueda voraz, mientras q ue el s egundo, denominado TAN-EDA, está basado e n una b úsqueda heurística c on E DAs. Ambos algoritmos h an s ido comparados c on las b úsquedas r ealizadas p or F riedman. L os resultados obtenidos muestran q ue a mbos algoritmos desarrollados s on muy s uperiores al e nfoque d e F riedman. TAN-voraz presenta u na m edia d e 5,74% r especto a nai've B ayes, mientras q ue T AN-EDA sólo eleva esta mejora a 6 ,09%. P or último, se ha d esarrollado el a lgoritmo MB-EDA, para l a b úsqueda heurística d e clasificadores tipo M B. Los r esultados obtenidos también h an s ido m uy b uenos, y a que se consigue mejorar sustancialmente los r esultados d el clasificador na'íve-Bayes a l a vez q ue s e m antiene u na b uena simplicidad e n las e structuras encontradas. L a m ejora media o btenida p or el a lgoritmo MB-EDA es de 5 ,80%. 8 .1.3. M odelización m a t e m á t i c a d e las p roteínas y d el p roblema P S S P P or primera vez en e ste campo, se ha r ealizado u na m odelización matemática d e las p roteínas y d el p roblema d e la p redicción d e la e structura secundaria. E sta modelización matemática puede resultar d e g ran utilidad, y a que p ermite acercar el campo d e la p roteómica y d e la p redicción d e la e structura secundaria a los científicos d e l a c omunidad d el a prendizaje automático. 8 .1.4. Desarrollo d e u n c lasificador para l a p redicción d e la e structura s ecundaria d e las p roteínas c on r edes Bayesianas E l problema d e la p redicción d e la e structura secundaria d e las p roteínas (PSSP) y a h abía sido abordado desde diversos enfoques metodológicos, muchos d e ellos pertenecientes a l mundo d el a prendizaje automático. S in e mbargo, nunca s e h abía intentado solucionar este problema con el uso de redes Bayesianas. L a principal dificultad e n e ste desarrollo [RLPP02, RPH'''03] h a s ido l a de i ntroducir l a información evolutiva d e las p roteínas e n las r edes Bayesianas. Esta información es de v ital importancia e n t odos los m étodos d e p redicción actuales. 176 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional Se han creado dos posibles adaptaciones de naiVe-Bayes e lENB para la incorporación de la información evolutiva. Una de las adaptaciones no ha sido exitosa, mientras que la o tra ha presentado buenos resultados. En cuanto a los resultados obtenidos, los mejores métodos de predicción actuales llegan aproximadamente a un 80 % de bien clasificados, mientras que con las redes Bayesianas se ha obtenido un 7 1,21%. Sin embargo, todavía quedan por desarrollar varias extensiones que pueden mejorar estos resultados. Pensamos que sería factible alcanzar un valor de 76-78% de bien clasificados con las redes Bayesianas. 8 .1.5. Multiclasificador basado e n redes BayesianEus para el problema PSSP Se ha propuesto un multiclasificador -un clasificador de clasificadores- basado en redes Bayesianas, para la predicción de la estructura secundaria de las proteínas [RLP+03c]. Este multiclasificador está basado en el conocido paradigma stacked generalization [Wol92]. P ara poder llegar a este objetivo se ha desarrollado una apHcación Web en JSP y clases de Java, que ha cumplido con dos importantes objetivos: • Poder comparar los algoritmos de predicción actuales, extrayendo estadísticas sobre la exactitud de sus predicciones. • Obtener el conjunto de datos necesario para la realización del multiclasificador de predicción de estructura secundaria. Una vez recopilado el conjunto de datos para el multiclasiñcador, se experimentó con varios de los algoritmos de clasificación desarrollados a lo largo de la tesis. Los multiclasificadores desarrollados han demostrado un excelente resultado, ya que se h a conseguido superar hasta en un 1,21 % de media al mejor de los clasificadores actuales. Consideramos que los resultados que hemos obtenido en esta propuesta proporcionan un gran avance dentro de este campo. 8.2. Líneas de trabajo futuro La gran cantidad de desarrollos realizados en la presente tesis han permitido dejar muchos campos abiertos para futuras investigaciones. A continuación se detallan los principales. 8 .2.1. L íneas abiertas en l E N B lENB es un algoritmo de nueva creaci...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online