Tambin se ha utilizado el test no paramtrico de mann

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: rmación mutua entre las v ariables predictoras. 100 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional C onclusiones E n esta sección se han presentado dos algoritmos para la búsqueda de estructuras t ipo BAN. El primer algoritmo, denominado BAN-voraz, está basado en una búsqueda v oraz, mientras que el segundo, denominado BAN-EDA, está basado en una búsqueda h eurística con EDAs. Ambos algoritmos han sido comparados con las búsquedas realizadas p or Friedman, que están basadas en la cantidad de información mutua entre las variables p redictoras. L os resultados obtenidos muestran que ambos algoritmos desarrollados son muy superiores al enfoque de Priedman. Sin embargo, esta vez, la complejidad de las estructuras e ncontradas y los valores del tanto por ciento de bien clasificados obtenidos, hacen que la r ecomendación se decante por BAN-voraz. L íneas de trabajo futuro E n esta ocasión el algoritmo recomendado ha sido el basado en la búsqueda voraz, s obre todo por la enorme complejidad de las estructuras encontradas por los algoritmos E DAs. S ería posible realizar búsquedas heurísticas en las que se penalizara la complejidad de l a estructura encontrada. De esta forma, a lo mejor sería posible encontrar estructuras que m ejoren los resultados de BAN-voraz, a la vez que mantienen su simplicidad estructural. 5.8. 5.8.1. Búsqueda de clasificadores TAN Propuesta L a estructura Augmented naive-Bayes ( BAN) es un buen intento de buscar las correlaciones que se pueden dar entre los parámetros de un conjunto de datos. Sin embargo, p resenta un problema, y es que el espacio de búsqueda de estructuras válidas es tan grande, q ue resulta muy costoso encontrar buenos clasificadores. Ante este problema, Priedman [FGG97] propone acotar las posibles correlaciones que se pueden dar entre las variables, y d e este modo disminuir el espacio de búsqueda. El método resultante, llamado estructiu-a Tree Augmented Naive-Bayes ( TAN), aproxima las interacciones entre los atributos u sando una estructura de árbol impuesta sobre la estructura naive-Bayes. Para encontrar l a estructura TAN, Friedman propone un algoritmo basado en la cantidad de información m utua condicionada a la variable clase. F rente al enfoque de Priedman, en esta sección se proponen dos nuevos algoritmos: T AN-voraz, basado en una búsqueda voraz y TAN-EDA, basado en una búsqueda con a lgoritmos EDA. Ambos algoritmos están guiados por el tanto por ciento de bien clasificados. A c ontinuación se define el formato necesario para los individuos en la búsqueda, se d etallan los algoritmos voraz y heurístico, y se finaliza con los resultados obtenidos. 5.8.2. Formato d e los individuos L a estructura TAN se define mediante dos condiciones [KP99]: 5 .8. Búsqueda de clasificadores TAN 101 C ada variable predictora tiene como padre la variable a clasificar. L as variables predictoras pueden tener como máximo a una y sólo una variable p redictora como padre. Al igual que en el caso de Augmented Naive-Bayes, l a representación de un individuo Tree Augmented Naive-Bayes se realiza mediante una matriz cuadrada de rango el número de variables predictoras, con unos indicando las correlaciones que se dan entre ellas. A demás, no se muestra la relación de parentesco entre la variable clase y el resto, dado q ue siempre existe (se parte de la estructura naiVe-Bayes). En la figura 5.15 se muestra u n ejemplo de esta representación. X, 0 0 X2 X3 X4 X, X-z 1 0 0 1 0 1 X3 0 X4 0 0 0 0 0 0 0 F igura 5.15: Representación de los individuos TAN T al y como se puede observar, la segunda condición que se impone a una red TAN -que u na variable predictora sólo pueda tener a otra variable predictora como padre-, significa q ue en cada columna puede haber como máximo un uno. 5 .8.3. A lgoritmo TAN-voraz E l algoritmo es totalmente análogo a BAN-voraz, salvo que, a la hora de comprobar q ue el individuo es correcto, se debe comprobar también la condición de un único padre p or cada variable predictora. D e este modo, es posible aprovechar el trabajo ya realizado, y concluir con la idea de q ue para comprobar si un individuo verifica las condiciones TAN, basta con comprobar q ue es una estructura BAN válida, y luego, comprobar que no hay más de un uno por c olumna en su matriz. 5 .8.4. Algoritmo T A N - E D A P ara el algoritmo heurístico, aquellos individuos que no sean válidos se deben corregir. En el caso de estructuras TAN, la corrección de los individuos es muy sencilla, y aprovecha el trabajo realizado con las estructuras BAN. Una vez que un individuo ha sido generado e n la fase de búsqueda, se corrige hasta que sea una estructura BAN válida, y luego, de f orma aleatoria, se deja un único uno en cada columna. En la figura 5.16 se muestra el p seudocódigo del algoritmo utilizado. 102 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional C orregir individuo hasta que sea BAN P ara cada columna Si...
View Full Document

Ask a homework question - tutors are online