Dentro de este campo queda mucho trabajo por

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: • E n la sección 8.1 se detallan las aportaciones realizadas en la presente tesis. • E n la sección 8.2 se detallan las líneas de trabajo futuro, que permiten extender las m etas logradas. 8 .1. A portaciones E n la presente tesis se ha realizado una importante apuesta, que ha resultado muy acertada, por el uso de los algoritmos heurísticos de optimización EDA en el campo de la clasificación supervisada. A continuación se detallan las aportaciones realizadas. 8.1.1. Realización y paralelización de un nuevo algoritmo de clasificación semi naiVe-Bayes Se ha propuesto un nuevo algoritmo serai naiVe-Bayes denominado Interval Estimation nawe-Bayes ( lENB) [RLP+03b, RLP+03a, RLM+03]. Este algoritmo se puede encuadrar d entro de las variantes semi naíve-Bayes que corrigen las probabilidades producidas por d icho clasificador. E n lENB, en lugar de estimar probabiHdades puntuales de los datos, tal y como se h ace en naive-Bayes, se realizan estimaciones por intervalo. A continuación, a través de a lgoritmos de optimización heurísticos, se consigue la combinación de valores, cada uno de ellos dentro de los intervalos correspondientes, que maximiza el tanto por ciento de bien c lasificados. Los resultados obtenidos son datos excelentes, tanto si se comparan con naíve-Bayes, c omo si se comparan con otros enfoques semi naíve-Bayes similares como Iterative Bayes. T eniendo en cuenta los 21 conjuntos de datos utilizados, se ha conseguido mejorar al naíve 174 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional Bayes en un 4,61 % de media. E n la fase experimental se ha demostrado que el algoritmo lENB puede llegar a ser m uy costoso desde el punto de vista computacional, debido a la búsqueda heurística que r ealiza. P ara paliar ese coste computacional se realizó una paralelización del algoritmo basada e n islas [RPP'''03], en donde cada isla contiene una población diferente y, cada cierto tiempo y con un esquema de migración predeterminado, las islas se intercambian los mejores i ndividuos entre sí. Este modelo de paralelización por islas ya fue utilizado con éxito en los algoritmos genéticos paralelos. Los resultados obtenidos en la paralelización han sido sorprendentemente excelentes, ya que comparativamente se obtienen mejores resultados que con la versión secuencial y, a demás, se obtiene un speedup s uperlineal. 8 .1.2. Aprendizaje de clasificadores e n el espacio de estructuras L as variantes semi nai've-Bayes están normalmente basadas en la realización de búsquedas de determinadas estructuras o determinados valores. Estas búsquedas se suelen r ealizar a través de algoritmos de búsqueda voraz (greedy). E n esta tesis se ha propuesto el uso de los algoritmos de optimización EDA, como h erramienta para la realización de las búsquedas de estructuras semi naive-Bayes: • Se ha propuesto una extensión del algoritmo APNBC, denominada APNBC-EDA [RLP+OSd], que realiza la búsqueda de los valores de ajuste de las probabilidades de las clases por medio de los algoritmos heurísticos EDAs. L os resultados obtenidos son muy satisfactorios, ya que se ha conseguido mejorar en g ran medida los resultados de APNBC. Sobre los 21 conjuntos de datos utilizados, A PNBC-EDA consigue mejorar un 2,46%. • T ambién se ha presentado una extensión a los algoritmos heurísticos FSSJ y BSEJ de Pazzani, que permite realizar la búsqueda del mejor producto cartesiano entre v ariables con los algoritmos heurísticos de optimización EDA [RLP''"03d]. L os resultados obtenidos por Pazzani-EDA son muy buenos. Por un lado se ha conseguido mejorar los resultados de los algoritmos FSSJ y BSEJ de Pazzani. Por otra p arte, las estructuras encontradas por Pazzani-EDA son más sencillas que las encontradas por los algoritmos voraces FSSJ y BSEJ. Respecto a naíve Bayes, el algoritmo F SSJ consigue una mejora media de 1,25 %, el algoritmo BSEJ de 3,61 % y el algoritmo EDA de 5,51 %. P or otra parte, como se vio en el capítulo 3, existen varias estructuras de red Bayesiana q ue pueden ser utilizadas para realizar clasificación supervisada: TAN, BAN y MB. En t odas estas estructuras se ha tenido en cuenta el hecho de que existe una variable especial, l a variable a clasificar. F rente a los métodos de búsqueda propuestos actualmente en la literatura, que se basan en la cantidad de información mutua entre las variables predictoras, en esta tesis se ha 8 .1. A portaciones 175 p ropuesto el d esarrollo d e a lgoritmos voraces y h eurísticos guiados p or el t anto p or c iento d e bien clasificados para l a b úsqueda d e e structuras T AN, BAN y MB. Se h an p resentado d os a lgoritmos para l a b úsqueda d e e structuras tipo BAN. E l p rimer a lgoritmo, denominado BAN-voraz, está basado e n una b úsqueda voraz, mientras q ue el s egundo, denominado BAN-EDA, está basado e n una b úsqueda heurística c on E DAs. A mbos algoritmos h an s ido comparados c on las b úsquedas realizadas...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online