T omando como base una clasificacin previa wp98 y

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: a través de resultados experimentales [DKS95] sobre los algoritmos C 4.5 y naiVe-Bayes, que el método de discretización que mejores resultados presenta es el d escrito en [Tin94], una variante global del método de discretización local presentado en [FI93]. E ste método supervisado utiliza una heurística recursiva de minimización de la entropía a sociada a un criterio que controla el número de intervalos producidos. L a siguiente notación es la utilizada por Fayyad e Irani para su método de discretización s upervisado. Si se tiene un conjunto de instancias S", un atributo X y u na partición T, que d ivide a 5 en 5i y 52, la entropía de la clase de la información inducida por T y l lamada E{X, T ; S) v iene dada por, E{XJ- S) = ^-^EntiSi) + ^ E n í ( 5 2 ) d onde Ent{S\) y Ent{S2) juntos de instancias Sij S2- (3.18) d enotan respectivamente la entropía de X e n los subcon- Para un atributo dado X se selecciona la partición Train q ue minimize la función de e ntropía sobre todas las posibles particiones como una discretización binaria. Este método es aplicado recursivamente a las particiones inducidas por T^^^^ hasta que se llega a una c ondición de parada, creando de esta forma los múltiples intervalos del atributo X. P ara determinar la condición de parada se hizo uso del principio de mínima distancia d e descripción {Mínimum Description Lenght Principie) [Ris86]. La partición recursiva de u n conjunto de valores S se acaba cuando: rr.,r,(Y T cí^ ^ 1092ÍN-1) Gam{X, T; S) < ^ + AiX,T;S) — (3.19) d onde N es el número de instancias en el conjunto S, s iendo Gain{X, T; S) = Ent{S) A{X, T- S) = log2{t -2)-N- Ent{S) - E{X, T; S) - ki • Ent{Si) - ^2 • Ent{S2) (3.20) (3.21) c on ki el número de etiquetas de clase representadas en el conjunto de datos Si. C omo l as particiones de cada rama de la discretización recursiva se evalúan de forma independiente usando este criterio, algunas áreas del espacio continuo se particionarán de manera m uy fina, mientras que otras, que tienen la entropía relativamente baja, se particionarán m enos. En esta descripción no se ha mostrado cómo se derivan estas fórmiulas, refiriendo al lector al artículo original para más detalles. 3.4. Tratamiento de los valores ausentes 3.4. 43 Tratamiento de los valores ausentes Ya sea por la naturaleza de los datos o por la discretización realizada sobre los mismos, es posible que en el conjunto de datos aparezcan valores ausentes. E xisten diferentes formas de tratar los valores ausentes: • C onsiderar los valores ausentes como un nuevo valor del atributo en el que aparecen [ DP96]. • I gnorarlos, no incluyendo estos términos en el algoritmo de aprendizaje. • E liminar las instancias que contienen valores ausentes. • E liminar un atributo completo en caso de que éste presente valores ausentesExisten otros enfoques más novedosos como el que se presenta en el algoritmo Robust Bayesian Classifier (RBC) [RSOl]. Este algoritmo es una extensión de naíve-Bayes en la q ue se tienen en cuenta todas las posibles complexiones de los valores ausentes, obteniendo, a p artir de dichas complexiones, intervalos para cada una de las probabilidades a priori y c ondicionadas. S egún un estudio realizado sobre 37 conjuntos de datos del repositorio de UCI [KBS97], el error medio considerando los valores ausentes como un nuevo valor fue de 20,30% e i gnorando estos valores fue de 20,20%. Además, en la mayor parte de los conjuntos de d atos el tratamiento que se dio a los valores ausentes no fue significativo. D e esta forma Kohavi, Becker y Sommerfield [KBS97] concluyeron en su artículo que p rácticamente en todos los casos es mejor ignorar los valores ausentes. Esta ha sido, por t anto, l a filosofía que se ha utilizado a lo largo de toda la tesis. 3.5. E nfoques semi naive-Bayes E xisten múltiples enfoques del clasificador naíve-Bayes que consiguen mejorar su exactitud. Estos enfoques son conocidos con el término genérico de variantes s e m i naíveBayes. T omando como base una clasificación previa [WP98] y extendiéndola, se puede considerar que los clasificadores semi nai've-Bayes son divisibles en varios grupos dependiendo d e las actividades pre/post-proceso que realicen: • E nfoques que procesan las variables a ser empleadas antes de aplicar nai've-Bayes. • E nfoques que corrigen las probabilidades producidas por naíve-Bayes. • E nfoques que seleccionan subconjuntos de instancias antes de la aplicación de naíveBayes. A c ontinuación se describen más en profundidad cada una de estas variantes. 44 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional 3.5.1. Enfoques que tratan las variables a ser empleadas antes de aplicar naive-Bayes E n este apartado se analizan las variantes semi naive-Bayes que manipulan las variables p redictoras antes de aplicar naive-Bayes. E l principal grupo de trabajos que se pueden considerar dentro de este apartado son t odos los relacionados con la...
View Full Document

Ask a homework question - tutors are online