En este caso si un d eterminado valor de un atributo

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: q ue P{I) es igual para todas las clases, se p uede restringir la regla anteriormente expuesta, quedando de la siguiente forma. P{C = Ci\Xi =Xi,...,Xn=Xn)o:P{C = Ci)P{Xi =Xi,...,Xn^ X „ | C = d) (3.14) d onde P(Xi = xi,... ,Xn = Xn\C = Ci) s upone la probabilidad de que ocurra la i nstancia / cuando la clase es Cj. Estas probabilidades se pueden estimar mediante las frecuencias del conjunto de entrenamiento. Sin embargo, esta expresión no es operacional, ya q ue el término P{Xi = xi,.. .,Xn = Xn\C = c¿) seráhabitualmente cero, debido al número de parámetros tan elevado —del orden de 2" para variables predictoras dicotómicas- que se debe estimar para cada valor de la variable C. P ara hacer operativa la expresión anterior se debe tener en cuenta la suposición de que los atributos que definen cada instancia s on independientes entre sí dada la clase del problema. De esta forma se puede utilizar la s iguiente expresión, n P{Xi = x i , . . . , X „ = a;„|C = c¿)= Y[P{Xk fc=l = Xk\C = a) (3.15) 3.2. Naíve-Bayes 39 d onde las probabilidades a priori y condicionales del valor de cada atributo Xk d ada la c lase Ci se estiman a través de las frecuencias del conjunto de entrenamiento. Utilizando la Ú ltima igualdad se calculará la probabilidad a posteriori de cada clase dada la instancia, c lasificándose la misma con la clase que computa la mayor de estas probabilidades. A p esar de su simplicidad y la asunción de la independencia entre las variables en la q ue se basa (la cual no es cierta para la mayoría de los problemas reales), ha demostrado su eficacia en numerosos problemas de muy distinta naturaleza [HTOl]. Dentro del campo de l a medicina se pueden citar varios ejemplos como los estudios de datos de lesiones cerebrales [ TMS+81], los clasificadores para la predicción del cáncer de mama recurrente [MPW97] o los estudios de las enfermedades del corazón [RKF83]. Fuera del ámbito de la medicina también se encuentran estudios que demuestran que es muy eficiente, a menudo mucho m ejor que otras alternativas. Dentro de estos estudios se pueden resaltar los siguientes [CKB87] [CN89] [Ces90] [LIT92] [PMB96] [FGG97] y [DP97]. E l clasificador naive-Bayes puede ser utilizado tanto con atributos discretos como con a tributos continuos. Sin embargo, se ha demostrado [DKS95] que la correcta discretización d e los valores de los atributos continuos puede llevar a una mejora significativa de su e xactitud. En la sección 3.2.2 se realiza una introducción a naíve-Bayes con atributos c ontinuos, mientras que en la sección 3.3 se examinan los distintos tipos de discretización q ue se pueden llevar a cabo antes de aplicar nai've-Bayes. O tro aspecto importante que se debe tener en cuenta es cómo tratar los valores ausentes {missing valúes) [KBS97], es decir, qué hacer cuando el valor de algún atributo de alguna d e las instancias del conjunto de entrenamiento es desconocido. En la sección 3.4 se detalla u n estudio realizado sobre este tema. U n último aspecto a tener en cuenta cuando se aplica naive-Bayes es la forma de e stimar las probabilidades condicionales del conjunto de entrenamiento [KBS97]. Este a specto es de especial relevancia cuando alguna de las estimaciones de las probabilidades c ondicionales vale cero, ya que esto supone que el producto de la ecuación 3.15 se hace c ero, d esvirtuando los resultados conseguidos. A continuación se analiza esta cuestión. 3 .2.1. E stimación de probabilidades a priori en el clasificador naiveBayes E n el clasificador naíve-Bayes, la estimación de las probabilidades de la clase y de l as probabihdades condicionadas se basa en contar su frecuencia. En este caso, si un d eterminado valor de un atributo X = a no a parece junto a una etiqueta de clase Ci, l a p robabilidad condicionada estimada será cero, P{X = a\C = Ci) — O, eliminando la clase Ci d e toda consideración. Para solucionar el problema de que sólo un valor controle los r esultados obtenidos hay dos posibles enfoques [KBS97]: • E l enfoque de no coincidencia (no-match). C onsiste en reemplazar una probabilidad condicionada cero por P{X = a,C = c,) con un factor que es inversamente p roporcional al número de casos N. D entro de esta variante existen diferentes soluciones, dependiendo del numerador utilizado. De esta forma, algunos autores utilizan P[C = Ci)/N [CN89, DP96] o en las bibhotecas MLC++ [ KJL+94] se usa por defecto 40 Clasificación Supervisada Basada en R R B B . Aplicación en Biología Computacional • E l enfoque de Laplace. Dado un valor predefinido / , si hay s c oincidencias de N p osibles casos para un problema con k v alores, la probabilidad estimada será (s + f)/{N + kf). A sí por ejemplo, si en un problema con dos clases se usa / = 1, se o btiene la famosa regla de sucesión de Laplace [Goo65] (s + 1)/{N + 2) E n la tabla 3.2.1 se muestran los resultados experimentales obtenidos [KBS97] con e stos enfoques. Com.o se puede apreciar, contar la frecuencia es la peor de las soluciones y la ley de sucesión de Laplace la segunda peor. El método no-matches con P(C = Ci)/N e stá por el medio de...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online