3 interval estimation naive bayes l enb 77 e stimados

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: es para el cálculo, siendo más cómodo sustituirla por la siguiente expresión, la cual proporciona una aproximación de la anterior. ^~^ / -'?^7V(0,1) (5.15) M P ara encontrar un intervalo de confianza para p al nivel de significación 1 — a se c onsidera el intervalo que hace que l a d istribución de .Z -^ ^''(0,1) deje la probabilidad a fuera del mismo. Esto puede hacerse de infinitas maneras, siendo el intervalo con nivel d e significación 1 — a d e menor longitud, aquel cuyos extremos son los cuantiles a / 2 y 1 — a /2. Así, se puede afirmar con una confianza 1 — a que, \Z\ < z^ (5.16) 74 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional es decir, \P-P\ < Za (5.17) PO~-'P) M y p or tanto, IP-Pl-Í^J'^ ("8) q ue se resume en, d onde Za es el (1 — ^ ) percentil de la J\Í{0,1) 5 .3.4. Algoritmo E n la figura 5.3 se encuentra una comparación entre naíve-Bayes e Interval naive-Bayes. Estimation E l algoritmo de inducción nai've-Bayes se basa en la estimación puntual de determinados parámetros del conjunto de datos. En la sección 5.3.3 se encuentra la demostración f ormal de la obtención de estos parámetros. En contraposición a esta aproximación, el a lgoritmo lENB se basa en la estimación de intervalos de confianza (véase la sección 5.3.3) de los parámetros necesarios. T al y como se puede observar en la figura 5.3, en el algoritmo lENB, una vez obtenidos los intervalos, y seleccionando al azar un valor dentro de cada uno de ellos, es p osible generar tantas combinaciones de probabilidades como se desee. Estas combinaciones de probabilidades, bajo unas determinadas condiciones, representan clasificadores nai've-Bayes válidos. E l último paso que queda por realizax es la búsqueda de la mejor de las combinaciones d e probabilidades, es decir, la búsqueda del mejor clasificador naive-Bayes. Para realizar e sta búsqueda se utilizarán algoritmos heurísticos de optimización. En el caso de esta tesis los algoritmos utilizados son los EDAs. E l objetivo que se busca con este algoritmo es doble: • Se está realizando una búsqueda de la mejor combinación de probabilidades posible. E n esta búsqueda se están teniendo en cuenta todas las probabilidades de forma g lobal, por lo que se está relajando la presunción de independencia de las variables p redictoras que impone naíve-Bayes. • A l relajar la independencia de las variables predictoras y ajustar mejor las probabilidades estimadas, se mejora la exactitud del naíve-Bayes. E stas ventajas conllevan también un inconveniente que se debe mencionar, ya que el t iempo de aprendizaje aumenta considerablemente debido a la realización de la búsqueda 5 .3. Interval Estimation naive-Bayes - l ENB 75 h eurística. En las situaciones en las que lo más importante sea el tiempo de aprendizaje, e ste algoritmo será de difícil utilización, y viceversa, en las situaciones en las que lo i mportante sea la exactitud, este algoritmo es ideal debido a los buenos resultados que p resenta. Sin embargo, la paralelización del algoritmo, tal y como se verá en la sección 5.4, lleva a u na disminución considerable del tiempo requerido para su ejecución. T al y como se puede observar en la figura 5.3 hay tres aspectos principales a tener en c uenta en el algoritmo lENB: cálculo de los intervalos de confianza, definición del espacio d e búsqueda y búsqueda heurística del mejor individuo. A continuación se describe cada u no de estos aspectos. C álculo de los intervalos de confianza D ado el conjunto de datos, el primer paso a realizar consiste en calcular los intervalos de confianza de cada probabilidad condicional y de las probabilidades de los valores de l a clase. Para realizar el cálculo de estos intervalos se deben calcular previamente las e stimaciones puntuales de estos mismos parámetros (véase la sección 5.3.3). D e esta forma, cada probabilidad condicional, obtenida del conjunto de datos p\^ = P{Xk = x\;\C = c¿), debe ser estimada con el correspondiente intervalo de confianza, tal y c omo se demostró en la sección 5.3.3. La contribución de este algoritmo se fundamenta e n este cálculo. Para k = 1,... ,n;i = 1 , . . . ,ro;r- = 1 , . . . ,rfc Pk,r-Za'\¡ j;^^ '—,PI^^ + Z^\Í —^ 1 (5.20) d enota las estimaciones por intervalo de las probabilidades condicionadas p^. ^, donde, r s on los posibles valores de la variable Xk, i s on los posibles valores de la clase, p\ ^ es la estimación puntual de las probabilidades condicionales P[Xk = x^|C7 = Cj), Za es el (1 — ^ ) percentil en la 7\/'(0,l). A demás, de forma similar, las probabilidades para los valores de la variable clase p¿ = P{C = Ci) d eben ser estimadas con el siguiente intervalo de confianza. Pi-Zo,\¡-^—^ ;Pi + Zay — d onde, p] es la estimación puntual de la probabilidad P{C = Ci), Za es el (1 - f ) percentil en la A/'(0,1), N es el número de instancias en el conjunto de datos. ) (5.21) 76 Clasificación Supervisada Basada en RRBB. Aplicación e n B iología Co...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online