L a tcnica de estimacin por intervalos consiste en

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: iento de bien clasificados. Estos valores serán las nuevas y mejoradas probabilidades que se usarán en naiVe-Bayes. P ara llevar a cabo esta búsqueda se está utilizando un enfoque de tipo wrapper [Koh95], y a que el algoritmo de inducción se considera como una caja negra que se utiliza para e valuar cada posible candidato. E ste algoritmo, que se detalla a continuación, ha sido denominado Interval naive-Bayes ( lENB) [RLP+03b, RLP+03a, RLM+03]. E l resto de la sección tiene el siguiente contenido: Estimation • A c ontinuación, se realiza una introducción a la inferencia estadística, explicando los m étodos de estimación puntual y de estimación por intervalo. • E n segundo lugar, se justificará la estimación puntual de los parámetros en el clasificador naive-Bayes y cómo se deben realizar las estimaciones por intervalo de estos m ismos parámetros. • E n el siguiente apartado se describe en profundidad el algoritmo desarrollado, lENB. • P or último, se presentan los resultados experimentales sobre los 21 conjuntos de d atos de UCI seleccionados y se presentan las conclusiones y las líneas de trabajo f uturo. 5 .3.2. Estimación por intervalos La inferencia estadística es la parte de la estadística que estudia grandes colectivos a p artir de una muestra de estos, siendo la muestra la parte de la población en la que se a poya para realizar el análisis. L os dos problemas fundamentales que estudia la inferencia estadística son el "problema d e la estimación" y el "problema del constraste de hipótesis". Esta sección se centra única 70 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional y exclusivamente en los problemas de estimación. L a estimación de un paránaetro involucra el uso de los datos muéstrales en conjunción c on alguna estadística. Existen dos formas de llevar a cabo lo anterior: estimación puntual y estimación por intervalo. En la primera se busca un estimador, que, con base en los datos m uéstrales, dé origen a una estimación del valor del parámetro, y que recibe el nombre d e estimador puntual. Para la segunda, se determina un intervalo en el que, en forma p robable, se encuentra el valor del parámetro. Este intervalo recibe el nombre de intervalo d e confianza estimado. Se denomina e s t i m a d o r de u n p a r á m e t r o d, a c ualquier variable aleatoria 9*{Xi,..., Xn) q ue se expresa en función de una muestra aleatoria simple de tamaño n , Xi,..., Xn, y q ue tiene por objetivo aproximar el valor de 6. E s importante observar que el estimador n o es u n valor c o n c r e t o s ino una variable a leatoria, ya que aunque depende unívocamente de los valores de la muestra observados, l a elección de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida, se denomina e s t i m a c i ó n al valor numérico que toma el estimador en esa muestra. L as características deseables para esta nueva variable aleatoria (que se usará para e stimar el parámetro desconocido) deben ser: • C onsistencia: C uando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al parámetro desconocido. • C arencia de sesgo: E l valor medio que se obtiene de la estimación para diferentes m uestras debe ser el valor del parámetro. • E ficiencia: Se busca que la dispersión del estimador con respecto al valor central, es decir, la varianza, sea tan pequeña como sea posible. • S uficiencia: E l estimador debería aprovechar toda la información existente en la m uestra. M é t o d o s de e s t i m a c i ó n puntuad E l objetivo de la estimación puntual es emplear una muestra para calcular un número que represente, en algún sentido, una buena presunción para el verdadero valor del p arámetro. El número resultante se llama estimación puntual. L os métodos de estimación puntual estudian cómo obtener estimadores que, de forma g eneral, tengan buenas propiedades. Específicamente se consideran los métodos de máxima verosimilitud y el de los momentos. A continuación se introduce únicamente el método de m áxima verosimilitud, ya que es el utilizado por los clasificadores supervisados basados en r edes Bayesianas. E s t i m a c i ó n por m á x i m a verosimilitud S ea X u na variable aleatoria con función de probabilidad f{x;e) (5.1) 5 .3. Interval Estimation naive-Bayes - l ENB 71 U na muestra aleatoria simple de tamaño n, Xi, X2^..., p robabilidad conjunta -X"^, t iene por distribución de V{e) = f{xux2,...,xn;0) (5.2) E sta función que depende de n + 1 parámetros puede ser considerada, fijando los xi,... ,Xn c omo consecuencia de los resultados de elegir una muestra mediante un experimento aleatorio, únicamente función de 0. A esta función de d se le denomina función de v erosimilitud asociada a la muestra. Se puede plantear el que, dada una muestra sobre la que se han observado los valores xi,... ,Xn, u na estimación del parámetro es aquella que maximiza la función de verosimilitud. C omo e...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online