A partir de dichas densidades e n lugar de a p artir

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: implemente de una muestra de ella. • E n general, no se conocen las distribuciones de los valores de la clasificación en dicha p oblación. E stas limitaciones obligan a considerar el problema práctico de la construcción de curvíis ROC, que se t r a t a a continuación, desde un punto de vista meramente estadístico. O.B . s e n s i b i i d a d 0,6 - 0,4 • 0.2 • t3 02 0.4 0.6 0,8 1-especificidad F igura 2.3: Ejemplo de curva ROC M é t o d o s de cálculo de las curvas R O C U n primer grupo de métodos para construir la curva ROC lo constituyen los llamados métodos no paramétricos. Se caracterissan por no hacer ninguna suposición sobre la 26 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional distribución de los resultados del clasificador. El más simple de estos métodos es el que s uele conocerse como empírico, que consiste simplemente en representar todos los pares (1 — especificidad, sensibilidad) p ara todos los posibles valores de corte que se puedan c onsiderar con la muestra particular de que se disponga. Desde un punto de vista técnico, e ste método sustituye las funciones de densidad teóricas por una estimación no paramétrica de ellas, es decir, la función de densidad empírica construida a partir de los datos. I nformalmente, es como si en la figura 2.3 se sustituyeran las funciones de densidad por h istogramas obtenidos a partir de las clasificaciones realizadas y se construyera la curva R OC a partir de ellos. L a representación gráfica obtenida por este método tiene una forma escalonada. E n efecto, para cada variación mínima del valor de corte que produzca cambios en la sensibilidad o en la especificidad, al menos un caso pasa a ser considerado bien como verdadero p ositivo, lo que se corresponde con un trazo vertical, bien como falso positivo, lo que da l ugar a un trazo horizontal. Existe aún otra posibilidad, derivada de que se produzcan empates, e s decir, dos o más casos con el mismo valor de la prueba: si el empate octirre entre u n caso del grupo demócrata y otro del grupo republicano aparecerá un trazo diagonal en l a representación. E xisten otros métodos no paramétricos [ZHS97] que permiten obtener curvas ROC s uavizadas, en contraposición con la forma dentada de la curva obtenida por el método e mpírico. La idea es básicamente obtener estimaciones no paramétricas suavizadas de las funciones de densidad de las dos distribuciones de resultados-de la cl3,sificación, empleando, g eneralmente, estimadores de tipo núcleo. A partir de dichas densidades - e n lugar de a p artir de los histogramas, como en el rnétodo anterior- se obtiene directamente una curva R OC que habrá sido suavizada. A nálisis e s t a d í s t i c o de las curvas R O C : área bajo la curva C omo se comentó en la anterior sección, la mayor exactitud diagnóstica de una prueba se traduce en un desplazamiento hacia arriba y a la izquierda de la curva ROC. Esto s ugiere que el área bajo la curva ROC se puede emplear como un índice conveniente de la exactitud global de la prueba: la exactitud máxima correspondería a un valor del área b ajo la curva de 1 y la mínima a un valor de 0.5. C uando la curva ROC se genera por el método empírico, independientemente de que h aya empates o no, el área puede aproximarse mediante la regla trapezoidal, es decir, como la suma de las áreas de todos los rectángulos y trapecios (correspondientes a los empates) q ue se forman bajo la curva. Capítulo 3 C lasificación supervisada con m odelos gráficos probabilísticos E n este capítulo se analiza el estado del arte de la clasificación supervisada con modelos gráficos probabilísticos. El índice del capítulo es el siguiente: • E n la sección 3.1 se realiza una introducción a las redes Bayesianas, el modelo gráfico p robabilístico que será utilizado a lo largo de toda la tesis. • E n la sección 3.2 se describe en profundidad el clasificador naiVe-Bayes, tanto con v ariables discretas como con variables continuas y se detalla cómo estimar sus pro- babifidades a priori utilizando la corrección de Laplace. • En la sección 3.3 se analizan diferentes métodos de discretización de variables continuas. • E n la sección 3.4 se describen diferentes formas de tratar los datos perdidos que puedan existir dentro del conjunto de datos. • En la sección 3.5 se enumeran, clasifican y describen los principales enfoques semi n aíve-Bayes. • E n la sección 3.6 se analizan los clasificadores del tipo naiVe-Bayes aumentado. • P or último, en la sección 3.7 se encuentra descrito el enfoque basado en el manto de M arkov de la variable a clasificar. 3 .1. R edes Bayesianas Utilizando un lenguaje coloquial, las redes Bayesianas (RRBB) son una representación gráfica para manejar incertidumbre en sistemas expertos. Dentro de este campo se tienen dos divisiones en cuanto a la forma de construir el sistema: el enfoque tradicional y el enfoque basado en el aprendizaje. En el enfoque tradicional, la determinación de la topología o e structura de la red y de los parámetros asocia...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online