En esta tesis se ha escogido la exactitud porque es

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: 7], ya que es posible utilizar las factorizaciones de p robabilidad representadas por las mismas para realizar clasificadores. Para ello se debe c onsiderar la existencia de una variable especial, la variable a clasificar, que tiene que ser p redicha por el resto de las variables. De esta forma, la estructura de red obtenida se puede u tilizar en la predicción del valor de la clase de la variable especial, mediante la asignación d e valores a las variables predictoras y el cálculo de la probabilidad a posteriori del nodo a sociado a dicha variable. P ara realizar esta labor es fundamental que la estructura de red utilizada sea aprendida con objetivos clasificatorios, esto es, que se haya tenido en cuenta en el proceso de a prendizaje estructural el hecho de que existe una variable cuya probabilidad a posteriori es primordial en el manejo de la red Bayesiana obtenida. L as redes Bayesianas como clasificadores supervisados son parte central de esta tesis. E l estado del arte relativo a este campo será revisado en el capítulo 3. P or último, es importante destacar que el paradigma náíve-Bayes es un caso particular d e red Bayesiana. 2 .3. Validación E stimar la exactitud {accuracy) d e un clasificador inducido por un algoritmo de aprendizaje automático, es decir, validar un clasificador, es importante no sólo para predecir su f uturo comportamiento, sino también para poder escoger un clasificador ( selección de m odelo) [Sch83] dentro de un conjunto de posibilidades, o para combinar clasificadores [Wol92] [Bre94]. Para estimar la exactitud final de un clasificador, lo deseable es tener un m étodo con poca varianza. C omo ya se comentó, la e x a c t i t u d d e un clasificador es la probabilidad con la que d icho clasificador clasifica correctamente una instancia seleccionada al azar. Algunos investigadores, sobre todo en la comunidad estadística, usan r atios de error ( uno menos la e xactitud) en lugar de la exactitud. En esta tesis se ha escogido la exactitud porque es la m edida más usual en la comunidad del aprendizaje automático. Sin embargo, se utilizarán r atios de error cuando las ventajas sean claras. A demás se utilizará la r educción relativa del error e ntre un algoritmo A y un a lgoritmo B con mayor exactitud definida como {error{A) — error{B)/error{A)) = {exactitud{B) — exactitud{A))/[1 — exactitud{A)). P or ejemplo, si el algoritmo A t iene una e xactitud del 98 % y el algoritmo B p resenta una exactitud del 99 %, la reducción relativa del error será del 50 %. Aunque esta medida es a veces más apropiada que la diferencia a bsoluta de las exactitudes, mejorar del 80 % al 82 % puede ser más complicado que mejorar del 96 % al 98 % porque en el primer caso, la mejor predicción posible sea 82 % mientras q ue en el segundo puede ser del 100 %. Todos los conjuntos de datos artificiales usados en e sta tesis son conceptos determinísticos, por lo que es posible llegar al 100 % de predicción. 20 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional P ara los conjuntos de datos reales, el valor de la exactitud más alta no es conocido, pero probablemente no sea 100 % en la mayor parte de los dominios. El poder com.putacional ha crecido hasta un punto en que los métodos de computación intensivos para estimar la exactitud son utilizados más a menudo y en conjuntos de datos más grandes. En los restantes apartados de esta sección se tratarán los siguientes aspectos: • Las matrices de confusión, que permiten ver mediante una tabla la distribución de los errores cometidos. • Los métodos estándares de validación, que permiten obtener la exactitud de los clasificadores. • Las curvas ROC {Receiver Operation Characteristic), un procedimiento que permite evaluar la calidad de los clasificadores. 2 .3.1. M atriz de confusión Una matriz de confusión permite ver mediante una tabla de contingencia, la distribución de los errores cometidos por un clasificador a lo largo de las distintas categorías del problema. En dicha matriz se cruza la clase predicha por el clasificador con la clase real. Real Clase 0 Clase 1 C lasificado c o m o Clase 1 Clase 0 a b C "d Po Pi TTO TTi N Tabla 2.2: Matriz de confusión genérica para dos clases Una matriz de confusión, para el caso de dos clases, tiene la forma que se puede apreciar en la tabla 2.2. En la misma se tiene: • T o denota la probabilidad a priori de la clase 0. T • T i denota la probabilidad a priori de la clase 1; TTI = 1 — TTO. T • Po denota la proporción de casos que el clasificador predice con la clase 0. • pi denota la proporción de casos que el clasificador predice con la clase l;pi = l -po• Número de casos total N = a + b + c + d. De una matriz de confusión también se pueden extraer los siguientes conceptos, enriquecedores a la hora de comprender la distribución y naturaleza de los errores cometidos por el clasificador: • Sensibilidad Se = a/{a + c) proporción de verdaderos positivos. • Especificidad Es = d/{b + d) proporción de verdaderos negativos. 2 .3. V alidación 21 " P roporción de falsos positivos c/{a + c ). • P roporción de falsos negativos b/{b +...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online