H oldout y r emuestreo el mtodo holdout particiona

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: d). O tros dos conceptos importantes en la validación son: • Ratio de error verdadero: es la probabilidad de que un modelo construido clasifique i ncorrectamente nuevos casos no utilizados en su construcción. El objetivo de la validación es realizar una estimación, lo más realista posible, de dicho ratio de error v erdadero. • Ratio de error aparente: es el ratio de error obtenido por el clasificador a la hora de clasificar las instancias utilizadas en su construcción. Este ratio es demasiado optimista respecto a la realidad (o tasa de error verdadera), ya que las instancias utilizadas para inducir el modelo suelen adaptarse mejor a él que las instancias nuevas no u tilizadas en su construcción, conociéndose este fenómeno como sobreentrenamiento u overfitting. 2 .3.2. M étodos de validación En este apartado se tratan los métodos de validación que, comparando el etiquetado r eal de una instancia con la clase predicha por el clasificador, permiten estimar la futura e xactitud de un clasificador. Excepto la estimación de la restitución, todos los estimadores no paramétricos que se e xplican están basados en la idea del remuestreo (resampling) (ver figura 2.1). M undo Real Distribución D F igura 2.1: Las técnicas de estimación de la exactitud, tales como hold-out, cross-validation o bootstrap, están basadas en la idea del remuestreo E s t i m a c i ó n de la resustitución E ste método calcula la precisión aparente, ya que prueba el clasificador con los mismos d atos usados por el algoritmo de inducción. Formalmente se puede expresar como, 22 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional ^^r = ^ E KA-D^^^^c^^) (2-1) (x('),c(«))€X> donde 5{l, k) = 1 si I = k y O en otro caso. La estimación de la restitución es una estimación de la precisión muy optimista porque los procedimientos de clasificación tienden a minimizarlo. Para muchos algoritmos de inducción que se ajustan perfectamente a los datos, tales como los árboles de decisión o los K vecinos más cercanos, este método es muy optimista, y, si no hay instancias conflictivas, la precisión estimada será del 100 %. H oldout y r emuestreo El método holdout particiona los datos aleatoriamente en dos conjuntos mutuamente exclusivos, denominados conjunto de entrenamiento y conjunto de validación (o conjunto de holdout). El conjunto de entrenamiento es usado para inducir un modelo clasificatorio, utilizando el conjunto de validación para estimar la predicción verdadera. El conjunto de entrenamiento viene a ser habitualmente las dos terceras partes de todos los datos, utilizando el resto para el conjunto de validación. Formalmente se tiene Vh como el conjunto de validación, un subconjunto de V de tamaño Nh, y T>t definido por P\I>/i como el conjunto de aprendizaje siendo Nt = N — Nh- La estimación de la distribución del método holdout viene definida como, ^^^^ = W ^ 5{I(V,M%c(^) (2.2) donde d{l, k) = 1 sil = k y O en otro caso. Asumiendo que la predicción del inductor se incrementa con el número de instancias utilizadas en el aprendizaje, el método holdout es una estimación pesimista, porque el algoritmo de inducción sólo utiliza una porción del conjunto de datos. Cuantas más instancias se dejen para el conjunto de validación, más pesimista será la predicción. El método de remuestreo {random subsampling) viene a ser una generahzación del método holdout, realizándose éste múltiples veces sobre diferentes particiones independientes del conjunto de entrenamiento y conjunto de validación. De esta forma, la exactitud se calcula a p artir de la media de las exactitudes obtenidas en los diferentes experimentos. C ross-validation, leave-one-out y s tratification El método de la validación cruzada (cross-validation), viene también a ser una generalización del holdout. El conjunto de datos V se divide aleatoriamente en k subconjuntos mutuamente excluyentes I>i,I?2, • - • ,2?A; de aproximadamente el mismo tamaño. El clasificador es entrenado y vafidado k veces. Cada instante de tiempo í 6 {l,2,...,k} es entrenado en 'D\D-t y validado en 'D-t. La estimación de la exactitud por medio del método cross-validation es el número total de bien clasificados, dividido entre el número total de instancias del conjunto de datos. Formalmente, la estimación de la predicción del crossvalidation es. 2 .3. V alidación 23 1 ' = acCc, = ^ Y . E S{I{V\Vt,^^%c^% (2.3) <=i (x("),c('))ex>t L a estimación cross-validation es un número aleatorio que depende de la división previamente realizada. U n caso particular del cross-validation es el dejar-uno-fuera ( leave-one-out), e n el c ual el parámetro k v iene a ser igual al número de instancias N q ue existen para inducir el modelo final. De esta forma, los N subconjuntos de validación están formados por una ú nica instancia y los de entrenamiento por los de la cardinalidad del conjunto total menos e sa únic...
View Full Document

Ask a homework question - tutors are online