Por ejenplo los rboles de d ecisin tienen almacenado

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: tales como u na persona, una seta o una secuencia de ADN. U n a tributo, a veces llamado v ariable, d escribe alguna propiedad de una instancia. Se u tilizan dos tipos de atributos: discretos, que a su vez pueden ser nominales u ordinales (por e jemplo, un atributo discreto nominal puede ser color € {rojo, verde, azul}) y c ontinuos ( por ejemplo, peso G K"*"))Cada instancia tiene un atributo especial, la c lase, q ue describe el fenómeno que se q uiere aprender o sobre el que se desea hacer predicciones. Una i nstancia no clasificada e s la parte de la instancia sin la clase, es decir, la lista de los valores de las características o a tributos. 16 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional U n c onjunto de d a t o s (dataset) e s un conjunto de instancias clasificadas. La tabla 2.1 muestra un conjunto de datos con nueve instancias en el dominio de enfermedades del c orazón. La última columna, Enfermo, es la que se intenta predecir a paxtir del resto de los atributos. Edad Sexo Colesterol ECG restante Max. num. latidos Enfermo ( cont.) {M,F) ( cont.) {norm, abn, hyp} ( cont.) 53 60 40 46 62 43 76 62 57 M M M F F M F M M 203 185 199 243 294 177 197 267 274 hyp hyp norm norm norm hyp abn norm norm 155 155 178 144 162 120 116 99 88 {si,no} si si no no no si no si si T abla 2.1: Conjunto de datos en el dominio de enfermedades del corazón U n c lasificador e s una función que obtiene la clase de una instancia sin clasificar. Todos los clasificadores tienen una estructura de datos almacenada que deben interpretar a l a hora de generar la clase para la instancia sin clasificar. Por ejeníplo, los árboles de d ecisión tienen almacenado un árbol que proyecta una instancia no clasificada a una determinada categoría siguiendo el camino desde la raíz hasta las hojas del árbol y devolviendo l a categoría de la correspondiente hoja. U n a lgoritmo de inducción c onstruye un clasificador a partir de un conjunto de d atos dado. Por ejemplo, C A R T [BFOS84] y C 4.5 [Qni93] son algoritmos de aprendizaje q ue construyen clasificadores basados en árboles de decisión a partir de conjuntos de datos. L a e x a c t i t u d {accuracy) d e un clasificador es la probabilidad de clasificar correctamente una instancia seleccionada al azar. L a tarea de un algoritmo de inducción es generar un clasificador con las siguientes características deseables: • Que sea exacto. Este requisito es normalmente la característica más importante, y s erá la principal consideración a lo laxgo de esta tesis. • Q ue sea comprensible. Dados dos clasificadores con aproximadamente la misma exactitud, se preferirá el más comprensible. Para algunos dominios, como los dominios m édicos, la comprensibilidad es crucial. Para otros dominios, como el reconocimiento d e caracteres ópticos, este aspecto no es muy importante. Una de las ventajas de los clasificadores supervisados basados en redes Bayesianas es que son muy comprensibles. • Q ue sea compacto. Aunque está relacionada con la comprensibilidad, una característica no implica la otra. Un perceptrón puede ser un clasificador compacto, pero d ada una instancia, entender el proceso de clasificación es muy complicado. En el o tro extremo, un árbol de decisión puede ser muy grande, pero el proceso de la clasificación de las instancias es trivial. 2.2. A lgoritmos de inducción 17 A c ontinuación se describe formalmente la notación que será utilizada a lo largo de t oda la tesis. Al conjunto de posibles valores (dominio) de un atributo Xi se le denota por Dom{Xi). Se supone que la cardinalidad de Dom[Xi) es rj. Cada instancia no etiquetada es un elemento del espacio de instancias no clasificadas X = Dom{Xi) x Dom{X2) x . . . x Dom{Xn), d onde n es el número de atributos. A una instancia no clasificada la denotamos p or X. Al valor de un atributo específico Xi se le denotará como xi. S ea C el conjunto de los posibles valores de la clase C, es decir, C = Dom{C). C ada posible valor de la clase se denota por c. Sea XxCe\ e spacio de las instancias clasificadas y I? un c onjunto de datos con N i nstancias clasificadas donde V = {[•>6^\ é-^^),..., (x^-'^^, c^^^)} U n clasificador genera una clase c ^ C p ara cada instancia no clasificada x G Af y u n algoritmo de aprendizaje X g enera un clasiñcador dado un conjunto de datos V. L a notación X{T>, x ) denotará la clase asignada a una instancia no etiquetada x por el clasificador construido por el algoritmo de aprendizaje 1 s obre el conjunto de datos T>. 2 -2. A lgoritmos de inducción En esta sección se realiza una breve introducción a los principales algoritmos de clasificación supervisada existentes. Conjuntos de reglas Uno de los paradigmas más fácilmente interpretable del aprendizaje automático es el c onstituido por c onjuntos de reglas d el tipo si-entonces [if-then). E l objetivo de este p aradigma es el aprendizaje de un conjunto de reglas cortas, simples y comprensibles en d ominios con ruido, que sirvan para discriminar entre las cat...
View Full Document

Ask a homework question - tutors are online