Tiene un total de 19 atributos y dos posibles clases

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: n RRBB. Aplicación en Biología Computacional 5 .1. C onjuntos de datos A lo largo de todo el capítulo la exactitud de los diferentes algoritmos se evaluará en dominios ampliamente utilizados por la comunidad de aprendizaje automático. Se dispone de un total de 21 conjuntos de datos, todos ellos provenientes del repositorio d e UCI [MA95], excepto los conjuntos m-of-n y waveform-21 q ue fueron diseñados para e valuar técnicas de selección de variables [KBS97]. La elección de los conjuntos de datos h a sido sencilla, ya que son los más utilizados en el campo de las redes Bayesianas como clasificadores supervisados. De esta forma, resultará mucho más simple la realización de c omparaciones entre los algoritmos desarrollados y los ya existentes. En la tabla 5.1 se e ncuentran descritos los conjuntos de datos que serán utilizados en los experimentos. Nombre breast chess eleve corral crx fiare german glass glass2 hepatitis iris lymphography mofn-3-7-10 pima satimage segment shuttle-small soybean-large vehicle vote waveform-21 T otal 10 36 13 6 15 10 20 9 9 Atributos C ontinuos N o m i n a l e s 10 36 6 7 6 6 9 2 8 7 13 9 9 . 19 6 13 4 18 10 8 4 3 8 36 36 19 9 35 18 19 15 10 35 16 - 16 21 9 18 21 Clases 2 2 2 2 2 2 2 .7 ,2 2 3 4 2 2 6 7 7 19 4 2 3 Instancias A p r e n . V alid. 699 3196 303 128 690 1066 1000 214 ,. 163 155 150 148 1024 300 768 6435 2310 5800 6 83 846 435 300 4700 T abla 5.1: Descripción de los conjuntos de datos utilizados en los experimentos Los conjuntos de datos escogidos son los siguientes: B r e a s t cáncer W i s c o n s i n (breast): Son 699 instancias de casos clínicos recopilados por el Dr. Wolberg en la Universidad de Winconsin. Fueron recopilados en un p eriodo de dos años y medio y el problema es averiguar si los tumores son benignos 0 m alignos, basándose en los datos del cáncer de cada paciente. Tiene diez atributos, u no es un número de serie y los otros nueve diferentes características: uniformidad d el tamaño de la célula, uniformidad de la forma de la célula, mitosis, núcleo normal, n úcleo descubierto, etc. Estos atributos presentan valores enteros entre el 1 y el 10. 5 .1. C onjuntos de datos 65 • C hess e n d g a m e d a t á b a s e (chess): E ste conjunto de datos tiene 3196 instancias. R epresenta una partida de ajedrez entre la reina y la torre blancas y la reina negra. M ueve la pieza negra y hay que averiguar si la posición es de empate o pérdida en N m ovimientos. Fue desarrollado por Michael Bain y Arthur van Hoff en el Instituto T uring de Glasgow. Tiene un total de 36 atributos nominales con dos posibles valores (si la pieza correspondiente está en una determinada fila o columna) y dos posibles c iases. • C leveland heart disease (eleve): 303 instancias del Dr. Detrato. La tarea es d iferenciar la presencia o ausencia de enfermedades cardíacas en los pacientes. Hay s iete atributos nominales y seis continuos. Los atributos incluyen: edad, sexo, tipo d e dolor de pecho, colesterol, etc. • C orral (corral): E s un conjunto de datos artificial con un total de 128 instancias. C ontiene seis atributos: AO, Al, BO, S I , "irrelevante" y "correlada". El concepto p rincipal es {AO A Al) V {BO A Bl). E l atributo denominado "irrelevante" es uniformemente aleatorio, y el atributo denominado "correlado" coincide con la etiqueta de l a clase en el 75 % d e las ocasiones. • A ustralian credit screening (crx): P resenta un total de 690 instancias de una c ompañía de crédito australiana. La tarea es determinar si conceder o no una tarjeta de crédito a los solicitantes. Los atributos están codificados para preservar la c onfidencialidad. Este conjunto de datos fue usado por primera vez en al año 1986 [Qui86]. T iene seis variables continuas y nueve nominales. • S olar fiare d a t á b a s e (fiare): E ste conjunto de datos contiene un total de 1066 i nstancias. Cada instancia representa características particulares de una región activa d el sol y es clasificada según haya llamas en esa determinada región o no. Tiene un t otal de 10 atributos, 2 continuos y 8 nominales. • G e r m á n credit d a t a ( g e r m a n ) : Conjunto de datos con un total de 1000 instancias. E s muy similar al conjunto crx. A t ravés de un total de 20 atributos (7 continuos y 13 nominales), hay que decidir si es posible la concesión de préstamos a clientes. • G lass i d e n t i ñ e a t i o n datábase (glass): E l estudio de la clasificación de los cristales ha sido motivada por la investigación criminológica. En la escena del crimen, los c ristales abandonados pueden servir de prueba siempre y cuando sea posible identificarlos correctamente. Este conjunto de datos tiene un total de 214 instancias, con 9 a tributos continuos: contenido en sodio, en magnesio, en aluminio, etc. A través d e estos atributos hay que deducir la clase a la que pertenece el cristal: de edificio, d e coche, de contenedor, etc. Existe un total de 7 posibles clases....
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online