T odos los algoritmos desarrollados en este captulo

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: • G lass identification datábase 2 (glass2): E s muy similar al conjunto de datos a nterior glass, p ero en este caso la clase indica si el cristal ha sido procesado por p lanchas o no. Tiene un total de 163 instancias descritas a través de 9 atributos c ontinuos• H e p a t i t i s d a t á b a s e (hepatitis): S on 155 instancias sobre una base de datos de h epatitis. Tiene un total de 19 atributos y dos posibles clases. De los 19 atributos 6 s on continuos y 13 nominales. 66 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional • I ris plants d a t á b a s e (iris): T iene un total de 150 instancias. El objetivo es realizar u na clasificación de lirios a través de cuatro atributos de tipo continuo: el ancho y el l argo tanto del pétalo como del sépalo. Hay un total de tres tipos diferentes de lirios. • L yraphography d o m a i n ( l y m p h o g r a p h y ) : E l objetivo de este conjunto de datos e s averiguar el estado de los ganglios linfáticos de los pacientes: normal, con metástasis, m aligno o fibroso. Tiene un total de 148 instancias, descritas por 18 atributos, t res de los cuales son continuos. Este conjunto de datos proviene de la University M edical Centre, Institute of Oncology, Ljubljana, Eslovenia y, junto con el conjunto breast, es uno de los más utilizados en el aprendizaje automático. • m -of-n-3-7-10 (mofn-3-7-10): E ste conjunto de datos tiene un total de 300 instancias de entrenamiento y 1024 de validación. La clase indica si al menos tres bits, d e los numerados tres a nueve, están a uno (bits uno, dos y diez son irrelevantes). E l objetivo que se persigue en este conjunto de datos es muy frecuente en dominios m édicos, donde un paciente necesita tener por lo menos m de un conjunto de n s íntomas para que se le diagnostique la enfermedad [SpaSS]. • P i m a indian d i a b e t e s ( p i m a ) : 768 instancias del Instituto Nacional de la diabetes y de enfermedades digestivas y de riñon de la Johns Hopkins University. La tarea es d eterminar si los pacientes muestran signos de diabetes de acuerdo con los criterios de l a Organización Mundial de la Salud. Todos los pacientes son femeninos y viven cerca d e Phoenix, Arizona, tienen al menos 21 años y son de herencia india. Este conjunto d e datos está formado por ocho atributos continuos tales como: edad, número de veces embarazada, concentración de glucosa, tensión, etc. • S atellite image d a t a ( s a t i m a g e ) : E stá formado por 6435 instancias. Tiene un t otal de 6 posibles clases y 36 atributos (4 bandas espectrales y 9 píxeles por imagen) con valores continuos en el rango 0-255. Este conjunto de datos viene dado en orden a leatorio y algunas líneas han sido borradas, de tal forma que no es posible reconstruir l a imagen original. El objetivo es clasificar la imagen en 6 posibles tipos diferentes. • I m a g e s e g m e n t a t i o n d a t a ( s e g m e n t ) : E ste conjunto de datos está formado por 2310 instancias. Fue desarrollado en 1990 por el Vision Group, University of Mas- sachusetts. Las instancias fueron seleccionadas aleatoriamente de una base de datos d e siete imágenes de exterior. Las imágenes se segmentaron a mano para crear una clasificación para cada pixel. Cada instancia es una región de tres por tres descrita a t ravés de 19 atributos continuos. • S huttle dataset (shuttle-small) : Está formado por 5800 instancias. El objetivo e s la clasificación de imágenes de satélite en siete clases diferentes. Este conjunto de d atos está formado por nueve atributos continuos y proviene de Jason Catlett del B asser Department of Computer Science, University of Sydney. • L arga s o y b e a n d a t á b a s e (soybean-large) : Tiene un total de 683 instancias. L a tarea es diagnosticar enfermedades del soybean, u na legumbre asiática. Existe un t otal de 19 enfermedades diferentes (clases) y 35 atributos nominales con propiedades y v arias anomalías de esta legumbre. 5.2. Metodología experimental 67 • V ehicle s i l h o u e t t e d a t a s e t (vehicle): E ste conjunto de datos tiene un total de 846 instancias. El propósito es averiguar, a través de sus 18 atributos continuos, si un d eterminado vehículo es un Opel, un Saab, un autobús, o una furgoneta. El propósito original de estos datos, provenientes del Instituto Turing de Glasgow, Scotland, e ra encontrar un método para diferenciar objetos 3D a través de una imagen 2D, a plicando un conjunto de extractores de atributos de formas a las siluetas 2D de los o bjetos. • U n i t e d States congressional v o t i n g records d a t á b a s e (vote): C on un total d e 435 instancias este conjunto de datos incluye votos para los representantes al c ongreso de los Estados Unidos. A través de 16 atributos nominales se debe decidir si los votantes van a votar a los demócratas o a los republicanos. • W aveform datábase generator (waveform-21): C ontiene un total de 300 instancias de aprendizaje y 4700 de validación. El conjunto de datos generados consiste e n 21 atributos con valores continuos y la clase a predecir con tres posibles valores. C ada...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online