Se calculan mediante el uso de una distancia

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: egorías del problema. Dentro d e los diferentes enfoques de este paradigma están los algoritmos C N 2 [CN89], R I P P E R [Coh95] y OneR [Hol94], los cuales guardan numerosas similitudes entre sí. Á r b o l e s d e clasificación L os árboles de clasificación son uno de los paradigmas más clásicos y ampliamente usados del mundo del aprendizaje automático. En la literatura acerca de este paradigma, se encuentran numerosas variantes como C A R T [ BFOS84], I D 3 [Qui86], O C l [MS94] O C 4.5 [Qui93]. Un árbol de clasificación está formado por nodos, ramas y hojas. Cada n odo representa un test univariado o decisión sobre los valores de un atributo concreto. E l primer nodo del árbol es conocido como el nodo raíz. Finalmente están los nodos terminales u hojas en los que se toma una decisión acerca de la clase a asignar. Así, a l a hora de clasificar un nuevo caso, tendrán que compararse los valores de los atributos c on las decisiones o tests que se toman en los nodos, siguiendo la rama que coincida con d ichos valores en cada test. Finalmente se llega a un nodo terminal u hoja que predice la clase para el caso tratado. Un árbol de decisión también se puede ver como un conjunto de reglas si-entonces, si bien la diferencia más obvia entre los dos paradigmas es que las r eglas de decisión son independientes entre sí, mientras que las reglas extraídas del árbol de decisión no lo son. 18 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional K v ecinos m á s p r ó x i m o s E l paradigma de los K v ecinos m á s p r ó x i m o s {K nearest neighbour) [Das91] es u no de los paradigmas de más sencilla comprensión del aprendizaje automático. Para clasificar un nuevo individuo se guardan en memoria todas las instancias del conjunto de e ntrenamiento. Se calculan (mediante el uso de una distancia específica) las distancias e ntre la nueva instancia y todas las instancias del conjunto de entrenamiento. Y, por ú ltimo, teniendo en cuenta las K d istancias más cercanas del conjunto de entrenamiento, se obtiene la etiqueta de clase. Así expuesto, el algoritmo admite varias variantes, sea por el tipo de distancia que se u tilice (euclidea, de Mahalanobis, ...), sea por la ponderación de cada atributo en el cálculo d e las distancias o por la forma en que las K i nstancias más cercanas asignan la clase a la n ueva instancia (ponderando cada instancia mediante su distancia, voto por mayoría, ...). A unque de sencilla comprensión, este algoritmo puede ser inabordable para bases de d atos grandes, dada la cantidad de memoria necesaria para almacenar las instancias del c onjunto de entrenamiento y la cantidad de cálculos en el cómputo de las distancias. R e d e s neuronales U na red neuronal puede ser definida como [Hay99]: "modelo computacional con un c onjunto de propiedades específicas, como son la habilidad de adaptarse o aprender, generalizar u organizar la información, todo ello basado en un procesamiento eminentemente p aralelo". Se define como arquitectura de una red neuronal a la manera en que se interconectan los distintos elementos de proceso (neuronas artificiales) que forman la red. Normalmente los elementos de proceso se organizan como una secuencia de capas con un determinado p atrón de interconexión entre los diferentes elementos de proceso que las forman, y con u n patrón de conexión entre los elementos de proceso de las distintas capas. U na de las principales ideas sobre las que se basan las redes neuronales artificiales, es la de responder a los estímulos del entorno mediante un proceso de aprendizaje por el cual va adaptando los pesos de las conexiones de sus elementos de proceso, de tal forma q ue se "memorizan" los ejemplos de entrenamiento que se le presentan. El paradigma de a prendizaje indica la forma en que el entorno influye en ese proceso de aprendizaje. D entro de la clasificación supervisada, la arquitectura de red neuronal más utilizada es la de perceptrón o perceptrón multicapa. Los algoritmos de aprendizaje utilizados en este t ipo de red neuronal son la retropropagación del error, ADALIÑE [WH60] y MADALINE [Wid87] entre otros. Naive-Bayes En los últimos años ha habido un interés creciente en la utilización de métodos probabilísticos para clasificación. Estos han demostrado acomodarse a la naturaleza flexible de n umerosos conceptos, y, además, gozan de una sólida base en la teoría de la probabilidad. E l método probabilístico para clasificación más ampliamente utilizado es conocido como el método naiVe-Bayes o simple nai've-Bayes [DH73, HYOl]. Este método se basa en una a plicación del teorema de Bayes, pero con unas restricciones y suposiciones de partida. 2 .3. V alidación 19 U na parte importante de esta tesis está basada en este método, por lo que se explicará en p rofundidad en el capítulo 3. R e d e s Bayesianas L as redes Bayesianas se han incorporado recientemente a las tareas de clasificación s upervisada [CGK'^02, CG99, FGG9...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online