EC 8 - Escuela de Post Grado: Maestría en Estadística...

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: Escuela de Post Grado: Maestría en Estadística Aplicada Estadística Computacional Mg Sc Jaime Porras Cerrón Contenido Capítulo IV: Árboles de Decisión Introducción. Ventajas y desventajas en los árboles de decisión Algoritmos de árboles de decisión. Elementos en la construcción de un árbol de decisión. El conjunto de preguntas binarias Q. Procedimiento para particionar los nodos. Criterio para detener el crecimiento de un árbol de decisión. Estrategias para podar un árbol de decisión. Estimación del error de mala clasificación. Tratamiento de valores perdidos en árboles de decisión. Introducción Tiene su origen en la Ciencias Sociales con trabajos de Sonquist - Morgan (1964) y Morgan y Messenger (1979). En Estadística Kass (1980) presentó un algoritmo no binario llamado CHAID (Chi-square Automatic Interaction Detection). Posteriormente, Breiman, Friedman, Olshen y Stone (1984) introdujeron un nuevo algoritmo al que denominaron CART (Classification And Regression Trees). Introducción El término árboles es por la gráfica (aunque los árboles son presentados creciendo hacia la parte inferior de la página). La raíz es el nodo superior, en cada nodo se hace una partición hasta llegar a un nodo terminal u hoja. Cada nodo terminal contiene el valor de la variable respuesta (árboles para regresión) o el nombre de la clase a la cual pertenece (árboles para clasificación). GRÁFICO DE ARBOL DE DECISION P e t a l .L e n g t h < 1 .3 5 | S e p a l .W i d th < 2 .3 5 s e to s a S e p a l .W i d th < 2 .5 5 ve r s ic o l o r P e t a l .L e n g t h < 4 .2 5 P e ta l .W i d th < 0 .2 5 P e ta l .W i d t h < 1 .7 5 v ve r s i c o l o r i r g i n i c a s e to s a P e t a l .L e n g t h < 2 .7 S e p a l .L e n g th < 6 .0 5 P e ta l .L e n g t h < 4 .9 5 virg in ic a virg in ic a s e to s a ve r s ic o lo virg in ic a r Ventajas y desventajas de los árboles de clasificación Ventajas: Puede ser aplicado a cualquier tipo de variables predictoras (cuantitativas y cualitativas). Los resultados son fáciles de entender e interpretar. No tiene problemas en trabajar con datos perdidos. Hace automáticamente selección de variables. Es invariante a transformaciones de las variables predictoras. Es robusto a la presencia de outliers. Es un clasificador no paramétrico, es decir no requiere suposiciones. Toma en cuenta las interacciones que puede existir entre las variables predictoras. Es rápido de calcular. Ventajas y desventajas de los árboles de clasificación Desventajas: El proceso de selección de variables es sesgado hacia las variables con más valores diferentes. Existe dificultad para elegir el árbol optimo. La superficie de predicción no es muy suave, ya que son conjuntos de planos. Requiere un gran número de datos para asegurarse que la cantidad de observaciones en los nodos terminales sea significativa. Algoritmos de árboles de decisión Existen diferentes algoritmos para la construcción de árboles de decisión. Estos se diferencian básicamente en 3 aspectos: La estrategia para podar los árboles. La regla para particionar los nodos. El tratamiento de valores perdidos. Entre los principales algoritmos tenemos: C4.5 (Quinlan – 1983), CHAID (Kass – 1980), CART (Breiman et al – 1984), Arboles Bayesianos (Buntine – 1992), CN2 (Clark y Niblett – 1988), QUEST (loh y Shih1997). Aquí desarrollaremos el algoritmo Rpart (Recursive Partitioning) que es una versión del CART en R, que puede ser encontrado en las librerías rpart y tree. Elementos en la construcción de un árbol de decisión Se basa en 4 elementos: 1. 2. 3. 4. Un conjunto de preguntas binarias Q. El método usado para particionar los nodos. El criterio requerido para detener el crecimiento del árbol. La asignación de cada nodo terminal a un valor de la variable respuesta (regresión) o a una clase (clasificación). 1. El Conjunto de preguntas binarias Q a) b) c) Suponga que el vector de variables predictoras es de la forma X=(X1,…,Xp) donde algunas variables son cuantitativas y otras cualitativas. Entonces el conjunto Q de preguntas binarias en los nodos debe tener las siguientes características: Cada división de los nodos depende del valor de una sola variable predictora. Si la variable Xj es continua entonces Q incluye preguntas de la forma {es Xj≤c}, donde c∈ℜ. Si la variable Xj es cualitativa que toma valores A={b1,..,bm} entonces Q incluye preguntas de la forma {Xj∈A}, 2. Procedimiento para particionar un nodo Hay varios métodos de particionamiento, pero la idea fundamental es que los nodos hijos sean más puros que los nodos padres. La partición de un nodo se hace de acuerdo que es diseñado para producir nodos hijos que produzcan una suma de errores menor que la del nodo padre (en el caso de la regresión) o que separen mejor las clases que el nodo padre (en el caso de clasificación). Alguna medidas para particionar nodos (medidas de impureza) en árboles de decisión Para regresión La varianza La desviación absoluta mediana. Para clasificación El coeficiente de Gini La entropía cruzada, Devianza o Impureza de información. La tasa de mala clasificación 3. Criterio para detener el crecimiento de un árbol de decisión La función rpart de R tiene varios criterios para detener el crecimiento de un árbol, los cuales son aplicados simultáneamente y son controlados con la función rpart.control. Por ejemplo: minsplit: Fija el número mínimo de observaciones en un nodo para que este sea dividido. Esta opción por defecto es 20. minbucket: Indica el número mínimo de observaciones en cualquier nodo terminal. Por defecto esta opción es el valor redondeado de minsplit/3 3. Criterio para detener el crecimiento de un árbol de decisión cp (Parámetro de complejidad): Indica que si el criterio de impureza no es reducido en más de cp*100%, entonces se detiene el crecimiento. maxdepth: Condiciona la profundidad máxima del árbol. Por defecto esta establecida como 30. En CART el crecimiento del árbol se detiene cuando la reducción total máxima de impureza es menor que una cierta cantidad de impureza inicial. Sin embargo en CART se recomienda que el árbol se deje crecer lo mas que se pueda, para luego podarlo. Estrategias para podar un árbol de decisión Para cualquier árbol T y para α≥0 (α es llamado parámetro de complejidad), una medida del mérito del árbol T es dada por: Rα(T)=Res(T) + α|T| Donde: Resub(T) es estimado por resustitución de la tasa de clasificación errada de T, es decir el error del clasificador que usa como muestra de prueba la misma muestra de entrenamiento con la que se construyó el arbol. |T|: Es el numero de nodos terminales T. Estrategias para podar un árbol de decisión Cuando α=0 se obtiene el árbol más grande y cuando T→∞ se obtiene un árbol con un solo nodo. El árbol óptimo es el árbol mas pequeño que minimiza Rα(T) y el parámetro α es encontrado usando validación cruzada. La función prune de la librería rpart ejecuta el recorte de un árbol. La opción cp de prune es llamado el parámetro de complejidad. Por defecto cp=0.01. Estimación del error de mala clasificación Breiman et al (1984) recomienda usar validación cruzada 10 para estimar el error de mala clasificación. Ellos no recomiendan bootstrap porque demostraron que el sesgo se reduce en menos del 40% del verdadero sesgo, aunque para el caso de muestras pequeñas el bootstrap podría ser usado. La función xpred.rpart da las predicciones de la variable respuesta usando validación cruzada para valores dados del parámetros de complejidad. Tratamiento de valores perdidos en árboles de decisión (en clasificación) CART hace uso de “particiones sustitutas” que son particiones que presentan rendimiento similar a la mejor partición para el respectivo nodo. Es decir, se estima que la probabilidad de que una partición sustituta asigne un caso al nodo hijo (derecho o izquierdo) es lo más cercana posible a lo que hace la mejor partición. La partición por lo general es única. Por otro lado, la similaridad entre la partición sustituta y la mejor partición se determina por una medida predictiva de asociación. Si esta medida es negativa entonces la partición es descartada y se busca una segunda. En resumen este método es similar a cuando en un modelo lineal se reemplaza el valor perdido de una variable predictora por la regresión con la variable predictora que esta más altamente correlacionada con ella. ...
View Full Document

Ask a homework question - tutors are online