00750078_LR - desarrollo profesional Árboles de...

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: desarrollo profesional Árboles de clasificación para la generación de reglas de decisión clínica Aureli Esquerda Serranoa y Javier Trujillano Cabellob Laboratori Clínic ICS Lleida. bUnidad de Cuidados Intensivos. Hospital Universitari Arnau de Vilanova. IRBLLEIDA. Lleida. a Sesé C ada vez es más frecuente el uso de herramientas auxiliares en la toma de decisiones médicas. No se trata de sustituir el juicio clínico, sino de apoyarlo mediante la utilización de reglas, funciones o algoritmos en los que se pueda resumir el conocimiento obtenido de antemano estudiando una serie de casos problema ya resueltos. Mediante el uso de modelos predictivos se pretende estimar la probabilidad de ocurrencia de un suceso (pronóstico) o de aventurar un posible resultado (diagnóstico). La tabla 1 muestra algunos de los métodos que pueden emplearse en este cometido. Cualquiera de ellos es igualmente válido, aunque es posible que, ante un problema concreto, alguno se adapte mejor que otro. Por este motivo, es recomendable no centrarse a priori en una de las técnicas, y ensayar simultáneamente varias de ellas. Independientemente de la técnica escogida, cuando se trata de construir un modelo con finalidad predictiva es necesario partir de un conjunto de entrenamiento lo más amplio posible de casos problema con solución conocida. Idealmente, antes de aplicar el modelo debe validarse con otro conjunto de casos (grupo de validación) previamente reservado para esta finalidad y que no haya sido utilizado en el entrenamiento del modelo. Si la validación es satisfactoria, se demostrará la capacidad de generalización del modelo. En los últimos años, los modelos de árboles de clasificación han despertado un interés creciente en el campo de la medicina. A diferencia de otros sistemas utilizados en la clasificación diagnóstica o pronóstica (regresión logística, análisis discriminante, redes neuronales), los árboles de clasificación www.jano.es | marzo 2010 03-desar0402arboles.indd 75 75 5/3/10 13:47:02 desarrollo profesional Árboles de clasificación para la generación de reglas de decisión clínica A. Esquerda Serrano y J. Trujillano Cabello Tabla 1 Ejemplos de herramientas metodológicas empleadas para problemas de clasificación diagnóstica o pronóstica Métodos estadísticos: regresión, discriminante, etc. Métodos bayesianos: redes bayesianas, naïve Bayes, etc. Reglas y árboles de clasificación: CART, CHAID, C4.5, etc. Métodos basados en núcleo: SVM, etc. Redes neuronales artificiales: perceptrón multicapa, etc. Algoritmos evolutivos Tabla 2 Propiedades básicas de los modelos de clasificación Precisión Habilidad del modelo de predecir adecuadamente casos no empleados en su desarrollo Disponibilidad Accesibilidad. Posibilidad de poder utilizarlo Robustez Capacidad de enfrentarse a datos incompletos Interpretación Nivel de comprensibilidad del modelo. No necesidad de conceptos matemáticos para su utilización Consejos prácticos • Es esencial disponer de una base de datos depurada y con registros suficientes. • Debe utilizarse más de una metodología para el desarrollo del modelo y escoger la más adecuada al problema concreto. • La interpretación de un árbol de clasificación es inmediata y exige un conocimiento del problema clínico estudiado. • Es conveniente disponer de un grupo de validación externo para asegurar la capacidad de generalización del modelo. 76 están constituidos por un conjunto de reglas de interpretación inmediata y de fácil manejo, una propiedad que los hace especialmente atractivos en el ámbito médico. Un árbol de clasificación es, en esencia, un algoritmo simbólico autoexplicativo que sigue una lógica próxima a la del razonamiento médico, y cuya aplicación no requiere de ecuaciones o de conocimientos estadísticos avanzados. La interpretabilidad, sin embargo, es sólo uno de los criterios que se deben tener en cuenta en la selección de un método de clasificación (tabla 2), ya que es necesario también considerar la robustez de los modelos obtenidos, así como la disponibilidad de la metodología. En este último aspecto, es destacable que algunos de los paquetes estadísticos más empleados en ciencias de la salud (SPPS, XLSTAT, Weka) incorporen ya la metodología de árboles de decisión en sus últimas versiones. Árboles de clasificación. Aspectos metodológicos Un árbol de clasificación es la representación gráfica de una serie de reglas de decisión. A partir de un nodo raíz, que incluye todos los casos, el árbol se va ramificando en diferentes nodos “hijo” que contienen un subgrupo de casos. El criterio de ramificación (o partición) es seleccionado de manera óptima después de examinar todos los posibles valores de todas las variables predictivas disponibles. En los nodos terminales (“hojas” del árbol) se obtiene una agrupación de los casos de la manera más homogénea posible en cuanto al valor de la variable dependiente. Dependiendo de cómo se lleve a cabo la partición de los nodos, se distinguen diferentes tipos de árbol de clasificación: CART, C4.5, CHAID, etc. En el caso concreto del CART (classification and regression trees), posiblemente el más extendido en medicina, se calcula una función de impureza (el llamado índice de Gini), y para cada división del árbol se selecciona aquella variable y su valor de corte tales que la disminución en la impureza sea máxima. Se obtienen, pues, dos nodos hijos lo más “puros” posibles en cuanto al valor de la variable dependiente. En la construcción de un árbol de clasificación pueden distinguirse cuatro etapas: – Desarrollo del árbol. A partir del nodo raíz, se identifica la variable más adecuada para dividir este nodo en dos nodos hijo, y el punto de corte óptimo. A cada uno de los nodos hijo se le asigna un valor de la variable dependiente, la correspondiente al mayor número de registros de aquel nodo. A su vez, cada uno de los nodos hijo será dividido en otros sucesivos nodos siguiendo la misma metodología. – Parada del desarrollo. Los nodos hijos ya no pueden subdividirse cuando contienen un único caso, o bien cuando el valor de la variable dependiente es el mismo para marzo 2010 | www.jano.es 03-desar0402arboles.indd 76 5/3/10 13:47:02 desarrollo profesional Árboles de clasificación para la generación de reglas de decisión clínica A. Esquerda Serrano y J. Trujillano Cabello Aplicaciones de los árboles de decisión En general, los modelos de árbol de clasificación pueden ser útiles en tres aspectos: – Identificar, de un conjunto de variables independientes, aquellas que son más relevantes desde el punto de vista predictivo. El árbol no utiliza las variables que no aportan información. – A partir de una población mezclada, identificar grupos con características diferenciales. Puede llegarse a un mismo diagnóstico con distintas reglas de decisión. – Utilizando un modelo previamente entrenado, predecir el valor de la variable dependiente a partir de las variables predictivas. Esta es, sin duda, la aplicación más extendida. En la figura 1 se muestra un ejemplo sencillo de árbol de clasificación, en el que se pretende diagnosticar los pacientes con fracaso renal a partir de los valores séricos de creatinina y urea. En el conjunto inicial se incluye a 24 pacientes. La división que permite separar dos grupos lo más diferentes posibles en cuanto a la variable dependiente (diagnóstico) es el valor de urea, con un punto de corte de 60 mg/dl. Uno de los subgrupos ya constituye Figura 1 Cuándo emplear árboles de decisión • En problemas clínicos de diagnóstico o pronóstico (generando reglas de decisión). • Para seleccionar las variables en orden de importancia (según la información que aportan al modelo definitivo). • Para seleccionar puntos de corte óptimos en variables cuantitativas. • Para buscar relaciones clínicas entre distintas variables. Ejemplo de árbol de clasificación: identificar a pacientes con fracaso renal (FR) o no fracaso renal (NFR) según cifras de urea y creatinina 3,0 Creatinina (mg/dl) todos los casos integrantes del nodo. Cuando cualquiera de estas dos situaciones se cumple en todos los nodos, el desarrollo del árbol se detiene. Por otra parte, es posible definir criterios adicionales (número máximo de nodos del árbol, número mínimo de casos por nodo) que eviten una excesiva ramificación. – “Poda” del árbol. Por lo general, un árbol desarrollado según el esquema anterior es excesivamente complejo y ramificado, y puede reflejar con demasiada minuciosidad las características de la base de datos utilizada en su construcción. La eliminación de las ramas superfluas proporcionará un árbol más sencillo y, a la vez, con una mayor capacidad de generalización. El proceso de “poda” se verifica según unos criterios predefinidos de costecomplejidad: empezando por los últimos nodos, se eliminan aquellos cuya presencia añade más complejidad que efectividad. – Selección del árbol óptimo. Elegir el árbol óptimo precisa de un sistema de validación (se selecciona el árbol que mejor clasifica en este grupo de validación). La validación puede ser externa (utilizando casos no empleados en el desarrollo del modelo) o interna (validación cruzada). En la validación cruzada se realiza una partición aleatoria (suelen ser 10 partes) del grupo de desarrollo y se utiliza de forma recursiva un subgrupo (9 partes) para generar el árbol y otro (1 parte) para la validación. 12 Raíz 12 2,5 2,0 Urea ≥ 60 mg/dl 5 10 1,5 Creatinina < 2,0 mg/dl 53 2 1,0 20 40 60 80 Urea (mg/dl) Urea < 60 mg/dl 72 1 Creatinina ≥ 2,0 mg/dl 073 100 1. Si urea < 60 mg/dl entonces NFR (7 de 9 = 77%) 2. Si urea ≥ 60 mg/dl y creatinina < 2,0 mg/dl entonces NFR (5 de 8 = 62%) 3. Si urea ≥ 60 mg/dl y creatinina ≥ 2,0 mg/dl entonces FR (7 de 7 = 100%) Reglas de decisión Regla 1: pacientes con FR Regla 2: pacientes con elevación de urea debida a sangrado digestivo Regla 3: pacientes NFR www.jano.es | marzo 2010 03-desar0402arboles.indd 77 77 5/3/10 13:47:02 desarrollo profesional Árboles de clasificación para la generación de reglas de decisión clínica A. Esquerda Serrano y J. Trujillano Cabello Cómo elaborar un modelo basado en árboles de decisión Figura 2 • Las versiones recientes de la mayoría de paquetes estadísticos incluyen la metodología de árboles de clasificación. • Antes de elaborar cualquier modelo con finalidad predictiva hay que seleccionar minuciosamente las variables independientes a incluir. Deben ser fáciles de obtener, lógicas desde el punto de vista clínico y no reiterativas. • Con una mínima intervención del usuario se pueden obtener modelos más fáciles de interpretar clínicamente. Árbol de clasificación: estratificar riesgo de mortalidad hospitalaria en pacientes con infarto agudo de miocardio Grupo 10% Varón 9% Sin shock 6% FV No 3% Shock 73% FV Sí 25% Mujer 16% Shock 80% Sin shock 10% Edad < 70 3% Edad ≥ 70 15% Primera variable: sexo. Distinta mortalidad para varones y mujeres. Segunda variable: presencia de shock al ingreso. También distinta mortalidad según sexo. Tercera variable: distinta en varones (presentar fibrilación ventricular) o en mujeres (punto de corte según edad). FV: fibrilación ventricular; shock: presencia de shock al ingreso; %: porcentaje de mortalidad hospitalaria. un nodo terminal, mientras que el otro puede subdividirse de nuevo según la concentración de creatinina. El resultado final es un árbol de clasificación con 3 nodos terminales (es decir, con 3 reglas clasificatorias) capaz de predecir correctamente el diagnóstico en 19 de los 24 pacientes. En otro ejemplo (fig. 2), se trata de identificar los grupos con mayor riesgo de mortalidad (pronóstico) en pacientes hospitalizados con infarto. Las variables seleccionadas por el modelo son de fácil obtención y la interpretación del árbol de clasificación es inmediata. Como puede observarse en los dos ejemplos anteriores, los árboles de clasificación operan indistintamente con variables continuas o discretas. Además, no necesitan que los valores de las variables numéricas sigan una distribución normal. Otra de las ventajas de los árboles es la posibilidad de intervención por parte del usuario: se puede dar preferencia a una variable predictiva, si el juicio clí- 78 nico así lo recomienda, o también es posible “penalizar” un tipo de error de clasificación que se considere más grave. J Para saber más Breiman L, Friedman JH, Olshen RA, Stone CJ. Classification and Regression Trees. London: Chapman & Hall; 1984. Harper PR. A review and comparison of classification algorithms for medical decision making. Health Policy. 2005;71:315-31. Trujillano J, Sarria-Santamera A, Esquerda A, Badia M, Palma M, March J. Aproximación a la metodología basada en árboles de decisión (CART). Mortalidad hospitalaria del infarto agudo de miocardio. Gac Sanit. 2008;22:65-72. Zhang H, Singer B. Recursive Partitioning in the Health Sciences. New York: Springer-Verlag; 1999. marzo 2010 | www.jano.es 03-desar0402arboles.indd 78 5/3/10 13:47:02 ...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online