06-Reducci&Atild - Introducción a la Minería de Datos La Fase de Reducción Enver G Tarazona [email protected] Universidad Nacional Agraria

Info iconThis preview shows pages 1–7. Sign up to view the full content.

View Full Document Right Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: Introducción a la Minería de Datos La Fase de Reducción Enver G. Tarazona [email protected] Universidad Nacional Agraria La Molina Dpto. de Estadística e Informática 2 Estrategia de Reducción de Datos ¿Por qué reducir datos? Una base de datos/almacén de datos puede almacenar terabytes de datos Análisis complejos de datos pueden tomar una gran cantidad de tiempo al ejecutarse sobre un conjunto de datos completo. Reducción de datos Obtener un representación reducida del conjunto de datos que sea mucho más pequeña en volumen, pero que produzca los mismos (o casi los mismos) resultados analíticos. Estrategias de reducción de datos Agregación por cubos de datos: Reducción de la dimensionalidad — V.gr., remover atributos sin importancia Compresión de datos Reducción de valores — V.gr., ajuste de los datos en modelos Discretización y generación de jerarquias de conceptos 3 Agregación por cubos de datos El menor nivel de un cubo de datos (base del cuboide) Datos agregados para una entidad individual o de interés V.gr., un cliente en un almacén de datos de llamadas Múltiples niveles de agregación en cubos de datos Reducir el tamaño de los datos para trabajar con ellos Usar niveles de referencia apropiados Usar la representación más pequeña que sea suficiente para resolver una tarea Las consultas con respecto a la información agregada deben ser respondidas usando cubos de datos en la medida de lo posible. 4 Reducción de atributos Selección de características: Seleccionar un conjunto mínimo de carácterísticas tal que la distribución de probabilidad de las diferentes clases, dados los valores de esas características, es tan cercana posible a la distribución original dado los valores de todas las características. Reducir el número de patrones Métodos heurísticos (debido a su número exponencial de alternativas): Método Step-wise con selección forward Método Step-wise con eliminación backward Combinación de la selección forward y la eliminación backward Inducción con árboles de Decision 5 Ejemplo de inducción con Árboles de Decisión Conjunto inicial de atributos: {A1, A2, A3, A4, A5, A6} A4 ? A1? A6? Clase 1 Clase 2 Clase 1 Classe2 > Conjunto reducido de atributos: {A1, A4, A6} 6 Métodos Heurísticos Hay 2 d subconjuntos posibles para d atributos Varios métodos heurísticos de selección de características: Mejores carácterísticas individuales bajo el supuesto de independencia de características: elegir usando significancia estadística Selección de carácterísticas step-wise: La mejor carácterística individual se elige primero Luego se elige la mejor combinacion de carácterísticas dada la primera, ......
View Full Document

This note was uploaded on 05/12/2010 for the course APPLIED ST 2010 taught by Professor Various during the Spring '10 term at Universidad Nacional Agraria La Molina.

Page1 / 114

06-Reducci&Atild - Introducción a la Minería de Datos La Fase de Reducción Enver G Tarazona [email protected] Universidad Nacional Agraria

This preview shows document pages 1 - 7. Sign up to view the full document.

View Full Document Right Arrow Icon
Ask a homework question - tutors are online