06_Sobre_Preprocesamiento_datos[1].pdf - Cap 3...

This preview shows page 1 - 3 out of 6 pages.

1 1 Data Mining: Conceptos y Técnicas Preprocesamiento de Datos (Basado en material de Jiawei Han and Micheline Kamber) Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada 2 Cap. 3: Preprocesamiento de Datos ¿Por qué preprocesar los datos? Limpieza de datos (Data cleaning) Integración y transformación de datos Reducción de datos Discretización y generación de jerarquías de conceptos Síntesis 3 ¿Por qué preprocesar datos? Los datos del mundo real son sucios.. incompletos: carecen de valores para ciertos atributos, carecen de atributos de interes o contienen solo datos agregados ruidosos: contienen errores o “outliers” inconsistentes: contienen discrepancias en códigos o nombres. Sin datos de calidad, no hay calidad en los resultados de mining! Decisiones calificadas ->basadas en datos calificados Data warehouse necesita integración consistente de datos calificados 4 Medidas multidimensionales de la Calidad de los Datos Una visión multi-dimensional aceptada : Exactitud Completitud Consistencia “Timeliness” Credibilidad Valor agregado Interpretabilidad Accesibilidad Categorías amplias: intrínsecos, contextuales, representacionales, y accesibles. 5 Principales tareas en Preprocesamiento de Datos Limpieza de Datos Completar valores perdidos, “ablandar” datos ruidosos, identificar o remover “outliers”, y resolver inconsistencias Integración de datos Integración de BD múltiples, cubos de datos o archivos. Transformación de datos Normalización y agregación Reducción de datos Obtener representación reducida en volumen, pero produce resultados analíticos iguales o similares. Discretización de datos Parte de la reducción de datos, pero con particular importancia para los datos numéricos. 6 Formas de preprocesamiento de datos
2 7 Cap. 3: Preprocesamiento de Datos ¿Por qué preprocesar los datos? Limpieza de datos (Data cleaning) Integración y transformación de datos Reducción de datos Discretización y generación de jerarquías de conceptos Síntesis 8 Limpieza de Datos Principales tareas en “Data cleaning” Completar valores faltantes Identificar “outliers” y “ablandar” los datos ruidosos. Corregir datos inconsistentes. 9 Datos faltantes Los datos no siempre están disponibles: E.g., muchas tuplas pueden no tener valor asociado para ciertos atributos. Ej: ingreso mensual en los datos de un determinado cliente. Los datos faltantes pueden deberse a: errores técnicos (de equipamiento) inconsistencia con otros datos almacenados (y por ende borrados) Datos no ingresados Considerados irrelevantes al momento de ser cargados no se registró la historia o cambios de los datos Los datos faltantes puede que tengan que ser inferidos.

  • Left Quote Icon

    Student Picture

  • Left Quote Icon

    Student Picture

  • Left Quote Icon

    Student Picture