Datamining - Datamining cinthyaacosta@yahoo.com...

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: Datamining cinthyaacosta@yahoo.com Inteligencia de Negocios Hace referencia a un conjunto de productos y servicios para acceder a los datos, analizarlos y convertirlos en informacin. "Es un paraguas bajo el que se incluye un conjunto de conceptos y metodologas cuya misin consiste en mejorar el proceso de toma de decisiones en los negocios basndose en hechos y sistemas que trabajan con hechos." hechos." Howard Dresner Gartner Group, 1989. Group, 1989. Universidad Andrs Bello 2 Inteligencia de Negocios Componentes Multidimensionalidad. Multidimensionalidad. Agentes. Agentes. Data Warehouse. Data Mining. Mining. Universidad Andrs Bello 3 Descubrimiento de Conocimiento en Bases de Datos (KDD, Knowledge Discovery from Databases) Databases) Es un proceso de extraccin no trivial para identificar patrones que sean vlidos, novedosos, potencialmente tiles y entendibles, a partir de los datos. Su objetivo principal: procesar automticamente grandes cantidades de datos para encontrar conocimiento til para un usuario y satisfacer sus metas. Universidad Andrs Bello 4 Descubrimiento de Conocimiento en Bases de Datos (KDD, Knowledge Discovery from Databases) Databases) Universidad Andrs Bello 5 Descubrimiento de Conocimiento en Bases de Datos (KDD, Knowledge Discovery from Databases) Databases) Universidad Andrs Bello 6 Qu es la Minera de Datos Es el proceso de exploracin y anlisis de manera automtica o semiautomtica de los datos para obtener patrones significativos y reglas de negocio. negocio. Consideraciones: Consideraciones: Los patrones deben ser significativos. significativos. Sin automatizacin es imposible mirar grandes cantidades de datos, pero se debe dar ms nfasis a las etapas de exploracin y anlisis, que al modo de exploracin. exploracin. Data Mining es un proceso. proceso. Universidad Andrs Bello 7 Qu es la Minera de Datos La MD puede ser dividida en: en: Minera de datos predictiva (mdp): usa (mdp): primordialmente tcnicas estadsticas. Minera de datos para el descubrimiento de conocimiento (mddc): usa principalmente tcnicas mddc): de inteligencia artificial. Universidad Andrs Bello 8 Qu no es la Mineria de Datos No es un producto que se compra enlatado sino una disciplina que debe ser dominada. dominada. No es una solucin problemas de negocio. negocio. instantnea a los No es un fin en s mismo, sino un proceso que ayuda a encontrar soluciones a problemas de negocio. negocio. Universidad Andrs Bello 9 Fases de un Proyecto Minera de Datos El proceso de minera de datos pasa por las siguientes fases: Filtrado de datos. Seleccin de Variables. Extraccin de Conocimiento. Interpretacin y Evaluacin. de Base de Datos Seleccin Preprocesado Seleccin de caractersticas Extraccin de Conocimiento Evaluacin Conocimiento Universidad Andrs Bello 10 Fases de un Proyecto de DM: Filtrado de datos Base de Datos Seleccin Preprocesado Seleccin de caractersticas Extraccin de Conocimiento Evaluacin Conocimiento Mediante el preprocesado, se filtran los datos Se eliminan valores incorrectos, no vlidos, desconocidos...segn las necesidades y el algoritmo a usar). Se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso). Se reducen el nmero de valores posibles (mediante redondeo, clustering,...). Universidad Andrs Bello 11 Fases de un Proyecto de DM: Seleccin de Variables Base de Datos Seleccin Preprocesado Seleccin de caractersticas Extraccin de Conocimiento Evaluacin Conocimiento Los mtodos para la seleccin de caractersticas son bsicamente dos: dos: Aquellos basados en la eleccin de los mejores atributos del problema. problema. Y aquellos que buscan variables independientes mediante sensibilidad heursticos tests de sensibilidad, algoritmos de distancia o heursticos. heursticos. Universidad Andrs Bello 12 Fases de un Proyecto de Interpretacin y Evaluacin Base de Datos Seleccin Preprocesado Seleccin de caractersticas Extraccin de Conocimiento Evaluacin DM: Conocimiento Se debe proceder a su validacin, comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. satisfactorias. Si ninguno de los modelos alcanza los resultados esperados, esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos Universidad Andrs Bello 13 El Analista de Datos Tecnologa Informtica Usuario del Negocio Es el vnculo entre las reas de tecnologa informtica y las reas de negocio. Habilidades requeridas: Manipulacin de datos (SQL). Conocimiento de tcnicas de minera y anlisis exploratorio. Habilidad de comunicacin (interpretacin) de los problemas de negocio. negocio. Universidad Andrs Bello 14 El Analista de Datos Objetivos del negocio Puntos deVista Conocimiento, Tarea de descubrimiento Descubrir Datos Limpieza de Datos Transformacin Minera de Datos Datawarehouse Traduce los requerimientos de informacin en preguntas apropiadas para su anlisis con las herramientas de minera. Universidad Andrs Bello 15 Fuentes de Datos Tipos de fuentes: Transaccionales: Ej. Operaciones realizadas con una tarjeta de crdito. Relacinales: Ej. estructura de productos que ofrece un banco. Demogrficos: Ej. caractersticas del grupo familiar. Origen de datos: Bases de datos relacionales. DataWarehouses. DataWarehouses. Data Marts. Marts. Otros formatos: Excel, Access, encuestas, archivos planos. Universidad Andrs Bello 16 Calidad de los Datos El xito de las actividades de Data Mining se relaciona directamente con la CALIDAD de los datos. datos. Muchas veces resulta necesario pre-procesar los datos, preantes de derivarlos al modelo de anlisis. anlisis. El preproceso puede incluir transformaciones, reducciones o combinaciones de los datos. datos. La semntica de los datos debe ayudar para seleccionar una conveniente representacin, dado que influye directamente sobre la calidad del modelo. modelo. Universidad Andrs Bello 17 Funciones de Minera Utilizan tcnicas matemticas elaboradas para descubrir patrones ocultos en los datos. Ellas son: Asociacin. Clasificacin neuronal. Clasificacin en rbol. Clustering demogrfico. Clustering neuronal. Patrones secuenciales. Secuencias semejantes. Prediccin neuronal. Prediccin - funcin base radial. Universidad Andrs Bello 18 Modelos Tpicos de Minera Clustering. Clustering. Clasificacin. Clasificacin. Estimacin. Estimacin. Prediccin. Prediccin. Agrupamiento a partir de reglas de asociacin. asociacin. Universidad Andrs Bello 19 Modelos Tpicos de Minera: Minera: Clustering Agrupar a los clientes segn indicadores F (frecuencia), M (monto), etc en segmentos de comportamientos homogneos. homogneos. Resultado: Resultado: Clientes Buenos, Medios, Malos. Buenos, Medios, Malos. El 78% de la facturacin se concentra en el 78% cluster Buenos. Buenos. Los clientes Buenos son casados, con hijos, trabajadores autnomos con ingreso superior a $3000 pesos. pesos. Universidad Andrs Bello 20 Modelos Tpicos de Minera: Minera: Clasificacin y Estimacin Clasificar un nuevo cliente de acuerdo a su perfil sociodemogrfico como un cliente: cliente: Bueno. Bueno. Medio. Medio. Malo. Malo. Estimar el consumo de un determinado rubro de artculos de un grupo de clientes en el prximo trimestre. trimestre. Universidad Andrs Bello 21 Modelos Tpicos de Minera: Minera: Prediccin Predecir el abandono de un cliente: Para una compaa de telefona celular. Para una AFP. Para una tarjeta de crdito. Universidad Andrs Bello 22 Modelos Tpicos de Minera: Minera: Asociacin Encontrar las reglas que determinan la interrelacin entre productos para clientes de un banco. Por ejemplo: banco. ejemplo: " Cuando un cliente se activa en Caja de Ahorros, el siguiente producto donde se activa es Prstamos Personales. Este patrn ocurre el Personales. 65 % de los casos. " casos. Universidad Andrs Bello 23 Eleccin del Modelo Principales objetivos del proceso de Data Mining: Mining: Prediccin. Prediccin. Descripcin. Descripcin. El mtodo a utilizar depende de los objetivos perseguidos por el anlisis pero tambin de la calidad y cantidad de los datos disponibles. disponibles. Universidad Andrs Bello 24 Datamining cinthyaacosta@yahoo.com ...
View Full Document

This note was uploaded on 05/05/2010 for the course DATA BASE Data taught by Professor Cynth during the Spring '10 term at Institute of Management Technology.

Ask a homework question - tutors are online