111 m o t i v a c i o n e s del aprendizaje con

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: dominio [New82]. Tal y como se muestra en la figura 1.1, el aprendizaje con clasificación supervisada es un subconjunto del campo del aprendizaje automático. El a prendizaje para mejorar l a eficiencia {speedup learning), que tiene como su máximo representante al aprendizaje basado en explicaciones [MKKC86], intenta mejorar la eficiencia de procesos existentes 1.1. Aprendizaje con clasificación supervisada m ediante el aprendizaje automático. El a prendizaje n o supervisado, c omo los métodos d e dustering [ And73], trata de descubrir estructuras en instancias no etiquetadas. Por ú ltimo, la r egresión i ntenta asociar una función de proyección de instancias no etiquetadas a u na etiqueta con valor real [BFOS84, DS81]. 1.1.1. M o t i v a c i o n e s del aprendizaje con clasificación s u p e r v i s a d a E xisten tres motivaciones principales para la existencia del aprendizaje con clasificación supervisada: la minería de datos o data mining, l a mejora en la adquisición de c onocimientos y el conseguir mejorar el conocimiento de los expertos. A continuación se d etalla cada uno de ellos. Data mining Se puede definir data mining c omo "el proceso de identificar patrones válidos, novedosos, p otencialmente útiles y comprensibles en los datos" [FPSS96]. Data mining, c omo p unto de encuentro de varias disciplinas, trata de extraer conocimiento de grandes cantidades de datos usando técnicas estadísticas, de aprendizaje automático, de análisis de p atrones o de bases de datos. L a cantidad de datos recopilados en algunas bases de datos está creciendo rápidamente. E ste hecho se debe a que las tecnologías de almacenamiento y de recolección de datos e stán mejorando. El campo de la biología computacional es uno de los ejemplos más r epresentativos. Bases de datos como la P D B {Protein Data Bank) [ BW03], que contiene l a secuencia de las proteínas actualmente conocidas, tiene gigabytes de información. L a habilidad de extraer información interesante y de comprender los datos almacenados e n estas bases de datos es de vital importancia. El campo de data mining e stá creciendo r ápidamente y al mismo ritmo que las necesidades de almacenamiento de datos. P or último, es importante destacar que el campo de data mining p aralelo tiene mucha i mportancia debido a la gran cantidad de datos con los que normalmente se trabaja y a lo costoso que son (computacionalmente hablando) los procesos de análisis de los mismos. E sto hace que data mining se encuadre dentro del marco de las aplicaciones de supercomputación. M ejorar la adquisición de c o n o c i m i e n t o s Los sistemas expertos [BS88] solucionan problemas que normalmente son resueltos por e xpertos humanos. Para resolver problemas al nivel de un experto, estos sistemas necesitan c onstruir una base de conocimientos de tamaño considerable. Una tarea que normalmente es realizada por un ingeniero de conocimiento. La construcción de la base de conocimientos es la fase que está considerada como el cuello de botella de un sistema experto. U na motivación de la investigación en el aprendizaje automático, especialmente de la clasificación supervisada, es conseguir recortar el tiempo de adquisición de conocimientos d e forma drástica. En la construcción de un sistema experto estándar "uno de los objetivos d el ingeniero es convertir el saber-cómo (knoiv-how) d e un humano en el decir-cómo {sayhow)... y p rogramar en máquina el saber-cómo" [Mic87]. La forma de acortar el tiempo Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional d e adquisición de conocimientos es evitar el estrecho canal, que supone la ingeniería del c onocimiento, utilizando data mining s obre ejemplos reales. M ejorar el c o n o c i m i e n t o de los e x p e r t o s E xisten diversos trabajos en los que se asegura que los sistemas de ayuda a la decisión h an superado a los diagnósticos de los expertos. P or ejemplo, Kononenko [Kon93] referencia 24 artículos en los que los sistemas de i nducción han sido utilizados para su aplicación a dominios médicos tales como la oncología, los pronósticos de hepatitis, etc. Además, se remarca que "típicamente, las reglas d e diagnóstico generadas automáticamente mejoran significativamente la exactitud de los d iagnósticos de los espetas". O tro ejemplo se encuentra en Fayyad e Iraní [FI93], que aseguran que su árbol de d ecisión mejora a los astrónomos en la observación del cielo, y que, para la mayoría de e stos objetos, los astrónomos "no eran capaces de determinar las clases examinando las i mágenes de observación". 1.2. Biología computacional y bioinformática L a biología computacional. y la bioinformática son enfoques interdisciplinares que parten de ciencias específicas como las matemáticas, la física, las ciencias de la computación, l a biología y las ciencias del comportamiento. L a bioinformática aplica el conocimiento de las tecnologías y de las ciencias de la i nformación al vasto, diverso y complejo mundo de los datos de las ciencias de la vida, p ara hacerlos más comprensibles y usables. La biología...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online