Como resultado de las propuestas realizadas han

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: generalization. Los resultados obtenidos por este multiclasificador han sido altamente satisfactorios, ya que se han mejorado los resultados de los métodos individuales. Como resultado de las propuestas realizadas, han surgido multitud de futuras líneas de investigación, que se recogen a lo largo de esta tesis. Abstract This thesis is based on two different fields: supervised classification with probabilistic graphical models and its application to computational biology. The main idea behind our proposals in the fíeld of supervised classification is the use of heuristic optimization algorithms in the search of Bayesian network structures for classifícation. Thanks to the apphcation of EDAs, we have developed a new supervised classifícation algorithm named Interval Estimation naive-Bayes, and we have improved soma classifícation algorithms proposed in the literature. Experimental results are quite satisfactory, and show the superiority of our idea. Besides, with the aim of improving its performance, we have developed a parallel versión of the algorithm, the Parallel Interval Estimation naive-Bayes. Experimental results show an improvement in both the performance, achieving a superlineal speedup, and the obtained results. In the field of computational biology, the secondary structure prediction of proteins is really important, because it provides a starting point for tertiary structure prediction and function determination. Inside this field, we have studied the application of supervised classifícation at two different levéis. On one hand, we have developed a new method based on Bayesian networks for the secondary structure prediction. Although the results are not brilliant, in this thesis we suggest further works to improve them. On the other hand, we have developed a multiclassifier with the existing methods, based on the paradigm named stacked generalization. The results obtained by the multiclassifier are really satisfactory. We have improved the results of the individual methods. As a consequence of all the proposals, we have suggested a lot of further future work. í ndice general í n d i c e de figuras. índice de tablas. I INTRODUCCIÓN Y OBJETIVOS xiii xv 1 1 . I ntroducción y objetivos 1.1. A prendizaje con clasificación supervisada 1.1.1. Motivaciones del aprendizaje con clasificación supervisada 1.2. Biología computacional y bioinformática 1.2.1. Definiciones 1.3. Data mining e n biología computacional 1.4. Objetivos 1.4.1. Clasificación supervisada con modelos gráficos probabilísticos . . . . 1.4.2. P roblemática computacional 1.4.3. Predicción de la estructura secundaria de las proteínas con redes B ayesianas 1.5. Organización de la tesis 9 10 II 13 ESTADO DEL ARTE 3 3 5 6 6 7 8 8 9 2 . A p r e n d i z a j e c o n clasificación s u p e r v i s a d a 2 .1. Definiciones 2 .2. A lgoritmos de inducción 2 .3. V alidación 2 .3.1. M atriz de confusión 2 .3.2. Métodos de validación 2 .3.3. Á rea bajo la curva ROC 15 15 17 19 20 21 23 3 . C lasiñcación s u p e r v i s a d a con m o d e l o s gráficos probabilísticos 3 .1. R edes Bayesianas 3 .1.1. F uentes de incertidumbre 3.1.2. Tratamiento de la incertidumbre 3 .1.3. T homas Bayes 3.1.4. El teorema de Bayes 27 27 28 29 30 31 VIII Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional 3 .1.5. E structura de la red. Teoría de grafos 3.1.6. Estimación de los parámetros de una red Bayesiana 33 36 3.1.7. Definición formal de red Bayesiana 37 3.2. Naive-Bayes 3 .2.1. E stimación de probabilidades a priori en el clasificador naíve-Bayes . 3.2.2. Naive-Bayes con atributos continuos 3 .3. D iscretización de los atributos continuos 3 .4. Tratamiento de los valores ausentes 3 .5. E nfoques semi naiVe-Bayes 3 .5.1. E nfoques que tratan las variables a ser empleadas antes de aplicar n aíve-Bayes 3.5.2. Enfoques que corrigen las probabilidades producidas por naíve-Bayes 3 .5.3. E nfoques que seleccionan subconjuntos de instancias antes de la aplicación de nai've-Bayes 3.6. Naíve-Bayes aumentado 3.7. Enfoque manto de Markov III ALGORITMOS DE BÚSQUEDA 38 39 40 41 43 43 44 45 47 49 50 53 4 . E nfoque general 4 .1. D escripción general de las propuestas 4 .1.1. D iseño y paralelización de un nuevo algoritmo de clasificación semi n aíve-Bayes 4 .1.2. A prendizaje de clasificadores en el espacio de estructuras 4 .2. A lgoritmos de Estimación de Distribuciones (EDAs) 4 .2.1. I ntroducción . •. 4 .2.2. E DAs en dominios discretos 4 .2.3. E DAs en dominios continuos 55 55 5. P r o p u e s t a s 5 .1. C onjuntos de datos 5.2. Metodología experimental 5 .3. Interval Estimation naive-Bayes - l ENB 5 .3.1. P ropuesta 5.3.2. Estimación por intervalos 5 .3.3. E stimación de los parámetros en naíve-Bayes e lENB 5.3.4. Algoritmo 5 .3.5. Ejemplo 5.3.6. Resultados 5.4. Parallel Interval Estimation naive-Bayes - P IENB 5 .4.1. P ropuesta 5 .4.2. Estado del arte de la paralelización de algoritmos genéti...
View Full Document

Ask a homework question - tutors are online