A continuacin a travs de algoritmos de optimizacin h

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: ás, gozan de una sólida base en la teoría de la probabilidad. E l método gráfico probabilístico para clasificación más ampliamente utilizado es conocido como na'íve-Bayes [DH73, HYOl] y se basa en la aplicación del teorema de Bayes. Este m étodo parte de la suposición de la independencia condicional de los atributos predictores d ada la clase. A demás, las redes Bayesianas también se han incorporado a tareas de clasificación s upervisada [FG96, SL98]. De esta forma, es posible utilizar factorizaciones de probabilidad r epresentadas por las redes Bayesianas para realizar clasificaciones. • D entro de este campo se plantean los objetivos que a'continuación se detallan. D esarrollo de u n n u e v o algoritmo de cleisificación basado e n n á í v e - B a y e s C omo ya se ha comentado, el método probabilístico para clasificación más utilizado es conocido como na'íve-Bayes. Dicho método se basa en un producto de probabilidades c ondicionales, que son estimadas a partir de los datos del conjunto de entrenamiento g racias a una estimación puntual. Nos proponemos analizar la implementación de un nuevo algoritmo en el cual, en lugar d e estimar probabilidades puntuales de los datos como se hace en náíve-Bayes, se realicen estimaciones por intervalo. A continuación, a través de algoritmos de optimización h eurísticos, se tratará de buscar la combinación de valores dentro de los intervalos que maximiza el tanto por ciento de bien clasificados. Estos valores serán las nuevas y mejoradas p robabilidades que se usarán en na'íve-Bayes. A prendizaje de clasificadores semi na'íve-Bayes N o es de extrañar que, debido al gran éxito cosechado por el clasificador naíve-Bayes, s ean muchas las variantes de este método que intentan mejorar sus resultados. Las variantes d e este método son genéricamente denominadas enfoques semi naíve-Bayes [HYOl]. En el capítulo 3 se describen los principales algoritmos semi náíve-Bayes existentes en la h teratura. Los clasificadores semi na'íve-Bayes están normalmente basados en la realización de b úsquedas de determinadas estructuras. Estas búsquedas se suelen realizar a través de a lgoritmos de búsqueda voraz (greedy). 1.4. Objetivos E n esta tesis estudiaremos la realización de búsquedas heurísticas de estructuras propuestas en diversos enfoques semi naive-Bayes, frente a las búsquedas voraces realizadas e n la actualidad. A p r e n d i z a j e de clasificadores basados en redes Bayesianas P ara poder utilizar las redes Bayesianas como clasificadores supervisados es fundamental que la estructura de red utilizada sea aprendida con objetivos clasificatorios, esto es, q ue se haya tenido en cuenta en el proceso de aprendizaje estructural, el hecho de q ue existe una variable cuya probabilidad a prior i es primordial en el manejo de la red B ayesiana. E n la literatura existen diversos algoritmos que realizan búsquedas de este tipo de e structuras, basándose en la cantidad de información mutua condicionada a la variable c lase. En esta tesis nos proponemos el desarrollo de algoritmos voraces y heurísticos, g uiados por el tanto por ciento de bien clasificados, para la obtención de dichas estructuras. 1 .4.2, Problemática computacional S abemos que algunas de las propuestas anteriormente citadas pueden ser muy costosas d esde el punto de vista computacional, en gran medida por las búsquedas heurísticas que se deben realizar. P or tanto, haremos un estudio y, en caso necesario, una paralelización de los algoritmos m ás costosos. 1.4.3. P r e d i c c i ó n d e la e s t r u c t u r a s e c u n d a r i a d e l a s p r o t e í n a s c o n r e d e s Bayesianas L as importantísimas aplicaciones de las proteínas, tanto a nivel médico como a nivel i ndustrial, han creado un enorme interés en el diseño e implementación de técnicas que p ermitan predecir la estructura tridimensional de las mismas. La estructura tridimensional d e una proteína es la que nos indica su función y, por tanto, las aplicaciones que tendrá. E sta parte de la tesis se encuadra dentro de la predicción de la estructura secundaria d e las proteínas (PSSP). El estudio de la estructura secundaria de las proteínas es de vital i mportancia ya que [SLBOO] proporciona un punto de partida para la predicción de la e structura tridimensional de las proteínas y puede mejorar significativamente el análisis d e secuencias o las técnicas de threading [ RCB96], que ayudan en la determinación de la e structura y función de las proteínas. D entro del campo de la predicción de la estructura secundaria de las proteínas nos m arcamos diversos objetivos que a continuación se detallan. M o d e l i z a c i ó n m a t e m á t i c a de las proteínas y del problema P S S P N os proponemos realizar una modelización de las proteínas y del problema de la predicción de la estructura secundaria. E sta modelización matemática resultaría de gran utilidad, ya que permitiría acercar el c ampo de la proteómica y de la pr...
View Full Document

Ask a homework question - tutors are online