Juntando el conjunto de datos cb554 y rs126 y 138

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: l uso de diversos programas diferentes y un grado de experiencia considerable. En consecuencia, p ara dejar el poder de la búsqueda con perfiles fácilmente disponible, Altschul et al. [AMS'''97] crearon un procedimiento para construir PSSMs automáticamente a p artir de la salida de la ejecución de BLAST, y modificaron BLAST para que opere con tales matrices en lugar de con una simple secuencia. El programa PSI-BLAST q ue obtuvieron como resultado, es a menudo considerablemente más sensible que B LAST. Los objetivos para el desarrollo de PSI-BLAST fueron: operación automática, velocidad y sencillez. Los pasos del algoritmo PSI-BLAST son: 134 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional PSI-BLAST Secuencia original iSVLQVLHIPDERLR... i Matriz de sustitución BLOSUM 62 1 \ V^-NRE^ \7 AR ND s 76 0 V L Q V L H 00 1 35 03 00 00 00 5 18 000 28 2 17 1 13 0 1 0 0 0 0 16 c 0 0 0 0 0 0 0 0 1 E R L- 00000 R 2 52 D 0 0 £ 00 00 00 7 19 000 102 1 14 6 0003 1 0 17 5 4 3307 2 23 0 0 P Q 0 GH1L KMFP 0 0 0 0 0 1 0 0000 0 45 17 1 1 0 38 16 0 0 1 12 0 75 10 0 2 16 28 2 3 8 4 13 07036 0 1 50 0 0 0 7 0 10 0 2 12 0 2 1 1 0 1 1 17 00000 01080 15 0 0 0 3 0 0 2 8 2 96 0 8 14 0 1 2 0 s 0 0 17 020 100 0 31 1 22 T 7 0 0 1 w 0 0 0 0 0 0 0 0 0 3 00 05 0 11 77 0 0 40 00 0 59 20 20 0 1 0 0 3 0 4 2 1 0 0 7 1 0 0 0 0 0 7 0 5 0 0 0 2 1 5 12 0 2 0 0 YV 0 0 4 1 0 1 6 24 0 1 0 0 0 34 1 0 11 32 4 6 0 0 0 37 00 0 1 F igura 6.16: Obtención del perfil de una secuencia con la herramienta PSI-BLAST 1. Toma como entrada una simple proteína y la compara con las proteínas de la b ase de datos, usando el programa gapped B LAST [AMS"^97]. 2. C onstruye un alineamiento múltiple y, a partir de éste, un perfil empleando a lineamientos locales significativos encontrados. La secuencia que toma como e ntrada sirve como plantilla para el alineamiento múltiple y para el perfil. 3. E l perfil se compara con las secuencias de la base de datos, buscando de nuevo a lineamientos locales. 4. P SI-BLAST estima la significancia estadística de los alineamientos locales encontrados. Puesto que las puntuaciones del perfil se construyen a una escala fija [KA90], y l as penalizaciones por la inserción de interrupciones siguen siendo independientes de la posición, la teoría estadística y los parámetros para obtener alineamientos con gapped BLAST [AG96] siguen siendo aplicables a los a lineamientos del perfil [AMS+97]. 5. F inalmente, PSI-BLAST itera, volviendo al paso 2, un número arbitrario de veces o hasta que converge. La convergencia se alcanza cuando no se detectan n uevos alineamientos significativos. C apítulo 7 E studio del problema y propuestas E n este capítulo realizamos tres propuestas dentro del problema de la predicción de la e structura secundaria de las proteínas. E l índice del capítulo es el siguiente: • E n la sección 7.1 se realiza un estudio del problema y se plantean las diferentes p ropuestas. • P ara la realización de todas estas propuestas es necesario partir de unos conjuntos d e datos de proteínas ya conocidos, de tal forma que los resultados obtenidos puedan s er comparados de forma más ecuánime. En la sección 7.2 se enumeran los conjuntos d e datos que serán utilizados. • L a sección 7.3 explica las estadísticas que habitualmente se obtienen en este dominio p ara la validación de los resultados logrados por los diferentes métodos de predicción d e la estructura secundaria. • E n la sección 7.4, y dentro de las nuestras propuestas, se presenta una modelización matemática de las proteínas y del problema de la predicción de la estructura s ecundaria de las proteínas. • E n la sección 7.5, se desarrolla un clasificador para la predicción de la estructura s ecundaria basado en redes Bayesianas. • P or último, en la sección 7.6, se desarrolla la propuesta de un multiclasificador basado e n redes Bayesianas para el problema de la predicción de la estructura secundaria d e las proteínas. 7 .1. E studio del problema y propuestas A c ontinuación se detallan las tres propuestas que son realizadas dentro del problema d e la predicción de la estructura secundaria de las proteínas y el porqué de las mismas. 136 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional 7 .1.1. M odelización m a t e m á t i c a de las proteínas y del problema P S S P H emos realizado una modelización matemática de las proteínas y del problema de la p redicción de la estructura secundaria. E sta modelización matemática resulta de gran utilidad, ya que permite acercar el cam.po de la proteómica y de la predicción de la estructura secundaria a los científicos de la comunidad del aprendizaje automático, consiguiendo superar la barrera que supone la b iología para los investigadores en inteligencia artificial. 7 .1.2. Desarrollo de un clasificador para la PSSP con redes Bayesianas El problema de la predicción de la estructura secundaria de la...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online