16 l as bsquedas de similitudes en bases de datos

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: eformar las secuencias hasta tal punto que pierdan su señal biológica. P ara evitar la deformación se penaliza la introducción de interrupciones. La forma más empleada penaliza por iniciar interrupciones {iG) y por extender interrupciones (eG), de la siguiente forma: ag = iG + eG{g - 1) donde g es la longitud de la interrupción. A mayor penalización, menor será el número de interrupciones. P ara realizar alineamientos de secuencias existen tres métodos: • DotPlots (matrices de puntos). • Métodos de programación dinámica. • Needleman-Wunsch [NW70]. • Smith-Waterman [SW81]. • Métodos heurísticos. • FASTA [LP85, LP88]. BLAST [AGM+90]. En secciones posteriores se explican en detalle estos métodos así como las matrices de sustitución de aminoácidos, que son empleadas para obtener alineamientos óptimos. 6 .5.1. M atrices de sustitución Cuando se busca el mejor alineamiento entre dos secuencias de aminoácidos, la matriz de sustitución empleada puede afectar en gran medida a los resultados obtenidos. Idealmente, los pesos de estas matrices deben reflejar los fenómenos biológicos de evolución subyacentes que el alineamiento pretende mostrar. Dos ejemplos de matrices de sustitución sencillas, que no hacen uso de fenómenos biológicos, son las siguientes: M atriz identidad. Mi-= J -^ ^ ^ = 3 '•^ ' O en otro caso • M atriz con base en el código genético. M¿j es igual al número mínimo de sustituciones necesarias que hay que realizar en las bases del codón del aminoácido i p ara convertirlo en el codón del aminoácido j . Es importante notar que el único caso que requiere una sustitución en cada una de las posiciones del codón es de metionina a tirosina y viceversa. = {I Sin embargo, en el problema de la predicción de la estructura secundaria de las proteínas, las matrices más utilizadas son las denominadas PAM y BLOSUM, que a continuación se definen. 6 .5. A lineamiento de secuencias 131 GLKV A(ala S(ser G(giy: Ldeu: K(lys 1 22 HMW 222 2 2 1 1 1 1 2 2 2 2 1 2 1 2 1 V (val T(thr: Ptpro E(glu: D(asp N(asn Kile Qígln R(arg FÍphe Y(try C (cys H(his M (met W(trp Z(glx B(asx x(??? 3 2 2 O 2 2 2 2 F igura 6 .15: Matriz con base en el código genético Matrices P A M L as primeras matrices PAM específicas fueron desarrolladas por Margaret Dayhoff et a l. e n 1978 [SD078, DS79]. Examinaron 1.572 cambios en 71 familias de proteínas estrechamente relacionadas. Durante este proceso se dieron cuenta de que las sustituciones que se habían producido en grupos de proteínas estrechamente relacionadas, no eran al azar. L legaron a la conclusión de que la sustitución de algunos aminoácidos, se produce con más f recuencia que la de otros, probablemente porque no tienen un gran efecto en la estructura y función de la proteína. Esto significa que proteínas relacionadas evolutivamente no n ecesitan tener los mismos aminoácidos en cada posición y que podrían tener aminoácidos c on características similares. De estas observaciones nació la matriz PAM. L as unidades PAM se emplean para medir la distancia evolutiva entre dos secuencias d e aminoácidos. Dos secuencias Sj y 52 están a una distancia evolutiva de una unidad P AM, si una serie de mutaciones puntuales aceptadas han convertido Si e n 52 con una m edia de una mutación puntual aceptada por cada 100 aminoácidos. L as matrices PAM codifican los cambios evolutivos esperados a nivel de aminoácido. C ada matriz PAM se diseña para comparar secuencias que estén a un determinado número d e unidades PAM de distancia evolutiva. Por ejemplo, la matriz PAM 120 está diseñada p ara comparaciones entre secuencias que están a 120 unidades PAM de distancia evolutiva. L a entrada {i,j) d e la matriz PAM A'' refleja la frecuencia a la que se espera que el aminoácido i s ustituya al aminoácido j e n dos secuencias, que están a una distancia evolutiva d e N u nidades PAM. Estas frecuencias deben ser estimadas recogiendo estadísticas de los a minoácidos sustituidos. M a t r i c e s B L O S U M - BLOcks SUbstitution Matrices L as matrices BLOSUM fueron calculadas por Steven Henikoff y Jorja G. Henikoff en el año 1992 [HH92]. La diferencia entre las matrices PAM y las BLOSUM es que las p rimeras se derivan de alineamientos globales de proteínas, mientras que las segundas v ienen de alineamientos sin interrupciones de secuencias más cortas. Esto es, de bloques 132 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional d e secuencias que son idénticas en un tanto por ciento definido de sus aminoácidos. Este t anto por ciento viene dado por el número asociado a la matriz BLOSUM. Por tanto, la m atriz BLOSUM N se calcula usando bloques de secuencias que son idénticas en un iV % d e sus aminoácidos- De este modo, el método BLOSUM incorpora muchos más datos en s us matrices y, por tanto, es supuestamente más exacto. L as matrices BLOSUM62 y BLOSUM50 son ampliamente utilizadas para alineamientos de pares de secuencias y para búsquedas de similitud en bases de datos. BLOSUM62 es e stándar para alineamientos sin interrupciones, mientras que la...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online