Esto significa que el uso de la informacin evolutiva

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: ia observada secuencia predicha con los elementos de la medida SOV 7.4. Modelización matemática de las proteínas y de PSSP A continuación se presenta una modelización matemática de las proteínas y del problema de la predicción de la estructura secundaria. Consideramos que esta modelización matemática puede resultar de gran utilidad, ya que permite acercar este campo a los científicos de la comunidad del aprendizaje automático, consiguiendo que superen la barrera que normalmente impone la biología en estos casos. 7 .4.1. M odelización matemática E structura primaria Se define A = {A, C, D, E, F, G, H, I, J , K, L, M, AT, P , Q, R, S, T, V, W, Y} como el conjunto de todos los símbolos que denotan los aminoácidos. De esta forma. A* es el conjunto de todas las secuencias finitas formadas por los elementos del conjunto A. Los elementos de A* se denotan por x,y,z,..., por ejemplo, X € A*. Estructura primaria de la proteínas: c ualquier x € A* se denomina sub-unidad de proteína (hay que recordar que una proteína está formada por una o más sub-unidades). E s t r u c t u r a secundaria S ea S = {H, E, L} el conjunto de símbolos de los estados secundarios (H p ara hélices, E p ara P láminas y L para coil) y S* el conjunto de todas las secuencias finitas de elementos de S. Denotamos los elementos de S* por e, con subíndices en caso necesario. Por ejemplo, ei e S*. Cualquier función / de 1 a n f:A*-^S* en donde, (7.17) 144 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional f{x) = e I |ia:|| = ||e|| (7.18) se denomina función de identificación de estructura secundaria, f es una función de 1 a n , ya que para la misma estructura primaria pueden existir diversas estructuras secundarias, dependiendo de la forma de cristalización de la proteína. L os elementos (x, e) € / se denominan estructura secundaria de sub-unidad, d onde el e lemento e es la estructura secundaria de la sub-unidad s. C ualquier conjunto de datos (CD) utilizado en la predicción de la estructura secundaria de la proteínas, define su propia función de identificación feo d e forma empírica —a t ravés del programa DSSP, que toma la estructura tridimensional y devuelve la estructura s ecundaria-. De esta forma se tiene: -iCh CD = n^]\fcDÍx) = e^,xGA*,eeS* P or ejemplo, si un conjunto de datos tiene la sub-unidad ARNVSTVVLA tura secundaria observada HHHEEELLLH, s e puede definir como: fcviARNVSTVVLA) = HHHEEELLLH ARNVSTVVLA ^ HHHEEELLLH- ' ^ ^^ (7.19) c on estruc- (7.20) ^^-^^^ E structura terciaria Sea a; € ^ * la secuencia de una sub-unidad y (a;, e) € / la estructura secundaria de x. E l elemento: <Px = {(x, e),ta,),xeA*,e€S* (7.22) d enota la estructura secundaria de x, d onde tx '• A* x S* —> T ( siendo r el espacio t ridimensional) es la función de plegamiento terciaria d e la secuencia x. E structura cuaternaria L a estructura cuaternaria es el par ÍQJQ) (7.23) d onde Q e s el conjunto de todas las sub-unidades de la proteína y fg e s la función de plegamiento cuaternaria de Q. 7.4. Modelización matemática de las proteínas y de PSSP 145 D efinición simbólica d e l as proteínas U na proteína se puede definir como una cuaterna: Proteina P = {subunidades de P; sus estructuras secundarias; sus estructuras terciarias; su estructura (7.24) cuaternaria} es decir, Proteina P = {a;i,a;2, • • • ,Xn; ( a;i,ei), (x2,e2), • • -, (a;„,e„); « xi = {{xi,ei),tx^),ax2 ( L<^S1) Q:i2) • • • ! '^Xn\j = ( (a;2,e2),íx2),---,Q!x„ = (7.25) {(,Xn.,en),txJ; Jaxj^,ax2,-,axn)S donde Xi son las sub-unidades de la proteina P, txi son las funciones de plegamiento t erciario y f^^ Q,^ ,...,ax s s la función de plegamiento cuaternario. P or ejemplo, la hemoglobina, q ue está formada por cuatro sub-unidades, dos denominadas a y d os denominadíis /3, se podría definir simbólicamente como Hemoglobina P= {x,y;{x,ea:),{y,ey);a= ((a;,ea;),íx),/3 = iiy,ey),ty); {[a,a,í3,P],fa,a,i3,i3)} (7.26) Por último, se puede destacar que en la predicción de la estructura secundaria de las p roteínas se trata con sub-unidades y no con la proteína completa. De esta forma, se define P\xi p ara referirse sólo a la sub-unidad Xi, P\xi,ei-, p ara referirse a la sub-unidad x^ y a su e structura secundaria y P\ax- > p ara referirse a la sub-unidad Xi, a s u estructura secundaria y a s u estructura terciaria. D e ñ n i c i ó n simbólica de las v e n t a n a s de residuos S ea / : «4* — 5* una función de identificación de la estructura secundaria de una > s ub-unidad. Dado x = {xi,X2, - • - , Xn) ye — ( ei, e a , . . . , e„) con /(a;) = e, se define: f{x,e)\x,:A*^S (7.27) e n donde, /(x,e)U, = e i (7.28) D ado un conjunto de datos (CD) para la predicción de la estructura secundaria de las p roteínas, hay que recorrer secuencia por secuencia este conjunto de datos, generando las instancias para el aprendizaje y la validación de los diferentes clasificadores. La generación d e e...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online