Se puede por tanto definir una red bayesiana como un

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: ativa, es decir, el estimador máximo de verosimilitud de p robabilidades. A pesar de que esta estimación aparenta ser una buena aproximación hay q ue tener en cuenta que, para problemas reales, suele suceder que los casos de la base de d atos no abarcan todas las posibilidades de combinaciones entre valores de variables, con lo que este tipo de estimación puede llevar a una estimación de parámetros con abundancia d e ceros, o, lo que es peor, a situaciones en las que la estimación de la frecuencia indica que h ay cero casos de cero posibles. Otro problema de este tipo de estimación es el sobreajuste, y a que la tendencia a estimar probabilidades nulas acarrea una tendencia a estimar unos, lo cual puede hacer que la red Bayesiana no se comporte de forma adecuada para datos no p ertenecientes a la BBDD. Existen varios métodos que intentan solucionar estos problemas. U na de ellas, denominada ley de la sucesión de Laplace ( Good, 1965), en lugar de estimar la p robabilidad directamente como 'caso^otaies^' utiliza como estimación inicial el número q ue se obtiene al dividir j ^ ^ \ ^ . , d onde Nijk es el número de casos favorables^ Nij e s el n úmero de casos posibles^ y r, es el número de valores posibles de la variable ¿-ésima. P ara especificar la distribución de probabilidad de una red Bayesiana se debe proporcionar la distribución de probabilidad a priori de todos los vértices raíz (vértices sin p recedentes), así como las probabilidades condicionadas de todos los vértices no raíz, para c ada posible combinación de sus padres o predecesores directos. Estos números, en conjunción con el DAG especifican totalmente la red Bayesiana. La probabilidad conjunta de c ualquier punto n d imensional (Xj,. - . , X„) puede calcularse como: n P{xi, ...,xn) = ll P{xi I pa{xi)) (3.12) d onde Xi r epresenta el valor de la variable Xi y pa{xi) r epresenta el valor de los padres d e Xi. ^Nijk representa el número de veces que la variable i toma el valor k de entre aquellos casos en los que sus variables padres toman su j-ésima combinación. ^Nij representa el número de veces que las variables de la i-ésima variable toman su j-ésima combinación. 3 .1. R edes Bayesianas 3 .1.7. 37 Definición formal de red Bayesiana Hay varias maneras de dar una definición formal de red Bayesiana. Una definición que e ncaja con los apartados anteriores es la que se da en (Neapolitan, 1990): Sea n un conjunto finito de variables discretas definidas en el mismo espacio probabilístico, sea P su distribución de probabilidad conjunta y sea G = {V, A) un DAG. Para cada X & V sea pa{X) C V el conjunto de todos los padres de X y sea d{X) C V el conjunto de todos los descendientes de X. Además, para cada X € V se define a{X) C V como a{X) = V \ {d{X) U X), es decir, el conjunto de variables en V, excluyendo X y sus descendientes. Si para cada subconjunto W C a{X), W y X son condicionalmente independientes dadopa{X), es decir, si se cumple alguna de las dos condiciones siguientes: 1. P[X I pa{X)) = O ó P{W I pa{X)) 2. =O P{X I W A pa{X)) = P{X I pa{X)) entonces diremos que C = {V, A, P) es una red Bayesiana. S egún la definición anterior, dado un grafo acíclico dirigido y una distribución de p robabilidad sobre sus variables, se dice que hay separación direccional si, dado un vértice X c ualquiera, el conjunto de sus padres, pa{X), s epara condicionalmente este vértice de c ualquier otra variable Y e n que no haya descendientes de X. E s decir, si se verifica que: P{X I pa{X), Y) = P{X I pa{X)). Se puede, por tanto, definir una red Bayesiana como un grafo acíclico dirigido más una d istribución de probabilidad sobre sus variables, que cumple la propiedad de separación d ireccional. En la figura 3.5 se presenta un ejemplo de una estructura de red Bayesiana m últiplemente conectada. F igura 3.5: Red Bayesiana múltiplemente conectada 38 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional 3.2. Naíve-Bayes E l modelo gráfico probabilístico para clasificación supervisada más ampliamente utilizado es conocido como naive-Bayes [DH73, HYOl], y está basado en la aplicación del t eorema de Bayes. Na'íve-Bayes se basa en un modelo de independencia condicional de los a tributos predictores dada la clase, a pesar de lo cual garantiza una clasificación óptima si se cumplen un conjunto de suposiciones explícitas [DP96]. En la figura 3.6 se puede ver u na representación gráfica de este modelo. F igura 3.6: El clasificador na'íve-Bayes E n el momento de clasificar una nueva instancia /, se basa en el teorema de Bayes para c alcular, la probabilidad a posteriori con la que la instancia puede pertenecer a cada una d e las clases del problema, P{Ci\Xi=Xl,...,Xn = Xn) = ^yr- r-^ (3.13) d onde P{ci) es la probabilidad a priori de la clase a e n el conjunto de entrenamiento. D e todas formas, sabiendo que la instancia / es una conjunción de los n v alores de sus a tributos descriptivos Xi — xi,... ,Xn — Xnj...
View Full Document

This note was uploaded on 02/01/2012 for the course . . taught by Professor . during the Spring '11 term at Pontificia Universidad Católica de Chile.

Ask a homework question - tutors are online