E n segundo lugar se justificar la estimacin puntual

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: clase es generada por una combinación de dos o tres ondas básicas. 5.2. Metodología experimental D ebido a que esta tesis está centrada en el análisis de atributos discretos, todos los c onjuntos de datos utilizados han sido discretizados de la forma descrita en [Tin94]. Esta e tapa de preprocesamiento de los datos ha sido llevada a cabo con la biblioteca MLC++ [ KJL+94]. T odos los algoritmos desarrollados en este capítulo son validados con los 21 conjuntos d e datos antes descritos en la tabla 5.1. D os de estos conjuntos de datos están perfectamente definidos con un conjunto de a prendizaje y un conjunto de validación. En estos casos se actuará tal y como se puede o bservar en la figura 5.1. Los algoritmos de búsqueda buscarán el mejor individuo teniendo en cuenta sólo el conjunto de entrenamiento. Por tanto, cada uno de los individuos s erá vahdado con la técnica leave-one-out ó 10-fold cross-validation s obre el conjunto de e ntrenamiento. Una vez obtenido el mejor individuo, éste será validado con el conjunto de v ahdación. E n los 19 conjuntos de datos restantes se tiene un sólo conjunto. En este caso será utilizada la técnica de validación leave-one-out ó 10-fold cross-validation según l as capacidades d e computación lo permitan. Este procedimiento se puede observar en la figura 5.2. P or último, y a lo largo de toda la tesis, se mostrarán tablas o figuras de comparación d e los algoritmos desarrollados cuando se considere necesario. De forma complementaria a e stas tablas, en muchas ocasiones, se mostrarán los resultados del test no paramétrico d e Mann-Whitney para comprobar la hipótesis nula de la misma distribución de densidad p ara los resultados de los diferentes métodos. Por último, también serán utilizadas las c urvas ROC para la comparación de dos algoritmos determinados. 68 Clasificación Supervisada Basada en RRBB. Aplicación en Biología Computacional Conjunto de entrenamiento /C^=^ Búsqueda Mejor Candidato encontrado heurística Validación de candidatos: leave-one-out ó 10-foid '' Conjunto de validación Exactitud estimada F igura 5 .1: Validación de los clasificadores cuando el conjunto de datos está dividido en conjunto de aprendizaje y conjunto de validación Conjunto de Mejor Candidato datos encontrado 0 Búsqueda heurística Validación de candidatos: leave-one-out ó 10-fold F igura 5.2: Validación de los clasificadores con leave-one-out o 10-fold cross-validation 5 .3. 5.3.1. Interval Estimation nawe-Bayes — l E N B P ropuesta Se propone desarrollar un nuevo algoritmo de clasificación basado en el naiVe-Bayes. E ste algoritmo se puede encuadrar dentro de las variantes semi nai've-Bayes que corrigen l as probabilidades producidas por dicho clasificador. L a idea de desarrollar este algoritmo esta motivada básicamente por tres razones: • L as variantes semi naive-Bayes que corrigen las probabilidades producidas por naiveBayes. • L a inferencia estadística, que propone el uso de estimaciones por intervalo frente a l as estimaciones puntuales. • E l uso de algoritmos heurísticos de optimización para realizar la búsqueda del mejor clasificador dentro de un espacio de búsqueda predeterminado. C omo se vio en el capítulo 3, existen diversas variantes semi nai've-Bayes que corrigen l as probabilidades producidas por el clasificador naíve-Bayes. Por ejemplo, el algoritmo 5 .3. Interval Estimation naive-Bayes - l ENB 69 Iterative Bayes [GamOO] tiene como objetivo principal mejorar de forma iterativa las probabilidades condicionadas usadas en el modelo naiVe-Bayes. La idea fundamental que se p uede extraer de este algoritmo es la de buscar un método que, de forma efectiva, corrija l as probabilidades de naíve-Bayes con el fin de mejorar su exactitud. L a primera pregunta que cabría responder es ¿dónde buscar estas probabilidades? La i nferencia estadística proporciona una posible respuesta, ya que siempre se ha propuesto c omo una mejor solución realizar estimaciones por intervalo en lugar de estimaciones puntuales. A l realizar una estimación por intervalo se consigue un intervalo de confianza para u n determinado parámetro, de forma que es posible asegurar que el parámetro está dentro d el intervalo con un nivel de confianza específico previamente determinado. L a segunda y última pregunta a responder es ¿cómo encontrar las mejores probabilidades? En este caso la respuesta está en los algoritmos heurísticos de optimización, ya que es p osible realizar una búsqueda de la mejor combinación de valores dentro de los intervalos a ntes obtenidos, con el objetivo de maximizar la exactitud del clasificador. P or tanto, y a modo de resumen, en el nuevo algoritmo propuesto, en lugar de estimar p robabilidades puntuales de los datos, como se hace en nai've-Bayes, se realizan estimaciones por intervalo. A continuación, a través de algoritmos de optimización heurísticos se consigue la combinación de valores dentro de los intervalos que maximiza el tanto por c...
View Full Document

Ask a homework question - tutors are online