marrayclass12 - Clustering(Clasificacion No supervisada I...

Info iconThis preview shows pages 1–8. Sign up to view the full content.

View Full Document Right Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: Clustering (Clasificacion No supervisada) I Edgar Acuna Departamento de Matematicas UPR-Mayaguez Metodos de clasificación (llamado Reconocimiento de patrones en Ingenieria y Aprendizaje Automático(Machine Learning en ciencias de computación) se pueden aplicar a datos de expresión genética obtenidos en experimentos con microarreglos. Eisen et al. (1998) fueron los primeros que escribieron un paper donde se usaba técnicas de clasificación para datos de expresión genética. Los métodos de clasificación forman dos grandes grupos:-- Métodos de conglomerados o de clasificacion no supervisada. Se agrupan muestras (filas) o genes o ambos a la vez basados en su separación de acuerdo a una medida de distancia , llamada medida de similaridad. -- Métodos de predicción de clases o de clasificación supervisada Las muestras son asignadas a clases que son conocidas de antemano. La asignación se hace usando una función llamada el classificador y la cual es obtenida usando un conjunto de datos disponible que es conocida con el nombre de muestra de entrenamiento. Esta consiste de muestras y clases a las que pertenecen cada una de ellas. Introduccion La idea de analisis de conglomerados (“clustering” ) es agrupar muestras (filas) o features (columnas) o ambos a la vez, de acuerdo a la separación entre ellas determinada por una medida de distancia dada, llamada medida de dissimilaridad . Se supone que las clases a las que pertenecen las muestras no son conocidas. También es conocido con el nombre clasificacion no supervisado. Cluster 4 Para cada muestra (fila) existe un vector de mediciones X =(X 1 , …X G ). El objetivo es identificar grupos de muestras similares basado en m mediciones observadas X 1 = x 1 ,…., X n = x n . Por ejemplo si las X’s representan niveles de expression obtenidos en microarreglos de tumores cancerosos uno podria identificar las caracteristicas de las personas que tienen distintos tipos de tumores. Cuando el numero de columnas es bastantes grande se pueden formar tambien grupos de columnas con similar comportamiento y en consecuencia se puede reducir la dimensionalidad que es muy conveniente si se quiere usar luego un modelo para hacer predicciones. Pues es mucho mas conveniente predecir con 10 features que con 100. También se puede aplicar conglomerados simultaneamente a filas y columnas (Bi-clustering) (ver paper de Alon, et al, 1999, Getz et al , 2000 y Lazaeronni y Owen, 2000) Aspectos importantes en el analisis de conglomerados i) Qué genes usar? Todos o aquellas que son mas diferencialmente expresados o una muestra aleatoria de ellos?. Puede ser computacionalmente pesado usar todos los genes....
View Full Document

This note was uploaded on 05/12/2010 for the course APPLIED ST 2010 taught by Professor Various during the Spring '10 term at Universidad Nacional Agraria La Molina.

Page1 / 35

marrayclass12 - Clustering(Clasificacion No supervisada I...

This preview shows document pages 1 - 8. Sign up to view the full document.

View Full Document Right Arrow Icon
Ask a homework question - tutors are online