marrayclass12 - Clustering (Clasificacion No supervisada) I...

Info iconThis preview shows pages 1–8. Sign up to view the full content.

View Full Document Right Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: Clustering (Clasificacion No supervisada) I Edgar Acuna Departamento de Matematicas UPR-Mayaguez Metodos de clasificacin (llamado Reconocimiento de patrones en Ingenieria y Aprendizaje Automtico(Machine Learning en ciencias de computacin) se pueden aplicar a datos de expresin gentica obtenidos en experimentos con microarreglos. Eisen et al. (1998) fueron los primeros que escribieron un paper donde se usaba tcnicas de clasificacin para datos de expresin gentica. Los mtodos de clasificacin forman dos grandes grupos:-- Mtodos de conglomerados o de clasificacion no supervisada. Se agrupan muestras (filas) o genes o ambos a la vez basados en su separacin de acuerdo a una medida de distancia , llamada medida de similaridad. -- Mtodos de prediccin de clases o de clasificacin supervisada Las muestras son asignadas a clases que son conocidas de antemano. La asignacin se hace usando una funcin llamada el classificador y la cual es obtenida usando un conjunto de datos disponible que es conocida con el nombre de muestra de entrenamiento. Esta consiste de muestras y clases a las que pertenecen cada una de ellas. Introduccion La idea de analisis de conglomerados (clustering ) es agrupar muestras (filas) o features (columnas) o ambos a la vez, de acuerdo a la separacin entre ellas determinada por una medida de distancia dada, llamada medida de dissimilaridad . Se supone que las clases a las que pertenecen las muestras no son conocidas. Tambin es conocido con el nombre clasificacion no supervisado. Cluster 4 Para cada muestra (fila) existe un vector de mediciones X =(X 1 , X G ). El objetivo es identificar grupos de muestras similares basado en m mediciones observadas X 1 = x 1 ,., X n = x n . Por ejemplo si las Xs representan niveles de expression obtenidos en microarreglos de tumores cancerosos uno podria identificar las caracteristicas de las personas que tienen distintos tipos de tumores. Cuando el numero de columnas es bastantes grande se pueden formar tambien grupos de columnas con similar comportamiento y en consecuencia se puede reducir la dimensionalidad que es muy conveniente si se quiere usar luego un modelo para hacer predicciones. Pues es mucho mas conveniente predecir con 10 features que con 100. Tambin se puede aplicar conglomerados simultaneamente a filas y columnas (Bi-clustering) (ver paper de Alon, et al, 1999, Getz et al , 2000 y Lazaeronni y Owen, 2000) Aspectos importantes en el analisis de conglomerados i) Qu genes usar? Todos o aquellas que son mas diferencialmente expresados o una muestra aleatoria de ellos?. Puede ser computacionalmente pesado usar todos los genes....
View Full Document

Page1 / 35

marrayclass12 - Clustering (Clasificacion No supervisada) I...

This preview shows document pages 1 - 8. Sign up to view the full document.

View Full Document Right Arrow Icon
Ask a homework question - tutors are online