200x - Concordance entre deux Partitions - quelques propositions et expériences

200x - Concordance entre deux Partitions - quelques propositions et expériences

Info iconThis preview shows pages 1–3. Sign up to view the full content.

View Full Document Right Arrow Icon
Concordance entre deux Partitions : quelques propositions et expériences Gilbert Saporta Chaire de Statistique Appliquée et CEDRIC CNAM 292 rue Saint Martin 75141 Paris Cedex 03 saporta@cnam.fr Genane Youness Institut des Sciences Appliquées et Economiques CNAM-Université Libanaise et CEDRIC BP113 6175 Hamra Beyrouth, Liban YOUNESS1@TERRA.NET.LB RÉSUMÉ . Nous proposons une méthodologie pour étudier la distribution du critère de Rand, dans le cas où les deux partitions devraient concorder.Utilisant un modèle de profils latents, on simule des données que l’on classe selon deux groupes de variables.La distribution de l’indice de Rand et d’un indice adapté du test de Mac Nemar se révèle être bimodale. MOTS-CLÉS : classes latentes, K-means, indices d’associations, tests statistiques,partitions 1. Introduction Quand on dispose de deux partitions effectuées sur les mêmes individus, par exemple avec deux jeux de variables, ou bien avec deux algorithmes, la question se pose naturellement de savoir si ces deux partitions sont en accord ou bien si elles différent significativement, en un sens à préciser. Une maniére d’aborder ce problème consiste à calculer un indice de concordance entre partitions et à définir une valeur critique au dessus ou en deça de laquelle on concluera que les deux partitions sont ou non concordantes. A l’indice bien connu de Rand, nous proposons d’ajouter un indice inspiré du test de Mac Nemar . Il faut alors connaitre, au moins approximativement, la distribution de probabilités de ces indices. Mais sous quelle hypothèse ? Cette question ne semble curieusement pas avoir été traitée dans la littérature, en tous cas pas sous des hypothèses réalistes [SAP 97]. En effet les rares travaux connus et récents [IDR 00], concernent la distribution de l’indice de Rand sous l’hypothèse d’indépendance. Or cette hypothèse n’est évidemment pas pertinente pour la question posée, car la non-indépendance ne signifie nullement une forte concordance. La difficulté est de conceptualiser une hypothèse nulle d’identité de deux partitions. On se trouve dans une situation voisine de celle où on voudrait tester que deux variables numériques sont identiques : or si ρ =1, on sait bien que r=1 et on n’a donc pas de test utile de l’hypothèse nulle qui se trouve rejetée dès que r<1 . Notre approche va consister à étudier la distribution de l’indice de Rand et de celui dérivé de Mac Nemar en engendrant par simulation des partitions qui devraient être proches car issues d’un même modèle sous-jacent : nous utiliserons pour cela un modèle de classes latentes régissant la distribution de p variables. On partage ensuite arbitrairement les p variables en deux groupes et comparons les partitions engendrées par une méthode classique de nuées dynamiques sur chacun de ces groupes de variables.
Background image of page 1

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon
2. Indices d’accord entre partitions 2.1. Notations V 1 et V 2 sont deux partitions des mêmes individus (ou deux variables qualitatives). On supposera que le
Background image of page 2
Image of page 3
This is the end of the preview. Sign up to access the rest of the document.

This note was uploaded on 11/29/2010 for the course DEC 123 taught by Professor Fr during the Spring '10 term at ENS Cachan.

Page1 / 7

200x - Concordance entre deux Partitions - quelques propositions et expériences

This preview shows document pages 1 - 3. Sign up to view the full document.

View Full Document Right Arrow Icon
Ask a homework question - tutors are online