6 - chap6-slides

6 - chap6-slides - Chap 6: nuées dynamiques Marc Parizeau...

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: Chap 6: nuées dynamiques Marc Parizeau GIF-21410/64326 Réseaux de neurones Principes • Apprentissage compétitif • Les poids sont des prototypes dans l’espace des stimuli une distance de nuage • On remplace le produit scalaire par • les neurones deviennent des centres 2 GIF-21410/64326 Réseaux de neurones ´ CHAPITRE 6. NUEES DYN Entrée Couche de K neurones p Rx1 W KxR n Kx1 C K a Kx1 R ni = ! ||iw ! p|| a = compet(n) F I G . 6.1 – Couche competitive de S = K neurones. ´ 3 GIF-21410/64326 Réseaux de neurones u2,Q (6.3 . . . L’algorithme dit du classe uK,1w = 2 uK C2 , . . . , CK }. Il s’agit ici d’une partition uK,j =1· ·c’est-,`,Q i = d’une ,K,1. uK,2 de· K uK,Q rigide, · uK -dire 1, . . . collection · · sous a i Q ` chaque stimulus d’entree appartient a une et une seule classe de la partition U : ´ ` mbles ou ´ ec ui,j ∈ {0, 1} designant l’appartenance 0, 1stimulusui,j al’appartenance du stimulus pj a la pj ´ ` avec ui,j ∈ { du } designant` la classe Ci : j =1 u1,1 u1,2 · · · u1,Q 1 si p ∈ C 1 u=1 u2,2 .j. . ui2,Q ui,j 2, (6.4 partition en la nouvelle partition autrement . . l’equation 6.8 ;si pj ∈ Ci(6.3 ui,j = . (b) Calculer t` de . 0 . U(. ) a l’aide ´ U= . 0 autrement . .. . . . . K classes 1 ; (c) t = t + plus, on impose les deux contraintes K,1vantes sur·cetteK,Q u partition : De plus,u suiimpose les ·deux contraintes suivantes sur cette par on uK,2 · 5. Tant que U(t) = U(t − 1) et t ≤ tmax . K ´ ` ui,j ∈ {0, 1} designant l’appartenance du stimulus pj a la classe Ci : K ui,j =– , j = 1, . . .du «k-means». 1Algorithme , Q, (6.5 F I G . 6.2 ui,j = 1, j = 1, . . . , Q i=1 1 si pj ∈ Ci i=1 uQ = . (6.4 i,j 0 autrement Connaissant les centres W =u[i,jw 2 w · · i· K w, T .des classes, l’indice de performance F Q 1 > 0, = 1 ] . . , K. (6.6 ´ que l’on desire minimiser peutj =1 suivantes sur facon suivante s’e ¸ lus, on impose les deux contraintes xprimer de lacette partition : : ui,j > 0, i = 1, . . . , K u 2 ,1 u 2 ,2 . . . u2,1 u2,2 Q . . . u2,Q U. U= . . ... . . = . ... . . . . . . . ui,j p . «k-means» permet de partitionner jl’ensemble des. stimuli en K K-means ` ´ ` premiere specifie que tout stimulus doit appartenirK une et une seule classe de la partition, alor a Q K indice´ de La premiere posseder 1, . (tout)stimulusw||2 ` et u ` e la deuxieme precise qu’une classe doit specifie quemoins||p stimulus. appartenir a une (6.5 F (U` W1, ´ ´ = au . u, Q, un − doit , = ) =j u . j =1 i performance ´ ´ quei=1 deuxieme precise qu’une classe doit posseder au moins la i,j ` j =1 i=1 i,j j Q ` ` ou l’on cherche a trouver la partition qui minimise la distance entre les centres des clas ui,j > 0 i = 1, . . . K. ´ ´ ´` stimuli. L’algorithme iteratif permettant, d’optimiser, cette fonction objectif est resum(6.6 ea j =1 GIF-21410/64326 Réseaux de 4 ` 6.2. Il se poursuit tant que la mise a jour des centres engendre une modification neurones de la par ´ ´ 1. Initialiser les centres W(0) en choisissant aleatoirement K stimuli parmi les Q donnees d’apprentissage ; ` ´ 2. Calculer la partition initiale U(0) a l’aide de l’equation : ui,j = 1 si ||pj − i w|| = min ||pj − k w|| 0 autrement k , i = 1, . . . , K, j = 1, . . . , Q, (6.8) ´ ´ en brisant (arbitrairement) les egalites, s’il y a lieu, en choisissant la classe dont l’indice est minimum ; 3. t = 1 ; ´´ 4. Repeter : (a) Calculer les nouveaux centres W(t) en calculant les centro¨des des classes : ı Q ui,j pj iw = j =1 Q , i = 1, . . . , K. ui,j (6.9) j =1 ` ´ (b) Calculer la nouvelle partition U(t) a l’aide de l’equation 6.8 ; (c) t = t + 1 ; 5. Tant que U(t) = U(t − 1) et t ≤ tmax . F I G . 6.2 – Algorithme du «k-means». 5 GIF-21410/64326 Réseaux de neurones 72 ´ CHAPITRE 6. NUEES DYNAMIQUES (a) (b) F I G . 6.3 – Example d’une partition rigide en deux classes : (a) cas sans bruit ; (b) cas avec bruit. notions d’ensemble flou et de partition floue. 6.2 Fuzzy K-means 6 GIF-21410/64326 Réseaux de neurones s d’ensemble flou et de partition floue. lgorithme dit du «k-means» permet de partitionner l’ensemble des stimuli en K classes ` , . . . , CK }. Il s’agit ici d’une partition rigide, c’est-a-dire d’une collection de K sous` ` lesFuzzy K-means ee appartient a une et une seule classe de la partition U : ou chaque stimulus d’entr ´ Fuzzy K-means j 1 ,1 1 ,2 1 ’algorithme dit du «fuzzy k-means»1 (le k-means ,Q est semblable au k-means, sauf flou) u2,1 u2,2 . . . u2,Q partition U = ´ ´ tition engendree par les centres .est floue, c’est-a.-dire que le degrj ≤ 1 (6.3) 0 ≤ ui, e d’appartenance ui . . . . `. . . . ` ´´ us pj a la classe Ci varie dans .l’intervalle [0, 1] . au d’etre element de {0, 1}, com lieu ˆ floue uK,1 uK,2 · e uKminimiser s’exprime maintenant par emment. L’indice de performance que l’on· d·´ sire ,Q partage on :{0, 1} designant l’appartenance du stimulus p a la classe C flou ´ ` ∈ du : u u ··· u Q K j i Fm (U, W) =1 si p (ui,j )m ||pj − i w||2 , j ∈ Ci ui,j = 0 autrement j =1 i=1 . (6.4) (6 ´ ´ > 1 est un exposant qui fixe le niveau de flou1 l’algorithme dont les etapes sont resum de ,gure 6.4. L’algorithme se poursuit ainsi tant que la mise a jour des centres engendre on impose les deux contraintes suivantes sur cette partition : ` ||pj − i w|| uK ( ) = K ´ `2 ´ cation non negligeable de la tpartition floue, ou jusqu’a un nombre maximum d’iterat i,j m− 1 1 ui,j = 1, j = fixant Q, (6.5) ´´ ´´ eneralement, on juge de la convergence en 1, . . . , un seuil ε sur l’element de la matrice U i=1 ´ ´ ´ ` ge le plus. Si ce changement est inferieur||pjseuil w|| , on considere alors que l’algorit au − k fixe k=1 Q ´ erge. ui,j > 0, i = 1, . . . , K. (6.6) 2 m− 1 ` ´ ´ e parametre m de l’algorithme determine le niveau de partage des degres d’apparten j =1 GIF-21410/64326 Réseaux de neurones 7 ´´ ` matrice U. On fixe generalement m = 2. Plus m augmente, plus on se trouve a part ´ ´ 1. Initialiser les centres W(0) en choisissant aleatoirement K stimuli parmi les Q donnees d’apprentissage ; ` 2. Fixer les parametres m et ε ; ` ´ 3. Calculer la partition initiale U(0) a l’aide de l’equation : ui,j = 1 K k=1 2 m−1 ||pj − i w|| ||pj − k w|| , i = 1, . . . , K, j = 1, . . . , Q; (6.11) 4. t = 1 ; ´´ 5. Repeter : ` ´ (a) Calculer les nouveaux centres W(t) a l’aide de l’equation : Q (ui,j )m pj iw = j =1 Q , (ui,j )m i = 1, . . . , K. (6.12) j =1 ´ (b) Calculer la nouvelle partition floue U(t) en utilisant l’equation 6.11 ; (c) t = t + 1 ; 6. Tant que max |ui,j (t) − ui,j (t − 1)| > ε et t ≤ tmax ; i,j F I G . 6.4 – Algorithme du «fuzzy k-means». 8 GIF-21410/64326 Réseaux de neurones ´ CHAPITRE 6. NUEES DYNAM A B F I G . 6.5 – Exemple d’une partition floue a deux classes. ` 9 GIF-21410/64326 Réseaux de neurones u l’autre des deux classes, en fonction de l’emplacement exact de ces points ains ´ ` c un de le d’appartenance non nul. 6.10), car on tendrait sont´ identiques a vers de l’algo ´ ´ que pourgre fuzzy k-means (equation Ces deux contraintes systematiquementcellesdes degre 2 lgorithme dit du «Possibilistic k-means» cherche ´aun deuxieme terme a cettedu fuz aux limitations fonctio ` me du fuzzy k-means. La troisieme s’agit alors d’ajouter` pallier ` ` ppartenance arbitrairement petits. Ilcontrainte, celle de l’equation 6.16, se distingue cependan ` a fois ant la contrainte de l’ ´ k-means 6.5 et en levdu k-means et du fuzzy equation qui impose modifiantstimulus d’avoir l’expression de ´ ectif pour stimuler l’emergence de ui,j les plusen a chaque la fonction objectif de man grands possibles. On utilise une somme su ´ ´ `´ ˆ gres verger vers unegsolution quation 6.5). tous les degres d’appartenance seraient nuls ` ´ con d’appartenance e ale a 1 (e triviale ou Le possibilistic k-means impose plutot que chaqu te : ` ´K mulus appartienne a aufloue U doivent alors un degre d’appartenance non nul.suivantes : a QK Q ts ui,j de la partition moins une classem vec respecter les trois contraintes Ceci impliqu 2 F degr ´W) = (ui,j ) || stimulus ` + ηi des classes (6.1 e la somme desm (U,es d’appartenance d’un pj − i w||a l’ensemble (1 − ui,j )m ,peut maintenan `( e soit plus petite, soit plus ∈j =1 ,i=1quei1, d’une .part,, et qu’un.stimulus puisse appartenir a un ui,j grande , [0 1] = 1, . . , K j =i=1, . j.=1Q, 1 , ´ ´ ´` le ηi sont vec un degrpositives adequates erieur a 1, d’autre part. Dans ce associ ´cas, classe C ´ ´ ` les classe ades valeurs e d’appartenance infrepresentant l’etendue du nuagederniere a laun stimu ´`´ ´ ` bruite terme de e de equationQ ´ ` premiertres eloigncette tous les centres pourra n’appartenir qu’a une seule classe, avet les centr cherche a minimiser les distances entre les stimuli ec un degr ppartenance arbitrairement eme force > 0ui,j ia=tre, . . . , K, en evitant donc la solution t( SSIBILISTIC K-MEANS ` ˆ ´ classes, alors que le deuxipetit. ui,j les , ` e 1 maximum j ´ s dans cette fonction objectif sont les ηi optimiser la memeefonction objec le.Pour eeements clecontraintes, =1 Les ´ l ´ ˆ r ´ aliser ces cependant, on ne peut pas qui viennent pond ´ rer l’importan ` tive de ces J.M. k-means ´ rishnapuram,fuzzy Keller, « equation 6.10), car on Clustering» ´ matiquement vers des degree ´ que pour le deux criteres. A(Possibilistic Approach totendrait syst,eIEEE Transactions on Fuzzy Sy Possibilistic K-means ´` lesfuzzy k-means. La troisieme quatesm esentantdeel’equation 6.16, se distingue cepe positives ade contrainte, celle l’ ´ tendue du nuage associe a la classe C repr ´ `´ ´ u ηi sont des valeursi,j Fm (ui,j , i w) = (ui,j ) ||pj − i w||2 + ηi (1 − ui,j )m . (6.1 ´ ` premier terme de cettefuzzy k-means qui impose a chaque stimulus d’avoir et les somm equation cherche a minimiser les distances entre les stimuli une centre ` s du k-means et du ˆ ´ s ’appartenance egaledeuxieme force 6.5). i,j a possibilistic k-means impose la solution tri classes, alors que le a 1 (`´ ´ ` e a ui,j et, les u Le` etre maximum en evitant donc ´pluto que c ˆ ´ ` ´ ` l’on peut deriver par rapport quation en affectant le resultat a 0, on obtient le resultatt suivan ´´ ´ le. Les elements ´ dans cette ` au ´ s appartienne a clesmoins unefonction avec unsont les d’appartenance nonrer l’importanc classe objectif degre ηi qui viennent ponde nul. Ceci imp ` ative de ces deux criteres. 10 1 ´ ` GIF-21410/64326 Réseaux peut main omme des degres d’appartenance d’un stimulus a l’ensemble des classes de neurones . (6.1 u= . 2, p. 98-110, mai 1993. ` ` ppartenance arbitrairement petits.ui,js’agit ,importe1de .remarquer que les contraintes impose Il > 0 j d’ajouter un ´ Pour optimiser cette fonction objectif, il alors= , . . , Q, deuxieme terme a cette fonctio ´´ jectif pour stimuler l’emergence de 6.14 les6.16) rendent possibles. et les colonnes de la matri i ` le possibilistic k-means (equations ui,j a plus grands les lignes On utilise l’expression sui te ´: ´´ nde premieres contraintes i,j ´K maintenant libres de que les inde es d’appartenance ` euxpendantes. En effet, les uQ ecifient respectivement changer degrpendamment les uns d sp sont Q K m res car la contrainte ,de l’equation et ui,j )ete lej ee.i w||classe doit posseui,jde minimiser Fm p x classes sont m (U W) ´entre 0 6.6 a et ´||pv ´ Ceci + ηi (1 donc )m , moins un sti toute 2 nous permet −´ der au F compris = ( 1, ´ que − (6.17 i,j `U portgre d’appartenance non nul. Ces deux contraintes sontalors les termes celles deml j =1 i=1 =1 j =1 ` de a ´ en minimisant individuellement chaque ui,j . On iobtient identiques a Fm de F K ` e flou maximumviduellement chaque ui,j . On obtient alors les termes F minimisant indi puisque tous les stimuli appartiennent a toutes les clas . misant individuellement chaque ui,j . On obtient alors les te Pour le fuzzy k-means on conseille habituellement m = 2 qui donne i,j Fm (ui,jdes situations.mPour − ipossibilistic − ui,j )m . cette vale , i w) = (ui,j ) ||pj le w||2 + ηi (1 k-means, ans la plupart i,j ˆ n conseillei,j , i w) .=≤ ui,j<m .||pj − i w||2 + ηi (1 − ui,j )m . Fm (u plutot 1 5 ( m ) 2 ´ ` ´ ` ´ eriver par rapport a ui,j et, en affectant le resultat a 0, on obtient le resu ´ ` ´ de ηi determine la distance a partir de laquelle le degre d’appartenance r par rapport aen i,j et, ensorte la 1 le resultat ade la classe Ci , a ient 50%. C’est` u quelque affectant d’influence` 0, on obtient` zone ´ . ui,j = 1 ´ ´ ´´ ssibilite d’appartenance est superieure a 2 m−1De facon generale, il ¸ ||pj − i w`||50%. ´´ ´ 1 du ´` soit correlee avec l’etendu+ nuage 1 stimuli associes a la classe. E des ηi . ubien : i,j = 1 ante fonctionne 2 m−1 j =1 ||pj − i w|| Q ` ´ e la facon dont il faudra 1 + ¸ estimer la partition floue a chaque iteration de mη 2 i ( positions − w|| ´ stimuli d’apprentissage et les ui,j ) ||pjdes icentres. L’equation 6.19 sp ` ´ acon dont il faudra estimer la partition floue a chaque iteratio ¸ m (ui,j ) ´ uli d’apprentissage et les positions des centres. L’equation 6 j =1 ` ´ e a une classe ne depend que de la distance entre le stimulu ` ´ nance a une classe nei depend que de la distance .entre le stimulus et le η= Q ` ´´ on rend ηi proportionnel a la moyenne ponderee des distances intra-cla ´ ´ ´ eder est de considerer seulement dans l’equation ci-dessus les ui,j ≥ GIF-21410/64326 Réseaux de neurones 11 ´ ´´ 1. Initialiser les centres W(0) ainsi que la partition floue U(0) en utilisant l’algorithme du fuzzy k-means ; ´ 2. Estimer les ηi en utilisant l’equation 6.20 avec une coupe α = 0 ; 3. Fixer les valeurs de m et ε ; 4. t = 1 ; ´´ 5. Repeter : ´ (a) Calculer les nouveaux centres W(t) en utilisant l’equation 6.12 ; ´ (b) Calculer la nouvelle partition floue U(t) en utilisant l’equation 6.19 ; (c) t = t + 1 ; 6. Tant que max |ui,j (t) − ui,j (t − 1)| > ε et t ≤ tmax ; i,j 8. t = 1 ; ´ ´ 7. Re-estimer les ηi en utilisant l’equation 6.20 avec une coupe 0.1 ≤ α ≤ 0.4 ; ´´ 9. Repeter : ´ (a) Calculer les nouveaux centres W(t) en utilisant l’equation 6.12 ; ´ (b) Calculer la nouvelle partition floue U(t) en utilisant l’equation 6.19 ; (c) t = t + 1 ; 10. Tant que max |ui,j (t) − ui,j (t − 1)| > ε et t ≤ tmax ; i,j F I G . 6.6 – Algorithme du «possibilistic k-means». 12 GIF-21410/64326 Réseaux de neurones Remarques • Attention à la fusion des centres! •m<2 • Variante basée sur la matrice de covariance floue: 13 GIF-21410/64326 Réseaux de neurones ` t leur position initiale peut limiter grandement la performance de l’algorithme, et debeaucoup plus robuste a une mauvaise initialisation des centres. her sa convergence. Pour cette raison, on commence habituellement avec un fuzzy k´ ionnons finalement qu’en changeant la norme utilisee pour calculer la dista ` i, est beaucoup plus robuste a une mauvaise initialisation des centres. i ´ us et un centre, on peut construire differentes variantes du possibilistic k-m ´ entionnons finalement de covariance la norme utilisee : en calculant la matricequ’en changeantfloue des stimulus pour calculer la distance (ui,j )m (pj − i w)(pj − i w)T Q ´ ulus et un centre, on peut construire differentes variantes du possibilistic k-mean le, en calculant la matrice deQ variance floue des stimulus : co Possibilistic Gustafson-Kessel Fi = Q j =1 Fi = j =1 (ui,j )m (pj − i w)(pj − i w)T , Q (ui,j )m (ui,j )m , j =1 isant pour calculer la norme suivantej =1 : utilisant pour calculer la norme suivante : ||pj − i w||2 = R ent l’algorithme dit du «possibilistic Gustafson-Kessel». 14 l’algorithme dit du «possibilistic Gustafson-Kessel». ||pj − i w||2 = R |Fi | (pj − i w)T Fi−1 (pj − i w), |Fi | (pj − i w)T Fi−1 (pj − i w), GIF-21410/64326 Réseaux de neurones ...
View Full Document

Ask a homework question - tutors are online