10 - chap10-slides

10 - chap10-slides - Chapitre 10 ACP + Hebb Marc Parizeau...

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: Chapitre 10 ACP + Hebb Marc Parizeau GIF-21410/64326 Réseaux de neurones Analyse en composantes principales • Permet de réduire la dimension d’un espace d’entrée importante base • En retenant les axes où la variance est • Correspond à faire un changement de • Peut se faire par apprentissage hebbien 2 GIF-21410/64326 Réseaux de neurones 1ère composante 2ème composante 3 GIF-21410/64326 Réseaux de neurones Théorie de l’information • Shannon : l’information d’une variable N aléatoire s’assimile à la notion d’entropie H (X ) = − k=1 Pr(xk ) log[Pr(xk )] = −E [log(Pr(xk ))] xk représente la kème réalisation de la • variable X • Pr(xk) représente la probabilité que xk se réalise, et E représente l’espérance mathématique 4 GIF-21410/64326 Réseaux de neurones N H (X ) = − k=1 Pr(xk ) log[Pr(xk )] = −E [log(Pr(xk ))] • Lorsque Pr(xk) --> 1, la variable aléatoire devient déterministe et l’entropie tend vers zéro pondérée des logs des probabilités; donc par l’espérance mathématique ! • L’entropie est définie par la somme • Les logs sont négatifs, car Pr(xk)<1 5 GIF-21410/64326 Réseaux de neurones • En général, on ne connais la la loi de densité de nos variables aléatoires 1 (x − µ)2 exp − Pr(x) = √ , 2 2σ 2π σ • Cependant, dans le cas gaussien : où µ et σ représentent respectivement la moyenne et l’écart type • L’entropie devient : 1 1 2 H (x) = E log(2πσ ) + E 2 2 x−µ σ 2 1 = log(2πσ 2 ), 2 6 GIF-21410/64326 Réseaux de neurones • Et ne dépend que de la variance : • Pour les distributions gaussiennes, on peut conclure que la variance est synonyme d’information !! 1 2 H (x) = log(2πσ ), 2 7 GIF-21410/64326 Réseaux de neurones CHAPITRE 10. d’un espace d’entree en ne retenantuquevariance est les directions dans nos nuages de points o ` la les axes ou ´ ´ ` et de reduire la dimension ACP ET APPRENTISSAGE HEBBIEN ` `´ Ceci ` 10.1 a Q vecteurs a en composantes principales 2 n . Ces ´` ortante. Soit un nous amenede definirespace {p1 , p2 , . . . , pQ } definis et zendonnentd ensemble dans un l’analysedeux dimensions, ou z1 dans termes ´ de la covariance principales etrentes composantes de nos stimuli.de distribution n entre les diffe l’ellipse symbolise l’hypothese Intuitivement, g n nuage de points dans un espace a npoints ou la variance est `maximale, nouvelle z1 de les directions dans nos nuages ` dimensions. En choisissant de tel qu’ill jacente a m , avec m < n ` ´ 10.1 dans un espace a ` l’ACP. presenter ces vecteurs dansdeux dimensions, ou tout en2 minimisant la perte des de ` ` z1 et z donnent l’orientation d’info artir de son entropie H (X ) : z2 ` Tout d’abord, calculons la moyenne p de nos stimuli : principales et l’ellipse symbolise l’hypothese de distribution¯gaussienne des vecte ´ ´ Shannon definit l’information contenu dans une variable aleatoire X = { ` jacente a l’ACP. Vecteur ¯ Tout d’abord, calculons la moyenne p de nos stimuli : N moyen : Q p H (X ) = − ¯de C’est le centre du nuagep =points.pk . matrice de covariance C La k=1 Q k=1 ` eme Pr(xk ) log[Pr(xk )] = −E [log(Pr(xk ))] 1 1Q ¯ pk . p= Q k=1 2 σ11 ` ´ ´ ´ u Pr(xkC’estsigne la probabilite de rencontrer la k covariance C de nos stimuli est ) de le centre du nuage de points. La matrice de realisation de X et E repr ´ ` une ´ ´ e athematique. L’entropie nous dit que plus un xk possede probabilite e σe lev ´2 Q 21 1 2 2 σ)( k 2c’est- = on des composantes`principales pour un nuagla variable deux dimensions.− p11 p σ− p· · · a-dire lo e de points en devient deterministe,12 ¯ )T ` σn ´ ’information. A la limite, lorsque 1 Matrice de variance- C = Q − 1 (pk ¯ 2 2 . . ∀j = k , alors 2l’ent k=1 . ´ quent, Pr(xj ) → 0 pourσ21 σ22 · · · σn our un certain k et que, par conseQ 2 `´ e covariance : C = principales en termes )(pla − p)T = a denir l’analyse en composantes 1 ¯ ¯ ( k − p de variance et a 2 ettediffefinition suppose cependant que ement, nousk recherchons priori .la loi de densi1 d ´´ rentes composantes de nos stimuli. Intuitipnous connaissions . . σ ... e les e Q − 1 k=1 v n . . . . Cependant, si l’on . . ´ losatoiresde points ou la variance est maximale, tel pas toujours le cas. e nuages ce qui, dans la pratique, n’est qu’illustre a la figure ` ´` 2 2 2 2 ` deux dimensions, ou z et z2udonnent 1 esente la covariance entre ` a´ o ` σij repr ´: composantes et j ` beissent a des lois 1gaussiennesl’orientation des deux composantesles σn1 σn2 · · · i σnn de ` e symbolise l’hypothese de distribution gaussienne des vecteurs qui est sous2 σij ` ou ¯ lculons la Une matrice nos stimuli : Pr(x) = √ symexp − positive definie (valeurs p moyenne p de de covariance est toujours ´ ´, etrique et 2 ´ Une matrice de covariance est toujours symetrique et positiv ´ representepositives). la covariance entre les1 composantes (x − de)nos stimuli, et n est i et j µ 2 GIF-21410/64326 Réseaux de neurones 8 Composantes principales • Ce sont les vecteurs propres de la variances après rotation des axes dans les directions des vecteurs propres matrice de variance-covariance, dans l’ordre décroissant des valeurs propres • Les valeurs propres correspondent aux 9 GIF-21410/64326 Réseaux de neurones 0´ ` a Soit les m premiers vecteurs propresdiagonale aux plus grandes aleurs variance choisir p matricecZzdont les colonnes contiennent de ele :vecteurs prop alors · tations. aux valeurs propres[ 1 2 λ1 z ]0 aux· · associespropres les´ n v(10.6) prop Z =orrespondent · . spondentC desla k , on obtientdezC·:·unenmatrice valeurs Λ dont les C´ ments ´ ceux qui maximisent la v ariance. λ2 ·r· duire la dimension de l’espace de es x valeurs propres de C : 0 Pour Te · 0 les n vecteurs propres de 0 repr·´ · −1les colonnes contiennent entations. Soit lailmatrice Z Λ de construire = matrice − psui. ante : le stimulus pk : · matrice rotation et p λ1 C atrice stimuli, suffit =dont (pk −λ¯[) .lazZ.· (pk n.]. ) represente de des doncZ= Z ·. p z10 2 · · ·· z W v ´ = 1 . .· 0 ¯ k λ1 0 · ·. 0 vecteurs propres . principales. Si l’on 0 λ2 · · · .· 0 [z1 des · zn ].· · . 20 2 . λ calcule et rotation des axes dans la directionz0 · ·.composantes 0 Z2= · · . −1 . = [z1 z2.. . . z.m ]T m < n . (10.6) ( λ=· Λ ¯lesrepr ´ . données après une matricees pΛ, = obtientpalors Z 0 matriceTdiagonale(Λ k − =) elements .le = .. W k − ¯. , ( ´ ariance C d de rotation etΛ k. −0 une..p· .·.·. p)n= Z p dontp ´ . esente . . on . . (10.7) . λpk p) represente le stimulus pk 1 . . . . . ¯ ´ st une matriceet rotation et pk .= Z . (pk − p) = Z (. − ¯ de k . translation s’en servir . projeter les. p de n dimension en p a m dimension : . ` etrotation de Cpour dans .la direction des composantes principales. Si de tionotation x valeurs propres des axes la directionkdes composantes : dans k 0 0 · · λn r et slationeet rotation des axes 0 que les vecteurs ·propres z principales.sSi l’on calculee·cr 0 ´ ´ ´ gen ´ ralite, supposons 0 · · · λn T i sont trie en0ordre d·´ · e covarianceC edes esk ,pk , obtient· alors une matricepdiagonaletri.e.s. , Q.ordrelΛecroissa d p = alors − ¯ matrice diagonale´ dont de covariance C, supposonson obtient W (pkune ),zi k = 1,Λ´ dont les e ements l on ·0 ´≥ ralit ´ quep λ1 . . 0perte kvecteurs ralite, supposons que lesde principa ´ λi+1 , i = 1, que ·les de alors propres ordre composante ´ ´ perte deλidans la d opre e gene ´ ´ ´ neralit: , supposons les Sans. , n − 1, gene l’analyse sont decroissant vecteurs p vecteurs propres z´ sont tri´ s en en ´ en e variances i ´ dent aux valeurs ≥ λ de ivariance.·des− k ,contenue dans les pcomposante habituellemen valeurs nt λ propre λ= propres 0= , λ2 ,l’analyseen l’analyse en k se mesure principale con aux λ des ipropres, la C alors · 0 de aleur ≥Lai+1 ,: ivecteursde− 1:1C .: associealorscomposante principale consiste directionproportion i+1 , propres ·n p 1 ´ s aux plus grandes valeurs propres, c e : premiers 1, . = leur ,. . . . n . valeur propre. : λ ≥ λ , i = 1, . . . , n − 1, alors l i m omposantes Λ . . . . . i m i+1 (10.7) c ` isir les mecteurs propres associeλ1aux .associes0aux· v=1 0 igrandes valeurs a-dire premiers vecteurs propresλplus. · ´ · · i aleurs plus propres, c’est- `propres, c’est-a 0 · · 0 . . grandes λ ´.s premiers v ´ ´´ imisent la variance. Pour r0 duire laladimensionde l’espace de de associes aux representat ` e r ´ 21 · · 0 n a Poureduirem premiers de τl’espace representation d rincipales >, ´ quipmaximisent la variance. choisirλles·λndedimensionvecteurs propres nos 0 ··· ´ 0 la isent la variance. Pour reduire dimension λ 0Wλ2 l’espace:0 i representation de · · la de ´ .maximisent·.i=1 variance. Pour reduire (10.7) Λ ceux matrice = .qui . . fit il de construire laconstruirematrice : W suivante : donc de construire laW suiante . . .suivante ´ la dime li, . donc suffit donc de matrice Λ la . v . . . =. par exemple,. . sont composantes ´ . ´ ´ , supposons contraindre, il .suffit donc m construire ladecroissant de expli neraliteque l’on peutque les vecteurs propres ziauxde triesen ordre principales quisuiva . λ .. . ´ n stimuli, 0. · ·. ], z m <. nz n]], m .< n . les m composantes la v[z W .Wz=stimuli·d’origine.m < n 0m 1 zl’analyse en composantei=1 λi matrice W Λ sert z− 1., [z (10.8) .m ( de la consiste e : λi rincipalesi = 1,=. ariance. des [ 12z.2.. zm , La trace principale matrice ≥τλ> 95% de . . ,1n 2 = alors ,W i+1 p 0 a m grandes valeurs en W de z -dire 0 · ´ ´ ralit ´les projeterdimension endimension·en ´ de projeter e, supposonsles p lesevecteurs propres · p sont d’une mesure ecroissant de env vecteurs propres associ ´ d’apprentissage. i λn ordre ` remierseariance pk pourpour pour globale pque k de dimension en zIlks’agitdimension =d[´z1va2 . . . zm d p` s’engservirprojeterde ndes stimulisnauxkplus dimensiona:mtries propres, c’est-olume, ou], : vir tout dans lesla = 1,k. .de nune ,mesure de longueur. m dimension : deconsiste po les n− 1 alors l’analyse ena` Une autre principale volume pk `composante mesure projection ≥ λ +1 r e gene:ralite, isupposons .quedimension de l’espace de representation deordre de propre variance. PourTreduire, la les ´ sent ´ ´ λi comme, i norme est T vecteurs propres z sont tries en nos la ´ k = W `(´ p −= ),s’enpservir),, Q.k = 1, . . . , Q. pk de ´(10.9) i n c’est-a-dire ´ ¯ p pket deTle d( =k 1, . p. pourla matrice lescovariance. Ainsi, on pou p W keterminant de projeter de . ( m composantes ´ ´ aux points consiste a propres associes −:¯,plus grandes. valeurs propres, dimension en calculer suivantep) k = 1, . . , Q. es mde construire la matrice W (pk − ¯ onc premiers vecteursk =kW p i = 1, . . . , n − 1, alors l’analyse en composante `princip p choisir λi roprerincipalespk +1 ,composantes delaladimensionvhabituellement par lesentation de nos : λ ≥ contenue e ac ¸ la varianceila variance. Pourprk´ duire pk se mesure p se:mesure habituellement par)le rat ´ aximisent desnos m des dans les de = e ratio − p ¯ oportion de la variance [z z .contenuefm on les de l’espace pk reprWT (p:k(10.8) , k dans sui ante k W =p 1propres ],suivante naux plus grandes valeurs propres, . . zm associeles p m se mesure habituellement par < s: m premiersmvecteurs m 2 λi de la variance des k icontenue m suffitchoix desconstruire la matrice W dans ´ donc de k=1 λi =1 λi la variance des p contenue dans les > duire dedimension>: τ τ en ip a > τ , i (10.10) ou La proportion la m dimension de, l’espace de representa omposantes n k n ´ ximisent la variance. Pouri1 ze . . zmk r´ pourcprojeter les pk de n dimension .,m n=1, ` m < n=1 λi W i= [λ 2 i=1 λλi ]i (10.8) (1 i =1 z principales m i=1 ffit doncpar econstruire kla composantes ,principales qui expliquent au moins=1 λi depkemple, T (p m matrice= 1 .suivante : W > ,τ , n i ntraindre, x = Wp de − dimension λ p . ` m aux n p), k en . ¯ (10.9) > τ servir pour projeter lespar finalementaux m peut aQ. dimension : valeurs propres de l’ana ’on peut contraindre, k exemple, qu’on composantes principales qui expliquent au m i k aussi utiliser les Mentionnons n n ` ariance des stimuli d’origine. La trace i=1 λi de la matrice Λ sert ici a mesurer la=1 λi n 5% de la variancekdes stimulidans− pm La =z1, .], . i,=1 λiIF-21410/64326 enΛ serti ici: a l’oper = z ¯ p . .mesure Q.G denla matrice ef ratio ` m la variance des p contenueT (pfectueri,unse trace . habituellement parqui expliquen santes principales pour ef k [les )=1mesure de volume,nos d’hyper-volume, neurones ´ tdes stimuli d’apprentissage. Wd’origine.2 composantes< ou stimuli Réseaux de (10.9) contraindre, parpexemple, aux1 z k .kblanchiment deprincipales le fectuant mesu k = W s’agit d’une 10 m Il ` ´ points consiste a calculer le determinant de la matrice de covariance. A choisir nos composantes de la fac suivante choisir nos mm composantes de lafac¸ onsuivante :: ¸ on m m λi i=1 λ in =1 i > τ , n =1 λi > τ , iλ i=1 i ´ e entre les differentes composantes de nos stimuli. Intuitivement, nous recherchons ` ´` ans nos nuages de points ou la variance est maximale, tel qu’illustre a la figure ` ` space a deux dimensions, ou z1 et z2 donnent l’orientation des deux composantes 11 ` ’ellipse symbolise l’hypothese de distribution gaussienne des vecteurs qui est sous- CHAPITRE 10. ACP ET APPRENTISSAGE HEBBIEN Mentionnons finalement qu’on peut aussi utiliser les valeurs propr santes principales pour effectuer un blanchiment de nos stimuli en effect santes principales pour effectuer un blanchiment de nos stimuli en effec z pk = Λ−1/2 pk , k = 1, . . . , Q, m pk = Λ−1/2 pk , k = 1, . . . , Q, m z ` ´ ` ou Λm represente la matrice diagonale des m premieres composantes de ` ´ ` ou Λm represente la matrice diagonale des m premieres composantes d p λ1 0 · · · 0 λ1 0 · · · 0 0 λ2 · · · 0 Λm = 0. λ.2 ·.·. · 0 , . . . . .. . . . . , . Λm = . . .0 . . · .·.· λ.m . 0 0 0 · · · λm strationce composantes principales une matrice de covariance unitaire pour les p . des qui engendre pour un nuage de points en deux dimensions. k ce ` qui engendre une matrice de covariance unitaire pour les pk . ` ´ amene a definir l’analyse en composantes principales en termes de la variance et 1 2 Blanchiment des données utiliser les valeurs propr Mentionnons finalement qu’on peut aussi GIF-21410/64326 Réseaux de neurones ` egle de Hebb b (voir section 4.2) exprime la variation de poids en fonc` ntissage par d’un neurone la sortie a la regle de Hebb :(voir section 4.2) exprime la variation de poi ´ ´ rrelation la regle de e p et la sortiesectionneurone : ` ge par entre l’entre Hebb (voir a d’un 4.2) exprime la variation Correlation entre l’entrée p et la •l’entree p et la sortie a d’un neurone : (10.14) ´ ion entre η ortie a d’un neurone : ∆w = s p a. ∆w = η p a. de Hebb Règle de Hebb ` nous neurone la re forte du =-vis d’un stimulus, d’un stimul ` se dudit que plus sera´ ponse∆wneurone a. forte vis-a-visplus la vis-a η p sera poids sera grande. ´ ` dit que• Pour run neurone linéaire : plus la eponse du neurone sera forte vis-a-vis d’un ´ cas d’un neurone lineaire, nous avons la relation a = wT p = pT w. En inte sera grande. ´ ous avons la relation astimuliTet en supposant que les stimuli d’entree s = w p = pT w. En interpretant w ´ direction dans l’espace des 2 et en ´ ´ timulion peutsupposant que de performance F suivant : T centreT ´ enneneurone lincraire, nous avons la relation a e : w p = p s w. , se ´ eer l’indice les stimuli d’entre Soit el’indice de performance=sont ’un tion dans l’espace des stimuli et en supposant que les stimuli d’e F = a2 = (wT p)(pT w), 22 ,a = (wsepcreer w), on peut T )(´pT l’indice de performance F suivant : (10.15) F T=)(pT =)]une p)(prance = (F ) : de neurones a2 w (12 T esp[e TGw]), E wT C w E [F ] fixe, on obtient w wT E ´ IF-21410/64326 Réseaux = ppT w ´ module ||w|| = E [(w p • ice de performance F suivant : ´ ´ imiser la variance. Pour un module ||w|| fixe, on obtient une esperance E ( e cas d’un neurone lineaire, nous avons la relation a = wT p = pT w. En inter poids sera grande. ´ ´ direction dans l’espace des stimuli et en supposant que les stimuliTd’entree so T En lineaire, nous avons lacomme= w ´er l’indice de w relation une : cas d’un neuroneinterprétantperformance Fasuivantp = p w. En inte 2 ´ yenne , on peut se cre ´ d l’espace des stimuli posant ||w|| direction dans irection et en et en supposant que les stimuli d’entree s ´ F := a2 = performance , enne2 , on peut se creer l’indice de (wT p)(pT w)F suivant : constant • ´ ximiser la variance. PourF = a2 = (wT p)(pe, w),obtient une esperance E (F un module ||w|| fix ´T on de l’orientation= EwwT p)(laTmatrice wT E [ppT ]w = wT C w E On de [( et de p que= de era maximum [F ] constate w)] F s covariance C des stimuli. Claire ´ e F sera maximum lorsque w sera oriente dans la direction de la composante lorsque de la matrice de covariance C des stimuli. Clai de l’orientation de w etw pointera dans la direction ´ F sera maximum lorsque w sera oriente dans la direction de la composante principale de C ` ` bleme majeur avec cette formulation de la regle de Hebb est que celle-ci es ` de w aura tendance a croˆtre sans cessecette approche presque touj ı Le problème avec et l’approche diverge ` nsiste majeur avecque le module la regle aura est que celle-ci e ` leme a normaliser w : formulation de de` w de Hebb est cette ` de w aura tendance a croˆtre sans cesse )et l’approche diverge presque tou ı tendancet à 1) = w(t sans acesse croître + η p ` siste a normaliser w : w( + ||w(t) + η p a|| E [F ] = E [(wT p)(pT w)] ||wwT EeppT ]obtient T Cw erance E ( [ imiser la variance. Pour un module = || fix ´ , on w = wune esp ´ • • w(t + 1) = 13 w(t) + η p IF-21410/64326 a G Réseaux de neurones ´ ´ er la variance. Pour un module ||w|| fixe, on obtient une esperan E [F ] = E [(w p)(p w)] = w E [pp ]w = w Cw T T T T T orientation de w et de la matrice de covariance C des stimuli ´ ra maximum lorsque w sera oriente dans la direction de la compo • Et l’approche diverge presque toujours ` majeur avec cette formulation de la regle de Hebb est que cell à normaliser • Uneasolution consiste l’approche diverge presqu aura tendance ` croˆtre sans cesse et ı le module de w : ` a normaliser w : w(t) + η p a w(t + 1) = ||w(t) + η p a|| e de Oja 14 GIF-21410/64326 Réseaux de neurones w(t + 1) = est • Uneasolution alternative de l’ela règle nom ´ quation 10.17, solution consiste ` adopter une approximation le `de Oja Regle de Oja Règle de Oja w(t + 1) = ||w((t)+ η p a || wt) + p a ||w(t) + η p a|| •rance de la variation des poids : ´ uler l’espe ` ` ir queregle regle ede ede bien potentiel de trouver la composante principale des s poss bien le le potentiel de ` ette cette poss ` aura convergé trouver la composante principale Qui lorsque : ´ de calculer l’esperance de la variation des poids : E (∆w) = E [η (ap − a2 w)] E (∆w) = E [η (ap −T a2 w)] T = η E [p(p w) − (w p)(pT w)w] = = E [E [(pT T )w− (wTppT pT w)w] η η p( ppw) − wT ( p)()ww] = = E [(ppT )wT− wT ) ppT )ww] η η (Cw − w Cww ( ` ´ ´ autre solution uivante : s consiste a adopter une approximation de l’equation 10.17, nommee 3 : ∆w∆wη aηp(−− a w)= η (a p − aa2 w) = = ( a p a w) = η ( p − 2 w) a, «A Simplified Neuron Model as a Principal Component Analyser», Journal of Mathematical Biol ` ´ 15 s-245, 1982. suffit de le faire a l’aide de l’equation 10.4. GIF-21410/64326 Réseaux de neurones le cas, il = η l’aide de l’ewT Cww) ` n’est pas le cas, il suffit de le faire a (Cw − ´ quation 10.4. IGReseau– Reseau permettant d’effectuer une S composantes pri 10.2 permettant d’effectuer une analyse en analyse en S com ´ –.´ • tendera vers zéro : Reseau permettant d’effectuer : ´ nce, on obtient E (∆w) −→ 0 et une analyse convergence, on obtient E (∆w) −→ 0 et : en S composantes p T Cw = (0 etCw)w wTλw )w = λw wCw = ( = Cw ce, on obtient E (∆w) −→ : = (w C w w valeur Cw associe.Cw)et = λle vecteur l’equat propre deFinalement,w substituant ´ ecteur propre qui lui estqui lui ´est associe. Finalement, en substi en ´ t w le vecteur propre lui est associé propre qui λ, on obtient : ssion de definition (voir section 3.2.3), que λ = wT Cw est u , ue, par λ´ on obtient : λ = wT λw = λ ||w||2 , de λ 2 n • En substituant´ .λFinalement,= ||w||o, ´ teur propre qui lui est associel’expression λsubstituant l’equ = wT λw en o: btient : ,orme euclidienne de w. Ceci implique que la norme de ce vecteur on obtient || est la normeatteinte. On peut aussi montrer non seulement que cet de w implique que la norme d la convergence euclidienne T λw . Ceciw||2 , λ=w = λ || une fois vecteur propre obtenu sera associe aussi montrer non seule ´` is que le la convergence atteinte. On peut a la plus grande valeur p ´` r´ rme mais que le vecteur propre obtenu sera norme a ce vecteu st ee, euclidienne de w. Ceci implique que la associe dela plus gra stable. GIF-21410/64326 Réseaux de neurones elle-ci est stable. 16 convergence atteinte. On peut aussi montrer non seulement que c Par définition, on a que λ est une • definitiond(voir section 3.2.3), que 3.2.3),wque λ est une ique, indique, par efinition T par ´ λ = T Cw = wT ´ nous (voir section ´ ´ teur propre qui lui est associe. Finalement, en substituant l’equ , on obtient : λ = wT λw = λ ||w||2 , rme euclidienne de w. Ceci implique que la norme de ce vecteu • Ce atteinte. On peut aussi montrer non seulement que c convergencequi implique que la norme de w converge vers une valeur a la plus grande valeur unitaire ´ que le vecteur propre obtenu sera associe ` stable. Non seulement cette convergence est• elle assurée, mais le vecteur propre obtenu sera associé à la plus grande valeur propre, c-a-d à la composante e de Sanger des données ! principale ja nous permet de trouver la composante principale de nos stim ´ rouver le moyen de determiner les autres composantes en utilisa GIF-21410/64326 Réseaux ` ´ s comme a la figure 10.2. Un tel17eseau permet de reduire de neurones r´ la dimen Règle de Sanger • La règle de Oja est limitée à trouver la composante principale des données trouver simultanément toutes les composantes principales • La règle de Sanger permet de 18 GIF-21410/64326 Réseaux de neurones de Sanger Entrée Couche de S neurones p n a ja nous permet de trouver la composante principale de nos stim W Rx1 Sx1 Sx1 ´ ouver le moyen de determiner les autres composantes en utilisa SxR ` ´ ´ comme a la figure 10.2. Un tel reseau permet de reduire la dime R S ` imensions a S dimensions (S < R). La matrice W = {wi,j } re ´ s reliant les neurones i aux acomposantes j des stimuli d’entree. = purelin(Wp) ´´ ´ ´ ger»4 , ou encore «Algorithme de Hebb generalise», est une ge F IG . 10.2 – Reseau permettant d’effectuer une analyse en S composantes principales. ´ i ` es convergence, on obtient E (∆w) −→ 0 et : ∆i w = η ai p − ai ak k w , Cw = (k=1 )w = λw wT Cw i = 1, . . . , S. (10.2 ui nous indique, par definition (voir section 3.2.3), que λ = wT Cw est une valeur prop mal Unsupervised ´Learning in a Single Layer Linear Feedforward Neura GIF-21410/64326 Réseaux de 10.23 ´ Finalement, en substituant l’equation neuronesda ´ et w le vecteur propre qui lui est associe. 19 59-473, 1989. i CHAPITRE 10. ACP ET APPRENTISSAGE H ∆i w = η ai p − ai ak k w , i = 1, . . . , S. CHAPITRE 10. ACP ET APPRENTISSAGE HE ` ´ quation s le Unsupervisedon le casin a Single Layer Linear Feedforward Neura ou S = 1, Learning où S=1 : retombe mal cascas ouDans on retombesur l’eequation 10.18 :: ` S = 1, dans le sur l’ ´ 10.18 1 59-473, ou S ` ´ ans le cas 1989. = 1, on retombe sur l’equation 10.18 : 1 ∆1w w = ηa1 pp − a = η a − a1 a1 1w = η a 1 p − a22 w a p − a1 1w ∆ a w =η 1 1 • • • k=1 CHAPITRE 10. ACP ET APPRENTISSAGE H ∆1w = η a1 p − = η a1 p − a2 1w 1 On equation 10.25, on peut la e´ règle la la emieux visualiserel’peut 10.25, on peut lareecrire dedefaconsuivante : : ux visualiser l’ ´ quation ré-écrire la r´ ecrire de la fac¸ suivante ´ ´´ ¸ on 1 11 k=1 a1 k=1 a1 1w k=1 1 1 11 (Oja) i− ´ ne version modifiee du stimulus p : i−11 =− ak Avec : pp= pp− akk k w. ´ ∆ stimulus p version modifiee´ e idu = η ai [p : une version modifieduw stimulus p:− ai i w] , i = 1, . . . , S, i−1 kk=1 =1 façon = η aia[pp−oni:i w]] r ´ e 1, .. ..,, S, ¸ ´ w suivante i w ´ ieux visualiser l’e∆i w = η10.25,−aaipeut,,la i e=crire..deS, facon suivante : la ∆iquation i [ p =p− ak k w . d de l’indice i neurone. Pour le premier neurone, i = 1 on obtient donc = p e l’indice i dudu neurone. Pour lepremier neurone, i = 1,,on obtient donc p p = k=1 ´´ ´ ´ ` la r formule g´ neralis ´ e r ´ duit a ` ` ` 20 Oja, et l’on saitque ce neurone reche neurone recherc GIF-21410/64326 ´ e i du neurone. Pour le gle de neurone, = , on obtient donc p mule generaliseeeseseereduit a lareeglede Oja, et l’onisait 1queceRéseaux de neurones = de l’indice premier ce ineurone, i = 1,Pour= 1 :donc p = p. Dans= 1, on obtient du neurone. oniobtient le premier neurone, i ier •e Lorsque a la regle de Oja, et l’on sait que ce neu ´ ´ ` n ´ ralise se eduit ` deeOja, et l’onrsait que ce neurone recherchera la La •lesèrerègle de Oja converge vers la le dans stimuli. 1 composante principale 2, on obtientde la couche, i : 2, on obtient : e neurone : Lorsque i = 2 = k=1 • a1 1w. ´ Sous l’hypothèse que le 1er n ` converge, on voit que l’on se trouve a retranchereurone • neurone a deja converge, on voit que l’on se ´` ´ e le premier ´ ` le des stimuli. éjà convergé, trangement a la à a d Ceci ressemble e on sestimuli. Ceci ressemb trouve 1 de la composante principale des (voir section 3.1.5). une fraction a1 chercheraère rde Gram-Schmidt (voir section 3.1.5). Le second etirer Le second neurone de la 1 nalisation composante principale des p. Et ainsi la seconde omposante principale c ` principaleespace , eduit des i − la seconde composante princ c’est-a-dire 1 composantes t dans un des p r ´ • Le second neurone cherchera donc ´ tres neurones qui chercheront dans un espace reduit des la composante principale des p’ tes. isse entendre ci-dessus, tous les neurones tendent GIF-21410/64326 21 ´ ergence definitivead’un neurone i dependant de Réseaux de neurones l , contrairement ` ce qu’on laisse ´entendre ci-dessus, tous p = p − a1 1w. (10.29) dentes. tous les neurones tendent à • En pratique, qu’on laisse entendre ci-dessus, tous les n ` ique, contrairement a ce converger simultanément ´ ´ ´ ultanement. Neanmoins, la convergence definitive d’un neurone i − 1, les poids i w se stabiliseront définitive croissant de leur i • Mais la convergence dans l’ordre du n cependant dépend` ce celle du ´neurone i-1 ´ sage seraeurone i inferieur a de qui serait necessaire pour un a rones. En notation matricielle, la règle de Sanger` gle de Hebb generalisee s’exprime faire ´´ ´ matricielle, la re(Hebb généralisée) permettant de de un l s’exprime de la facon suivante : ncipalesa façon suivante : ¸ ∆W(t) = η a p − LT[a a ] W(t) , T T • ´ où LT est un opérateur matriciel qui `´ ´´ un operateur matriciel qui met a zero tous les elements de son argu annule tous les éléments au dessus de la diagonale ´ rentissage de Hebb supervise 22 GIF-21410/64326 Réseaux de neurones Conclusion • La règle de Hebb généralisée (Sanger) permet d’effectuer une analyse en composante principale « en-ligne », contrairement à l’ACP classique qui nécessite de posséder tous les stimuli à l’avance ! 23 GIF-21410/64326 Réseaux de neurones nale. ´ Apprentissage de Hebb supervise Hebb supervisé T On remplace la sortie observée par ´ terminons ce chapitre avec la versionEsupervisee de l’apprentissage de Heb ENTISSAGE DE HEBB SUPERVIS ´ ´ ´ a sortie a du lraseau par la sortie desiree d :on fixe η=1 : e sortie désirée´ et ∆W(t) = d(t) p(t) xe le taux d’apprentissage η = 1. En supposant que la matrice de poids W est ´ et ` En supposant . En initialisée à poids W : ent : ou l’on fixe le taux d’apprentissage η = 1Wsupposant que la matrice de zéro est initialisee ` a 0, on obtient : ´ 10.4. APPRENTISSAGE DE HEBB SUPERVISE 109 • • • T W = d1 pT +pT 2+ d2 pT + ·· ···+ dQQT = = dq pT dq pT pT W 1 d1 d p2 + · = + d pQ Q q 1 2 q q =1 Q Q (10.32) q sentation desEnpaires (pq , dq ) matricielle En notation matricielle, on o Q notationq d’apprentissage. : q =1 ` ´ apres la presentation des Q paires (p , d ) d’apprentissage. En notation matricielle, on obtient : [d1 d2 · · · dQ ] 24 W= pT2 W = [d1 d2 · · · dQ ] . Q . . avec D = [d1 d2 · · · dQ ] et P = [p1 p2 · · · pQ ]. pT 1 T pT p21 T = . T D P , . . G pT une IF-21410/64326 Réseauxede neurones Q ´ ´ L’equation 10.33 permet de construire ce qu’on appelle memoire associative lin ´ aire. Elle p (10.33) = D PT , ´ ´ uation 10.33 permet de construire ce qu’on appelle une memoire associative linea ´ ´ ation 10.33 permet de construire ceL’equation 10.33 permet de construire cel qu’on appelle une memoire associative `´ ´ ’apprendre a memoriser Q associations entre un stimulus pq et une reponse dq . Su `´ `´ permet normalis stimulus pq et une ´ pprendrePermet de mémoriser Q es ssociations eponse dq a memoriser orthogonaux et entre un ´a (longueur unitaire). Alors, la que tous les stimuli sont Q associations d’apprendre a memoriser Qrassociation d’abord normalis ´ ueetous lesl’un d’entre eux, par exemple pk , sera : les(longueur unitaire). Alors ` stimuli sont orthogonaux pq et une réponse dq : m ´ moire a ntre un stimulus et que tous es stimuli sont orthogonaux e [ dQ et P = [dd1 d2· ·· ·· ·dQ ]] et P = [p1 p22······pQQ.D = [d1 d2 · · · dQ ] et P = [p1 p2 · · · pQ d2 [p1 p avec] ]. p 1 Mémoire associative a = W pk = Q dq pT pk = Q q pT pk d q q T T =1 q q q =1 k q q q pT T Q pQ • • ` ´ ` emoire a l’un d’entre eux, par de cette p´kmoire a l’un d’entre eux, par exem exempleme , sera : a = W pk = Or, puisque tous ´ s, e tous les stimuli sont orthogonaux et normalise: on a : sont orthogonaux orthogonaux et unitaires les stimuli pT pk q = ´ ue tous les stimuli sont orthogonaux et normalises, on a : Supposons les stimuli mutuellement q =1 q =1 Q dp Q p= d a = W.pk = p pk , . Q d q =1 0 autrement ´ ´´ dk . La reponse pour un stimulus d’apprentissage est donc la sortie desiree qu , .` La reponse pour un stimulus a orthonormaux. ponsedonc la osortieneeserai a condition que les stimuli soientd’apprentissage Dans le cas un` stimulus d’ ´ et = dk . La re est pour u ils d ´ siree ´ ´ k ´ aux (mais toujours normalises), on obtiendrais : ´` pT pk = q 1 si q = k , 01 autrement si q = k pT pk = q associee, a condition que le stimuli soient ` ` a condition que les stimuli soient orthonormaux. Dans les cas ou ils ne s ´ (mais toujours normaliseneurones ´ ux (mais toujours normalises),kon obtiendrais : pT pk , a = W p orthogonauxdq GqIF-21410/64326 Réseaux de s), on o = dk25 + pT pk q = 1 si q = k , 0 autrement ´ ´´ . La reponse pour un stimulus d’apprentissage est donc la sortie desiree Si les stimuli ne orthonormaux. Dans le cas ou ` condition que les stimuli soientsont pas orthogonaux ils ne se ´ x (mais toujours normalises), on obtiendrais : (mais normalisés) : • • a = W p k = dk + q =k dq pT pk , q De nouveau, la d’erreur par Hebb` la reponse desir ´ ´ ´ ´ e ci-dessus represente un terme règle de rapport a seule n’estee, en ´pas suffisante pour produire le résultat gonalite des stimuli. souhaité ! ` egle de la matrice pseudo-inverse ` veau, nous constatons que la regle de Hebb seule n’est pas suffisante pour ´ ´´ ` haite dans le cas general, a savoir : Wpq = dq , q = 1, . . . , Q. 26 GIF-21410/64326 Réseaux de neurones Matrice pseudo-inverse le de la matrice pseudo-inverse ` eau, nous constatons que la regle de Hebb seule n’est pas suffisante pou (moore-Penrose) suffisante po ´ aite dansconstatons´ ral, ala regle: de Hebb seule n’est pas ` u, ´nous le cas gene que` savoir ` gle de la matrice pseudo-inverse ´ ´´ e dans le cas general, a : On veut` savoir : • • • Wpq = dq , q = 1, . . . , Q. ` ´ blable a ce que nous avons utiliseD − W P||2 , F (W) = || pour le perceptron (voir chapitre 5 F (W) = ||D − W P||2 , Ce qui implique : q ` ´ pour y arriver consiste aqd’abord definir un indice de performance F q ` Soit l’indice de e ´ ´ pour un indice : mblable a ce consiste a d’abord definir le perceptron performance F ` our y arriver que nous avons utilisperformance de(voir chapitre 5) : Wp = d , q = 1, . . . , Q. D−WP → 0 27 et W = D P−1 GIF-21410/64326 Réseaux de neurones F IG . 10.3 – Reseau auto-associatif pour la reconnaissance de chiffres. ´ F IG . 10.3 – Reseau auto-associatifD P−1 reconnaissance de chiffres. ´ W = pour la ´ ´` ´ ´ P est la forme matricielle de l’equation 10.37. Nous avons deja demontre Mais, P les stimuli d’apprentissage pas queest (la forme0matricielle ’estequation 10.37. Noussont orthonormaux. e a F W) = lorsque n de l’ ´ généralementavons deja demontr ´ ` En ´` ´ P ´ ’que F (W10.38 dans le cas ! eneral,d’apprentissage D − W P → 0 et donc equation ) inversible g ´ ´ = 0 lorsque les stimuli il faudrait que sont orthonormaux. En ´ la matrice P n’est g ´+ ´ ralementral, ilcarree (sauf si R = Q) et 0 et donc ´ ´´ l’equation 10.38 danseleecas gmatrice pseudo-inverse ne peut do Soit P n, la ene pas faudrait que D − W P → ´ ` our matrice P n’est generalement pas carree appel si la matrice pseudo-inve ´´ ´ , la contourner cette difficulte, il faut faire (sauf a R = Q) et ne peut don de ´ rose contourner : Moore-Penrose : appel a la matrice pseudo-inve ´ ` our definie par cette difficulte, il faut faire P+ = (PT P)−1 PT ´ rose definie par : P+e= (PT P)−1 PT ˆ que les stimuli de P soient ind ´ pendants, la matrice (PT P) peut toujours e • • t: ´ ˆ n que les stimuli de P soient independants, la matriceePT P) peut toujours et soient indépendants, P P ( st nt : toujours + P = (PT P)−1 PT P P inversible. On obtient : P+ P = (PT P)−1 PTT P) = (PT P)−1 (P P = IPT P)−1 (PT P) = (. = I. ant : xant : W =28 P+ , GIF-21410/64326 Réseaux de neurones D + • À condition que les stimuli de P T nt : Conclusion xant : • La règle dite de la matrice pseudo inverse : W = D P+ , P+ P = (PT P)−1 PT P = (PT P)−1 (PT P) = I. ` la regle dite de la «matrice pseudo-inverse» pour construire notre memoire a produira toujours la réponse désirée ´ ` ´ ` ´ ontrairement a celle de l’equation 10.33, cette regle produira toujours la repon pour n’importe quel stimulus qui a servi ` porte quel stimulus qui a servi a l’apprentissage. Pour un stimulus n’ayant p ´ sage, elleà l’apprentissage produira une reponse d’autant plus proche de celle d’un stimulus d’a e premier est proche de ce dernier. ressemblera à celle du stimulus Exemple’apprentissage le plus ressemblant d d’auto-association • Pour un stimulus autre, la réponse ´ ` ure 10.3 illustre un reseau auto-associatif permettant d’apprendre a reconn ´ ´ presentes par une matrice binaire de29 × 6 pixels (voir figure 10.4). Pour 5 GIF-21410/64326 Réseaux de neurones Réseau autoassociatif Entrée Couche de S neurones CHAPITRE 10. ACP ET APPRENTISSAGE HE p 30 x 1 W 30 x 30 n 30 x 1 a 30 x 1 30 30 a = hardlims(Wp) F I G . 10.3 – Reseau auto-associatif pour la reconnaissance de chiffres. ´ 30 GIF-21410/64326 Réseaux de neurones F I G . 10.4 – Prototypes pour l’apprentissage auto-associatif des chiffres «0», «1» et «2». (a) (b) (c) F I G . 10.5 – Exemples de reponses du reseau auto-associatif de la figure 10.3 pour des stimuli ´ ´ degrades ou bruites : (a) chiffres 0 ; (b) chiffres 1 ; et (c) chiffres 2. ´ ´ ´ ´ ˆ dans une certaine mesure, le reseau sera capable31 produire en sortie des chiffres complets mneurones de eme GIF-21410/64326 Réseaux de ´ ´ ´´ si les stimuli d’entree sont incomplets ou bruites. Par exemple, retirer la moitie inferieure des pixels ...
View Full Document

Ask a homework question - tutors are online