{[ promptMessage ]}

Bookmark it

{[ promptMessage ]}

10 - chap10-slides - Chapitre 10 ACP Hebb Marc Parizeau...

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: Chapitre 10 ACP + Hebb Marc Parizeau GIF-21410/64326 Réseaux de neurones Analyse en composantes principales • Permet de réduire la dimension d’un espace d’entrée importante base • En retenant les axes où la variance est • Correspond à faire un changement de • Peut se faire par apprentissage hebbien 2 GIF-21410/64326 Réseaux de neurones 1ère composante 2ème composante 3 GIF-21410/64326 Réseaux de neurones Théorie de l’information • Shannon : l’information d’une variable N aléatoire s’assimile à la notion d’entropie H (X ) = − k=1 Pr(xk ) log[Pr(xk )] = −E [log(Pr(xk ))] xk représente la kème réalisation de la • variable X • Pr(xk) représente la probabilité que xk se réalise, et E représente l’espérance mathématique 4 GIF-21410/64326 Réseaux de neurones N H (X ) = − k=1 Pr(xk ) log[Pr(xk )] = −E [log(Pr(xk ))] • Lorsque Pr(xk) --> 1, la variable aléatoire devient déterministe et l’entropie tend vers zéro pondérée des logs des probabilités; donc par l’espérance mathématique ! • L’entropie est définie par la somme • Les logs sont négatifs, car Pr(xk)<1 5 GIF-21410/64326 Réseaux de neurones • En général, on ne connais la la loi de densité de nos variables aléatoires 1 (x − µ)2 exp − Pr(x) = √ , 2 2σ 2π σ • Cependant, dans le cas gaussien : où µ et σ représentent respectivement la moyenne et l’écart type • L’entropie devient : 1 1 2 H (x) = E log(2πσ ) + E 2 2 x−µ σ 2 1 = log(2πσ 2 ), 2 6 GIF-21410/64326 Réseaux de neurones • Et ne dépend que de la variance : • Pour les distributions gaussiennes, on peut conclure que la variance est synonyme d’information !! 1 2 H (x) = log(2πσ ), 2 7 GIF-21410/64326 Réseaux de neurones CHAPITRE 10. d’un espace d’entree en ne retenantuquevariance est les directions dans nos nuages de points o ` la les axes ou ´ ´ ` et de reduire la dimension ACP ET APPRENTISSAGE HEBBIEN ` `´ Ceci ` 10.1 a Q vecteurs a en composantes principales 2 n . Ces ´` ortante. Soit un nous amenede definirespace {p1 , p2 , . . . , pQ } definis et zendonnentd ensemble dans un l’analysedeux dimensions, ou z1 dans termes ´ de la covariance principales etrentes composantes de nos stimuli.de distribution n entre les diffe l’ellipse symbolise l’hypothese Intuitivement, g n nuage de points dans un espace a npoints ou la variance est `maximale, nouvelle z1 de les directions dans nos nuages ` dimensions. En choisissant de tel qu’ill jacente a m , avec m < n ` ´ 10.1 dans un espace a ` l’ACP. presenter ces vecteurs dansdeux dimensions, ou tout en2 minimisant la perte des de ` ` z1 et z donnent l’orientation d’info artir de son entropie H (X ) : z2 ` Tout d’abord, calculons la moyenne p de nos stimuli : principales et l’ellipse symbolise l’hypothese de distribution¯gaussienne des vecte ´ ´ Shannon definit l’information contenu dans une variable aleatoire X = { ` jacente a l’ACP. Vecteur ¯ Tout d’abord, calculons la moyenne p de nos stimuli : N moyen : Q p H (X ) = − ¯de C’est le centre du nuagep =points.pk . matrice de covariance C La k=1 Q k=1 ` eme Pr(xk ) log[Pr(xk )] = −E [log(Pr(xk ))] 1 1Q ¯ pk . p= Q k=1 2 σ11 ` ´ ´ ´ u Pr(xkC’estsigne la probabilite de rencontrer la k covariance C de nos stimuli est ) de le centre du nuage de points. La matrice de realisation de X et E repr ´ ` une ´ ´ e athematique. L’entropie nous dit que plus un xk possede probabilite e σe lev ´2 Q 21 1 2 2 σ)( k 2c’est- = on des composantes`principales pour un nuagla variable deux dimensions.− p11 p σ− p· · · a-dire lo e de points en devient deterministe,12 ¯ )T ` σn ´ ’information. A la limite, lorsque 1 Matrice de variance- C = Q − 1 (pk ¯ 2 2 . . ∀j = k , alors 2l’ent k=1 . ´ quent, Pr(xj ) → 0 pourσ21 σ22 · · · σn our un certain k et que, par conseQ 2 `´ e covariance : C = principales en termes )(pla − p)T = a denir l’analyse en composantes 1 ¯ ¯ ( k − p de variance et a 2 ettediffefinition suppose cependant que ement, nousk recherchons priori .la loi de densi1 d ´´ rentes composantes de nos stimuli. Intuitipnous connaissions . . σ ... e les e Q − 1 k=1 v n . . . . Cependant, si l’on . . ´ losatoiresde points ou la variance est maximale, tel pas toujours le cas. e nuages ce qui, dans la pratique, n’est qu’illustre a la figure ` ´` 2 2 2 2 ` deux dimensions, ou z et z2udonnent 1 esente la covariance entre ` a´ o ` σij repr ´: composantes et j ` beissent a des lois 1gaussiennesl’orientation des deux composantesles σn1 σn2 · · · i σnn de ` e symbolise l’hypothese de distribution gaussienne des vecteurs qui est sous2 σij ` ou ¯ lculons la Une matrice nos stimuli : Pr(x) = √ symexp − positive definie (valeurs p moyenne p de de covariance est toujours ´ ´, etrique et 2 ´ Une matrice de covariance est toujours symetrique et positiv ´ representepositives). la covariance entre les1 composantes (x − de)nos stimuli, et n est i et j µ 2 GIF-21410/64326 Réseaux de neurones 8 Composantes principales • Ce sont les vecteurs propres de la variances après rotation des axes dans les directions des vecteurs propres matrice de variance-covariance, dans l’ordre décroissant des valeurs propres • Les valeurs propres correspondent aux 9 GIF-21410/64326 Réseaux de neurones 0´ ` a Soit les m premiers vecteurs propresdiagonale aux plus grandes aleurs variance choisir p matricecZzdont les colonnes contiennent de ele :vecteurs prop alors · tations. aux valeurs propres[ 1 2 λ1 z ]0 aux· · associespropres les´ n v(10.6) prop Z =orrespondent · . spondentC desla k , on obtientdezC·:·unenmatrice valeurs Λ dont les C´ ments ´ ceux qui maximisent la v ariance. λ2 ·r· duire la dimension de l’espace de es x valeurs propres de C : 0 Pour Te · 0 les n vecteurs propres de 0 repr·´ · −1les colonnes contiennent entations. Soit lailmatrice Z Λ de construire = matrice − psui. ante : le stimulus pk : · matrice rotation et p λ1 C atrice stimuli, suffit =dont (pk −λ¯[) .lazZ.· (pk n.]. ) represente de des doncZ= Z ·. p z10 2 · · ·· z W v ´ = 1 . .· 0 ¯ k λ1 0 · ·. 0 vecteurs propres . principales. Si l’on 0 λ2 · · · .· 0 [z1 des · zn ].· · . 20 2 . λ calcule et rotation des axes dans la directionz0 · ·.composantes 0 Z2= · · . −1 . = [z1 z2.. . . z.m ]T m < n . (10.6) ( λ=· Λ ¯lesrepr ´ . données après une matricees pΛ, = obtientpalors Z 0 matriceTdiagonale(Λ k − =) elements .le = .. W k − ¯. , ( ´ ariance C d de rotation etΛ k. −0 une..p· .·.·. p)n= Z p dontp ´ . esente . . on . . (10.7) . λpk p) represente le stimulus pk 1 . . . . . ¯ ´ st une matriceet rotation et pk .= Z . (pk − p) = Z (. − ¯ de k . translation s’en servir . projeter les. p de n dimension en p a m dimension : . ` etrotation de Cpour dans .la direction des composantes principales. Si de tionotation x valeurs propres des axes la directionkdes composantes : dans k 0 0 · · λn r et slationeet rotation des axes 0 que les vecteurs ·propres z principales.sSi l’on calculee·cr 0 ´ ´ ´ gen ´ ralite, supposons 0 · · · λn T i sont trie en0ordre d·´ · e covarianceC edes esk ,pk , obtient· alors une matricepdiagonaletri.e.s. , Q.ordrelΛecroissa d p = alors − ¯ matrice diagonale´ dont de covariance C, supposonson obtient W (pkune ),zi k = 1,Λ´ dont les e ements l on ·0 ´≥ ralit ´ quep λ1 . . 0perte kvecteurs ralite, supposons que lesde principa ´ λi+1 , i = 1, que ·les de alors propres ordre composante ´ ´ perte deλidans la d opre e gene ´ ´ ´ neralit: , supposons les Sans. , n − 1, gene l’analyse sont decroissant vecteurs p vecteurs propres z´ sont tri´ s en en ´ en e variances i ´ dent aux valeurs ≥ λ de ivariance.·des− k ,contenue dans les pcomposante habituellemen valeurs nt λ propre λ= propres 0= , λ2 ,l’analyseen l’analyse en k se mesure principale con aux λ des ipropres, la C alors · 0 de aleur ≥Lai+1 ,: ivecteursde− 1:1C .: associealorscomposante principale consiste directionproportion i+1 , propres ·n p 1 ´ s aux plus grandes valeurs propres, c e : premiers 1, . = leur ,. . . . n . valeur propre. : λ ≥ λ , i = 1, . . . , n − 1, alors l i m omposantes Λ . . . . . i m i+1 (10.7) c ` isir les mecteurs propres associeλ1aux .associes0aux· v=1 0 igrandes valeurs a-dire premiers vecteurs propresλplus. · ´ · · i aleurs plus propres, c’est- `propres, c’est-a 0 · · 0 . . grandes λ ´.s premiers v ´ ´´ imisent la variance. Pour r0 duire laladimensionde l’espace de de associes aux representat ` e r ´ 21 · · 0 n a Poureduirem premiers de τl’espace representation d rincipales >, ´ quipmaximisent la variance. choisirλles·λndedimensionvecteurs propres nos 0 ··· ´ 0 la isent la variance. Pour reduire dimension λ 0Wλ2 l’espace:0 i representation de · · la de ´ .maximisent·.i=1 variance. Pour reduire (10.7) Λ ceux matrice = .qui . . fit il de construire laconstruirematrice : W suivante : donc de construire laW suiante . . .suivante ´ la dime li, . donc suffit donc de matrice Λ la . v . . . =. par exemple,. . sont composantes ´ . ´ ´ , supposons contraindre, il .suffit donc m construire ladecroissant de expli neraliteque l’on peutque les vecteurs propres ziauxde triesen ordre principales quisuiva . λ .. . ´ n stimuli, 0. · ·. ], z m <. nz n]], m .< n . les m composantes la v[z W .Wz=stimuli·d’origine.m < n 0m 1 zl’analyse en composantei=1 λi matrice W Λ sert z− 1., [z (10.8) .m ( de la consiste e : λi rincipalesi = 1,=. ariance. des [ 12z.2.. zm , La trace principale matrice ≥τλ> 95% de . . ,1n 2 = alors ,W i+1 p 0 a m grandes valeurs en W de z -dire 0 · ´ ´ ralit ´les projeterdimension endimension·en ´ de projeter e, supposonsles p lesevecteurs propres · p sont d’une mesure ecroissant de env vecteurs propres associ ´ d’apprentissage. i λn ordre ` remierseariance pk pourpour pour globale pque k de dimension en zIlks’agitdimension =d[´z1va2 . . . zm d p` s’engservirprojeterde ndes stimulisnauxkplus dimensiona:mtries propres, c’est-olume, ou], : vir tout dans lesla = 1,k. .de nune ,mesure de longueur. m dimension : deconsiste po les n− 1 alors l’analyse ena` Une autre principale volume pk `composante mesure projection ≥ λ +1 r e gene:ralite, isupposons .quedimension de l’espace de representation deordre de propre variance. PourTreduire, la les ´ sent ´ ´ λi comme, i norme est T vecteurs propres z sont tries en nos la ´ k = W `(´ p −= ),s’enpservir),, Q.k = 1, . . . , Q. pk de ´(10.9) i n c’est-a-dire ´ ¯ p pket deTle d( =k 1, . p. pourla matrice lescovariance. Ainsi, on pou p W keterminant de projeter de . ( m composantes ´ ´ aux points consiste a propres associes −:¯,plus grandes. valeurs propres, dimension en calculer suivantep) k = 1, . . , Q. es mde construire la matrice W (pk − ¯ onc premiers vecteursk =kW p i = 1, . . . , n − 1, alors l’analyse en composante `princip p choisir λi roprerincipalespk +1 ,composantes delaladimensionvhabituellement par lesentation de nos : λ ≥ contenue e ac ¸ la varianceila variance. Pourprk´ duire pk se mesure p se:mesure habituellement par)le rat ´ aximisent desnos m des dans les de = e ratio − p ¯ oportion de la variance [z z .contenuefm on les de l’espace pk reprWT (p:k(10.8) , k dans sui ante k W =p 1propres ],suivante naux plus grandes valeurs propres, . . zm associeles p m se mesure habituellement par < s: m premiersmvecteurs m 2 λi de la variance des k icontenue m suffitchoix desconstruire la matrice W dans ´ donc de k=1 λi =1 λi la variance des p contenue dans les > duire dedimension>: τ τ en ip a > τ , i (10.10) ou La proportion la m dimension de, l’espace de representa omposantes n k n ´ ximisent la variance. Pouri1 ze . . zmk r´ pourcprojeter les pk de n dimension .,m n=1, ` m < n=1 λi W i= [λ 2 i=1 λλi ]i (10.8) (1 i =1 z principales m i=1 ffit doncpar econstruire kla composantes ,principales qui expliquent au moins=1 λi depkemple, T (p m matrice= 1 .suivante : W > ,τ , n i ntraindre, x = Wp de − dimension λ p . ` m aux n p), k en . ¯ (10.9) > τ servir pour projeter lespar finalementaux m peut aQ. dimension : valeurs propres de l’ana ’on peut contraindre, k exemple, qu’on composantes principales qui expliquent au m i k aussi utiliser les Mentionnons n n ` ariance des stimuli d’origine. La trace i=1 λi de la matrice Λ sert ici a mesurer la=1 λi n 5% de la variancekdes stimulidans− pm La =z1, .], . i,=1 λiIF-21410/64326 enΛ serti ici: a l’oper = z ¯ p . .mesure Q.G denla matrice ef ratio ` m la variance des p contenueT (pfectueri,unse trace . habituellement parqui expliquen santes principales pour ef k [les )=1mesure de volume,nos d’hyper-volume, neurones ´ tdes stimuli d’apprentissage. Wd’origine.2 composantes< ou stimuli Réseaux de (10.9) contraindre, parpexemple, aux1 z k .kblanchiment deprincipales le fectuant mesu k = W s’agit d’une 10 m Il ` ´ points consiste a calculer le determinant de la matrice de covariance. A choisir nos composantes de la fac suivante choisir nos mm composantes de lafac¸ onsuivante :: ¸ on m m λi i=1 λ in =1 i > τ , n =1 λi > τ , iλ i=1 i ´ e entre les differentes composantes de nos stimuli. Intuitivement, nous recherchons ` ´` ans nos nuages de points ou la variance est maximale, tel qu’illustre a la figure ` ` space a deux dimensions, ou z1 et z2 donnent l’orientation des deux composantes 11 ` ’ellipse symbolise l’hypothese de distribution gaussienne des vecteurs qui est sous- CHAPITRE 10. ACP ET APPRENTISSAGE HEBBIEN Mentionnons finalement qu’on peut aussi utiliser les valeurs propr santes principales pour effectuer un blanchiment de nos stimuli en effect santes principales pour effectuer un blanchiment de nos stimuli en effec z pk = Λ−1/2 pk , k = 1, . . . , Q, m pk = Λ−1/2 pk , k = 1, . . . , Q, m z ` ´ ` ou Λm represente la matrice diagonale des m premieres composantes de ` ´ ` ou Λm represente la matrice diagonale des m premieres composantes d p λ1 0 · · · 0 λ1 0 · · · 0 0 λ2 · · · 0 Λm = 0. λ.2 ·.·. · 0 , . . . . .. . . . . , . Λm = . . .0 . . · .·.· λ.m . 0 0 0 · · · λm strationce composantes principales une matrice de covariance unitaire pour les p . des qui engendre pour un nuage de points en deux dimensions. k ce ` qui engendre une matrice de covariance unitaire pour les pk . ` ´ amene a definir l’analyse en composantes principales en termes de la variance et 1 2 Blanchiment des données utiliser les valeurs propr Mentionnons finalement qu’on peut aussi GIF-21410/64326 Réseaux de neurones ` egle de Hebb b (voir section 4.2) exprime la variation de poids en fonc` ntissage par d’un neurone la sortie a la regle de Hebb :(voir section 4.2) exprime la variation de poi ´ ´ rrelation la regle de e p et la sortiesectionneurone : ` ge par entre l’entre Hebb (voir a d’un 4.2) exprime la variation Correlation entre l’entrée p et la •l’entree p et la sortie a d’un neurone : (10.14) ´ ion entre η ortie a d’un neurone : ∆w = s p a. ∆w = η p a. de Hebb Règle de Hebb ` nous neurone la re forte du =-vis d’un stimulus, d’un stimul ` se dudit que plus sera´ ponse∆wneurone a. forte vis-a-visplus la vis-a η p sera poids sera grande. ´ ` dit que• Pour run neurone linéaire : plus la eponse du neurone sera forte vis-a-vis d’un ´ cas d’un neurone lineaire, nous avons la relation a = wT p = pT w. En inte sera grande. ´ ous avons la relation astimuliTet en supposant que les stimuli d’entree s = w p = pT w. En interpretant w ´ direction dans l’espace des 2 et en ´ ´ timulion peutsupposant que de performance F suivant : T centreT ´ enneneurone lincraire, nous avons la relation a e : w p = p s w. , se ´ eer l’indice les stimuli d’entre Soit el’indice de performance=sont ’un tion dans l’espace des stimuli et en supposant que les stimuli d’e F = a2 = (wT p)(pT w), 22 ,a = (wsepcreer w), on peut T )(´pT l’indice de performance F suivant : (10.15) F T=)(pT =)]une p)(prance = (F ) : de neurones a2 w (12 T esp[e TGw]), E wT C w E [F ] fixe, on obtient w wT E ´ IF-21410/64326 Réseaux = ppT w ´ module ||w|| = E [(w p • ice de performance F suivant : ´ ´ imiser la variance. Pour un module ||w|| fixe, on obtient une esperance E ( e cas d’un neurone lineaire, nous avons la relation a = wT p = pT w. En inter poids sera grande. ´ ´ direction dans l’espace des stimuli et en supposant que les stimuliTd’entree so T En lineaire, nous avons lacomme= w ´er l’indice de w relation une : cas d’un neuroneinterprétantperformance Fasuivantp = p w. En inte 2 ´ yenne , on peut se cre ´ d l’espace des stimuli posant ||w|| direction dans irection et en et en supposant que les stimuli d’entree s ´ F := a2 = performance , enne2 , on peut se creer l’indice de (wT p)(pT w)F suivant : constant • ´ ximiser la variance. PourF = a2 = (wT p)(pe, w),obtient une esperance E (F un module ||w|| fix ´T on de l’orientation= EwwT p)(laTmatrice wT E [ppT ]w = wT C w E On de [( et de p que= de era maximum [F ] constate w)] F s covariance C des stimuli. Claire ´ e F sera maximum lorsque w sera oriente dans la direction de la composante lorsque de la matrice de covariance C des stimuli. Clai de l’orientation de w etw pointera dans la direction ´ F sera maximum lorsque w sera oriente dans la direction de la composante principale de C ` ` bleme majeur avec cette formulation de la regle de Hebb est que celle-ci es ` de w aura tendance a croˆtre sans cessecette approche presque touj ı Le problème avec et l’approche diverge ` nsiste majeur avecque le module la regle aura est que celle-ci e ` leme a normaliser w : formulation de de` w de Hebb est cette ` de w aura tendance a croˆtre sans cesse )et l’approche diverge presque tou ı tendancet à 1) = w(t sans acesse croître + η p ` siste a normaliser w : w( + ||w(t) + η p a|| E [F ] = E [(wT p)(pT w)] ||wwT EeppT ]obtient T Cw erance E ( [ imiser la variance. Pour un module = || fix ´ , on w = wune esp ´ • • w(t + 1) = 13 w(t) + η p IF-21410/64326 a G Réseaux de neurones ´ ´ er la variance. Pour un module ||w|| fixe, on obtient une esperan E [F ] = E [(w p)(p w)] = w E [pp ]w = w Cw T T T T T orientation de w et de la matrice de covariance C des stimuli ´ ra maximum lorsque w sera oriente dans la direction de la compo • Et l’approche diverge presque toujours ` majeur avec cette formulation de la regle de Hebb est que cell à normaliser • Uneasolution consiste l’approche diverge presqu aura tendance ` croˆtre sans cesse et ı le module de w : ` a normaliser w : w(t) + η p a w(t + 1) = ||w(t) + η p a|| e de Oja 14 GIF-21410/64326 Réseaux de neurones w(t + 1) = est • Uneasolution alternative de l’ela règle nom ´ quation 10.17, solution consiste ` adopter une approximation le `de Oja Regle de Oja Règle de Oja w(t + 1) = ||w((t)+ η p a || wt) + p a ||w(t) + η p a|| •rance de la variation des poids : ´ uler l’espe ` ` ir queregle regle ede ede bien potentiel de trouver la composante principale des s poss bien le le potentiel de ` ette cette poss ` aura convergé trouver la composante principale Qui lorsque : ´ de calculer l’esperance de la variation des poids : E (∆w) = E [η (ap − a2 w)] E (∆w) = E [η (ap −T a2 w)] T = η E [p(p w) − (w p)(pT w)w] = = E [E [(pT T )w− (wTppT pT w)w] η η p( ppw) − wT ( p)()ww] = = E [(ppT )wT− wT ) ppT )ww] η η (Cw − w Cww ( ` ´ ´ autre solution uivante : s consiste a adopter une approximation de l’equation 10.17, nommee 3 : ∆w∆wη aηp(−− a w)= η (a p − aa2 w) = = ( a p a w) = η ( p − 2 w) a, «A Simplified Neuron Model as a Principal Component Analyser», Journal of Mathematical Biol ` ´ 15 s-245, 1982. suffit de le faire a l’aide de l’equation 10.4. GIF-21410/64326 Réseaux de neurones le cas, il = η l’aide de l’ewT Cww) ` n’est pas le cas, il suffit de le faire a (Cw − ´ quation 10.4. IGReseau– Reseau permettant d’effectuer une S composantes pri 10.2 permettant d’effectuer une analyse en analyse en S com ´ –.´ • tendera vers zéro : Reseau permettant d’effectuer : ´ nce, on obtient E (∆w) −→ 0 et une analyse convergence, on obtient E (∆w) −→ 0 et : en S composantes p T Cw = (0 etCw)w wTλw )w = λw wCw = ( = Cw ce, on obtient E (∆w) −→ : = (w C w w valeur Cw associe.Cw)et = λle vecteur l’equat propre deFinalement,w substituant ´ ecteur propre qui lui estqui lui ´est associe. Finalement, en substi en ´ t w le vecteur propre lui est associé propre qui λ, on obtient : ssion de definition (voir section 3.2.3), que λ = wT Cw est u , ue, par λ´ on obtient : λ =...
View Full Document

{[ snackBarMessage ]}