11 - chap11-slides

11 - chap11-slides - Réseaux RBF (chap 11) Marc Parizeau...

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: Réseaux RBF (chap 11) Marc Parizeau GIF-21410/64326 Réseaux de neurones au RBF ´ ´ ` ce chapitre, nous allons etudier les reseaux dits a «fonction de base radiale 50 CHAPITRE 5. PERCEPTRON MULTICOUCHE ` u chapitre 5 qu’il est possible d’approximer n’importe quelle fonction a l’aide ´ ´ integrant une couche cachee de neurones sigmo¨des et une couche de sortie de ı ` omme a la figure 5.10 p(page 50). Dansa ce cas, on obtient les sorties suivante a 1 2 Entrée Couche sigmoïde Couche linéaire 1 2 Approximation de fonction Rx1 W ˆ ´ s ce reseau au cas d’un seul neurone de sortie (S = 1), posons a2 = f et ann a = logsig( ! a = p relin(W a ! ) couche de sortie pour simplifierW(pbb2) = 0). Onuobtientb alors : R S1 x 1 1 S1 S2 x 1 2 a2 = -1purbelin(W2 a1 − b2b2 = W2 a1 − b2 ) 1 -1 S x1 1 S1 x R + n 1 S1 x 1 W S2 x S1 + n 2 S2 x 1 S x1 2 2 S2 2 1 1 21 F I G . 5.10 – Reseau multicouche permettant de faire de l’approximation de fonction. ´ ˆ f = W2 a1 = 1 1 S1 w1,j a1 , j j =1 ´ a1 . . . a1 1 ]T correspond aux sorties des neurones de la couche cachee, et w1,j 2 S ´` ´ ´ neurone cache j a la sortie unique de notre reseau. En interpretant les a1 co j GIF-21410/64326 Réseaux de neurones 2 (a) (b) (c) (d) ´ ´ section 3.1.2), on remarque immediatement que l’equation 11.2 permet d’ap Architecture 114 Entrée Couche radiale Couche linéaire ´ CHAPITRE 11. RESEAU RBF p Rx1 W 1 a1 = ! S x1 1 W 2 a2 = f S2 x 1 S1 x R R S1 S2 x S1 S2 a = ! (p ) f = purelin(W2a) F I G . 11.1 – Reseau RBF avec fonctions radiales gaussiennes. ´ ` ` ´ ´ tous les neurones de cette derniere peuvent contribuer a produire la reponse du reseau. Ils tra G 3 vaillent globalement. Ceci explique entre autres pourquoi on IF-21410/64326 Réseaux de perceptro ne peut pas utiliser une neurones ´ lisees, mais la plus courante est une fonction φ de type gaussienne m ment aux neurones sigmo¨des, les neurones «radiaux» travaillent lo ı (x − i we T Σ−reseauxw) . Plusieurs fon ) des 1´(x − i RBF ´ trees. C’est la principale particularit ´ , φ(x) = exp − ´ tilisees, mais la plus courante est une fonction φ de type gaussienne m 2 Couche radiale −1 (x −poseTplus (x − ent)qu’autrement eg i w) Σ ´ e matrice de φ(x) = exp que l’on covariance − souv i w , 2 ´ osition (le centre) du neurone radial dans son espace d’entree. Ains ´ ´ epend d’un voisinage autour du centre, dont la variance σ 2 est egale 2 Σ qui d ´ pend souvent qu’autrement ´ ne matrice de covexponentielle= σ eI ´ ´ une decroissance ariance que l’on pose plusdu carre de la distance eg en ´ position (le centre) du neurone radial dans son espace d’entree. Ains ´ depend d’un voisinage autour(x − i w) dont la variance σi2 est egale (x − i w)T du centre, ||x − w||2 ´ = , 2 ´ = xp − ´ la distance en c φ(x) ecroissance exponentielle qui dependedu carre de2σ 2 une d ´ exp − 2σ ´ e la norme euclienne.− i w)T (x − i w) peut alors approximer2une fo (x Un reseau RBF ||x − i w|| φ( : = exp − , 2 2 vantex) = exp − 2σ 2σ S1 2 ˆ(p = ´ ne la norme euclienne.fUn)reseau4 w1,j φpeut) alors approximerneuronesfo RBF j (p IF-21410/64326 Réseaux de une G 2σ 2 S 1 2σ 2 2 ˆ(p) = f w1,j φj (p) Couche linéaire ´ j =1 e euclienne. Un reseau RBF peut alors approxim exp − = exp − ` deuxieme couche qui S 1 le neurone j de la prem relie 2 ˆ(p) = mbre de neurones sur la premiere couche et φj (p) f w1,j φ` (p) j ` ` ´ cette derniere. Dans jle cas vectoriel ou l’on desi =1 ante : ` deuxieme couche qui relie 2le neurone j de la prem ˆ(p) = W Φ(p) f ` bre de neurones sur la premiere couche et φj (p cette derniseau Dans alent estectoriel a u l’on des ´` ´ ´ o` dont le re ere. equiv le cas v illustre ` la figure ´11 nte : ˆ(p) = W2 Φ(p) f 5 GIF-21410/64326 Réseaux de neurones ´ ` ` egalement reseau RBF realisent des ´ ´ Ce qu’il importe de remarquer ici est que les deux couches du distinctes. La premiere consistant a ` distinctes. La premiereEn ce sens,aon peut tres bienici des derpuis a deux couches du deux latapes eme a e Ce consistant ` de remarquer proce quea les estimer leur radiauxe et e deuxi r ´ ` ` ´ ` leur apprentissage en r ´ ´ fonctions distinctes.qu’il importe estimer la position est centres `des neurones variance,seau RBF ` ealise `` ´´ mergalement distinctes. deuxieme reEn ce sens,poids de la position lineaire. a des neurones radiaux deux couche proceder ` leur apprentissage fonctions distinctes.` consistant ` on peut tr ` ´ e leur variance, et la La premie a estimer lesa estimer la es bien Une centres re alternative pour leen des premie ` positionn ´ leur variance, et la La premi `` consistant a estimer couche lin ´ centres des neurones ra ` egalement distinctes. deuxiemeea estimer les poids de lala position eaire. re des ` puis a estimer `` remiere alternative pour le positionnement des centres consiste simplementment dans l’espace des entrees. ´` ´ buer uniforme a les distri` ` ` ´ puis a estimer leur variance, et la deuxieme a estimer les poids de la couche lineaire. ´ Une premiere alternative ees. le positionnement des centres consiste simplement a les lorsque ´ rmement dans l’espace des entrpour Cette solution comporte evidentes, tout particulierementdistri- cet esp cependant des limitations` ´ ` ` ` ´ Une premi ` re espace ve ´ ´ est de grande dimension. tout particulierement lorsqueecetalternatid’entree le positionnement des centres consiste simplement a les pour buer uniformement dans l’espace des entrees. Cette solution comporte cependant des ve est de fixer ` c Une seconde alternati limitations les ´ er lesdans l’espace des entre ee Cette grande dimension. cependant des limit ´ ´ parmi solution ´comporte ´ buer uniformement lorsque cet espace d’entres. est dechoisis aleatoirement ees d’apprentissag ´ evidentes, tout e est de `fix econde alternativparticulierement centres sur certains stimuli pk l’ensemble des donn ´´ ` ´ evidentes, tout lorsque cet espace d’entrcomme fonction dimension. semble desseconde alternativparticulierementce cas, on peut radiale une e pk choisisisotrope normalisee et c imposer e est de grande ´ Une donnees d’apprentissage.fixer les centres sur certains stimuligaussienne aleatoirement ´ e est de Dans 1 ´ e gparmi l’ensemble des donneeealternative est de fix= pce: centres sur certains stimuli pkfonction aleatoir aussienne isotrope normalis´´es et centrees sur i wDansles cas, on peut imposer comme choisis ´ Une seconde d’apprentissage. er k φi (p comme − ´ radiale une parmi l’ensemble des donn eesetd’apprentissage. Dans :ce cas, on peut imposer ) = exp fo gaussienne isotrope normalis ´ e centrees sur i w1 = pk S1 12 ´ radialeφi (p)g= exp − isotrope − i w 1|| ee et centrees sur i w1 = p(11.7) une aussienne 2 ||p normalis ´ , k: S δmax 1 o` 1 φi (p) = exp − 2 ||p − i w1u 2 , correspond au nombre total de neuron || S (11.7) δmax S leurs centres et i w1 a la position de ces ´ respond au nombre total de neurones radiaux,(pma= au carreentre ||p − i w1 ||2 , φi δ 2) x exp − de la distance maximum` √ 1 δ 1 2 e max radiale ´ 2 au ` position de ces de neurones radiaux, fonctioncarr ´ de de distance x / 2S centres et i w1 a la √ nombre total derniers. Ce choix de δmacart type efixe entraˆne un maximumpour tous ` ou S correspond au la σı = δma x radiales ni trop fonctions 1 1 a la tous les neurones. Il permet choixarantir 2 pointues ni tropne un fixe de leurs centres correspond √ nombre ces derniers. Ce de g de fonction radiale entraˆ distance ces d δ` x / 2 i ` au entre σ = ou S 1 et Sw pour position de total de neurones radiaux, δ des au carre de la aplaties, max ı ma ´ max a estimer les poids de la couc ` 1 ´ ˆ ´ ´ ne permet de possible. Il ecart type fixe trop aplaties,/ces deux ` latous les neurones. Il autantCe choix de des fonctions trop pointues ni deleurs centres et Sw1 aextremes etant a eviter reste plus qu’arantir fonction radiale entraˆ entre σ = δmax 2 i pour √ position de `ces derniers. que g verse (voir section 10.4.1) : ı ´ `´ e neurones. r ` ` usradiales ni trop pointuesde la coucheδlinx / 2deux extremesmatrice pseudo-ingle de lapossible. Il des fon qu’a estimer les type fixni de σ aplaties,eces S 1 utilisant, partantemple, laautant que de garantir ´ tous lesex a eviter Ile permet ecart poids e trop = ma ´ aire en pour ˆ ` ´ ` ne reste plus qu’a estimer les poids ni trop aplaties, ces deux extre par etant a e la re autant que W2 eudo-inverse (voir section 10.4.1) : de la couche lineaire en utilisant,mes exemple, viter gle de la possi ˆ ´ `´ radiales ni trop pointues matrice pseudo-inverse (vqu’a estimer les+ : section ´ ` ne reste plus oir ` W2 =10.4.1) egle D P poids de la couche lineaire 1en2utilisant, par exemple, la rrepon (11.8) ` ou D = [d d · · · dQ ] est la matrice des ´ matrice pseudo-inverse (voir section D P+ : W2 = 10.4.1) la matrice des reponses de la couche radiale et (11.8) ´ ´ ´´ ´2 1 d2 · · · dQ ] est la matrice des reponses desirees pour le reseau, P = [Φ1 Φ2 · · · ΦQ ] est + `r ´ = [d d · · dQ ] est la matrice des eponses desirW pour le reP. P une troisi ` · · ΦQ ] est ´ ´ ees = D P ´ seau, ´ ou eponses 1de 2la ·couche radiale et P+ la rmatrice pseudo-inverseFinalement, = [Φ1 Φ2 eme alternative con D · des de ´ la matrice des reponses de la couche radiale et P+ la matriceapseudo-inverse de P. ` l’aide ´ ` ` me alternative dQ ] est a matrice des re centres desde l’une ouradiaux P =´ [Φ1 Φ2 · · · Φ ´ ´ neurones reseau, ´ oueD = [d1 d2 · · · consiste la positionner lesponses desirees pour lel’autre des methodes d’app ` ment, une troisi (nue ` me ` Finalement, une ethodes d’apprentissage non supervis ´ 9 + la´´escentres des neurones de P. ou Fuzz la des m ´ des e´ alternativ consiste a positionner les dynamiques, Kohonen, GNG ´ l’une ou l’autrematricetroisireponses de laecouche radiale etePtudiematricechapitres 6v`erseradiaux e es aux pseudo-in a ` estimer plus qu’a ´ ´ σi en 6 ` a l’aide de l’une ou GNG des m ´ thodes d’apprentissage non supervise etudi il les reste utilisant,apar exem ´ ´ les centres des ` ynamiques, Kohonen, l’autreou uneetroisieT). Une fois ve consiste positionnes, ees aux Réseaux deneurones ra Fuzzy AR me alternati les centres a GIF-21410/64326´ chapitres 6neurones ne ` ` stimuli engendree par le processus co Finalement, 6) despositionner Algorithme • Positionner les centres des fonctions radiales • Estimer les poids de la couche linéaire «Curse of dimensionality» • Le nombre de neurones radiaux doit augmenter exponentiellement avec le nombre de dimensions de l’espace d’entrée distributions basées sur la matrice de covariance floue 7 • Une solution consiste à utiliser des GIF-21410/64326 Réseaux de neurones ...
View Full Document

This note was uploaded on 10/10/2010 for the course GIF 7005 taught by Professor Gagne during the Spring '09 term at Université Laval.

Ask a homework question - tutors are online