4 - chap4-slides

4 - chap4-slides - Chapitre 4 Processus d’apprentissage...

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: Chapitre 4 Processus d’apprentissage Marc Parizeau GIF-21410/64326 Réseaux de neurones rentissage est un processus dynamique et iteratif permettant de mod ´ es d’un reseau en reaction avec les stimuli qu’il recoit de son env ¸ ´ ´ type d’apprentissage est determine par la maniere dont les changem ´ ´ ` e surviennent. Apprentissage ´ ˆ ´ implique qu’un reseau se doit d’etre stimule par un environnement, ´ ts en reaction avec cette stimulation, et que ceux-ci provoquent dan ` ´ le vis-a-vis Processus dynamique et interactif eliorer avec de l’environnement. Ainsi, le reseau peut s’am ´ • ´ part des• Mise à jour des paramètres architectures que nous etudierons, l’apprentissage se tradui ´ ` fficacite synaptique, c’est-a-dire par un changement dans la valeur Stimuli en provenance •couche a l’autre. Soit le poids wdereliant le neurone i a son ` ` nes d’une l’environnement i,j ngement ∆wi,j (t) de poids peut s’exprimer simplement de la facon su ¸ ∆wi,j (t) = wi,j (t + 1) − wi,j (t), ´ ent, wi,j (t + 1) = wi,j (t) + ∆wi,j (t), avec wi,j (t + 1) et wi,j (t) represe uvelle et ancienne valeurs du poids wi,j . 2 GIF-21410/64326 Réseaux de neurones ´ reduire autant que possible cette erreur. Sous forme vectorielle, on ´ ˆ desire obtenir pour ce meme neurone i au temps t. Alors, ai (t) et ´ erents et il(est = d(t) − a(t), e t) naturel de calculer l’erreur ei (t) entre ce qu’on obtient (4.3) Correction de ´ · e (t)] quit) esigne )le va (t), des erreurs observees sur les S (4.2) neue ( d ´ d (t − ecteur = prentissage par correction’erreurs minimiser un indice l des erreurs consiste a`forme vectorielle, on ´ reduire autant que possible cette erreur. Sous S T i i i s signaux d’erreur ei (t), dans le but de faire converger les sorties du ` ` t qu’elles soient. Un critere tres populaire est la somme des erreurs e(t) = d(t) − a(t), (4.3) S ´2 ´ · eS (t)]T qui designe le vecteur des erreurs observees sur les S neuT F (e(t)) = ei (t) = e(t) e(t). (4.4) ` prentissage par correction des erreurs consiste a minimiser un indice i=1 d s signaux d’erreur ei (t), dans le but de faire converger les sorties du ` ` t remarquer que les param ` tres libres d’un ´ somme ses poids. la e qu’elles soient. Un critereetres populaire estreseau sont des erreurs a ━ Réseau w(t) au temps t. ids et assemblons les sous la forme d’un vecteur w(t)) = F (t), S 2 allons commencer par choisir des poids initiaux nous F (e(t)) = ei (t) = e(t)T e(t). (4.4) ` llons modifier ices poids de la maniere suivante : =1 w(t + ) = w( ) + η x tres (4.5) ` ´ e remarquer1que les tparame(t), libres d’un reseau sont ses poids. GIF-21410/64326 Réseaux de neurones 3 oids et assemblons les sous la forme d’un vecteur w(t) au temps t. Série de Taylor ∂ F (x) F (x) = F (x ) + ∂ dx ∗ x=x∗ × (x − x∗ ) × (x − x∗ )2 + · · · × (x − x∗ )n + · · · 1 ∂ 2 F (x) + × 2 ∂ 2 dx x=x∗ ∂ n F (x) 1 × + n! ∂ n dx x=x∗ 4 GIF-21410/64326 Réseaux de neurones ´ designe la direction dans laquelle nous allons chercher le min ´ determinant l’amplitude du pas dans cette direction (la vitesse ire en sorte que F (t + 1) < F (t). Mais comment peut-on ch ´´ ´ ´ ´ on precedente soit respectee ? Considerons la serie de Taylor d Série de Taylor d’ordre 1 T ) − w(t). Or, pour que F (t + ) 1 il faut que la cond où T F (t) = . T .x F (t) ∆w(t) = η F (t) (t) < 0. . ´ ´F ´ cteur x(t) qui respecte l’inegalite∂de l’equation 4.7 pointe ∂ wn e F . On parle alors d’une direction de «descente». Pour ob 5 GIF-21410/64326 Réseaux de neurones F (t + 1) = F (t) + F (t) ∆w(t), ` ∂F ` le gradient de F par rapport a ses parametres libres (les poid ∂ w1 < F ( , t) ∂F ∂ w2 ` Maintenant, il´ importe de remarquer que parametres nstante positive determinant l’amplitude du = lesdans η!(F(t) libres d’unv w(t + 1) pas (t) + cette ,direction (la w x t) Prenons l’ensemble en sorte que et t + 1) < F les Mais comment peut-o ’objectif est de faire de ces poids F (assemblons (t). sous la forme d’un ve Pour` lelaecteur F (edesigne la direction dans)laquelle nous allons chercher lech ´´ ´ ´ ´ ´ our ouminimiser x(t) (t))c= F (wsoit respectee ? Considerons la seriepar Tm que v condition pre edente (t)) = F (t , nous allons commencer de a ´ ` e(t =t) ): au hasard,vpuisterminant l’amplitude du pas dans de la direction suivan wconstante positi e de nous allons modifier ces poids cette maniere (la vite (0 L’objectif est de faire en F I GFque+ 1t rajectoire tdeMais)comment ,peut-on sorte. 4.1 F (T + 1F<t) + ). F (descentet) gradie (t – ) = ) ( F ( la t T ∆w( du w(t + 1 e = Conside η x( ), ´ ´´ ´ ´ pour que la condition precedente soit respect) e ? w(t) + ronstla serie de Taylo ` F t) d ´ ` ` u de(w(t)e:signe le gradientIde F parTrajectoire deparametres libres (les F G . 4.1 – rapport a ses la descente du gradi ` ´´ ou le = w(t ´x 1 donn(t .η directionaut=Flaquelle nous x(t)( pointe dans dans (t ) 1 < ) t), w(t) vecteure+(t))designe)laOr, F ,(til+que que tle+ ecteurT(∆wilt)chercher la maximum, tant − w ee > pour f 1) F ( + v ) F (tF allons f,aut que le 0 constante E DE HEBB positive determinant l’amplitude du pas dans cette direction (la vi spectee F (danssigne´le que le produit scalaire sera 29 car u´ : t) de ce cas gradient de F par rapport a ses minimum :libres (les po c’est ´ ` ` o` parametres maximum, ´ faire en ´sorte que F (t + () )< F (tecteurT x(t) < 0. peut-o L’objectif est etant donnee η >F0,t)T faut1que leηv). Maisx(t) pointe dans de ( il ∆w F (t + 1) F (F)(t)comment la co ∆w(t) = w(t + 1) − w(t). Or, pour que t = < t , il faut que ´´ ´ pour que laecondition prquedente soit respectxet? Considerons la: serie de Tay e( ) = minimum ´ wcar c’est dans ce cas ece le produit scalaire sera − ´ (t) F ´ 2 respecte : ´ ´ T´ ’importe: quel vecteur x(t)t)qui respecte l’inegalite de l’equation 4.7 po de w(t) w( F (t)T ∆w(t) = η F (t) x(t) < 0. ction qui diminue F . On parle alors1d’unex((t)+ − (deT«)w(t), ». Po F (t «descentedirection t) »∆ + ) = F du = F F (t: t) gradient descente ` Ce qui engendre la regle dite de Méthode du gradient ` Ce qui engendre la regle dite de «descente du = < » ,: ) gradientt ∆w(t) = w(t + 1) − w(t). Or, pour que∆wt(t) 1) −ηF (F)(til faut que la F( + ´ respectee : w ´` illustree a la figure 4.1. Dans F (t)T1∆w∆w= ) =F cetteFfigure0montre l’espace des (t η −η)T x((t)< . (t) poids, (t t) ´ ´ ´ N’importe quel vecteur x(t) qui respecte l’inegalite de l’equation 4.7 point ` F (t de diminue F . On de F par d’une direction de «etres libres (les ´ ` ` ou rection) quisigne le gradientparle alors rapport a ses paramdescente». Pour !F(t) ´ ´ es par des ellipses h ´ ´ representequel vecteur x(t) qui ypothetiques.gLa e eche equation 4.7 spo fl ` l’ ´en pointille m N’importe r`ajectoire de la descente du gradient.6 respecte l’in ´poids, de e figure neurones alit ´ cett F I G . 4.1´ e illustre– Ta la figure 4.1. Dans l’espace des eGIF-21410/64326 Réseaux demontre ` pour atteindre le minimum de F . La fleche pleine montre la direction Observations • Bien que non plausible biologiquement, cette méthode est souvent employée un « professeur »; on parle d’apprentissage supervisé • Le signal d’erreur doit être fourni par 7 GIF-21410/64326 Réseaux de neurones Règle de Hebb ` 2.2. MODELE D’UN NEURONE • Synchronisation des activités pré et postsynaptique F I G . 2.2 – Schema d’un neurone biologique. ´ ´ ` ´ il engendre un potentiel electrique qui se propage a travers son axone1 pour eventue nir exciter d’autres neurones. Le point de contact entre l’axone d’un neurone et le de autre neurone s’appelle le synapse. Il semble que c’est l’arrangement spatial des neu ´ ´ leur axone, ainsi que la qualite des connexions synaptiques individuelles qui determ 2 ´8 ´ tion precise d’un reseau de neurones biologique. C’est en se basant sur ces connaissa GIF-21410/64326 Réseaux de neurones ` ´ ´ ´´ ´ modele mathematique decrit ci-dessus a ete defini. « When an axon of cell A is near enough to excite a cell B and repeatedly or persistently takes part in firing it, some growth process or metabolic changes take place in one or both cells such that A’s eficiency as one of the cells firing B, is increased. » 9 GIF-21410/64326 Réseaux de neurones Synapse « hebbien » • Si deux neurones de part et d’autre d’un synapse sont activés simultanément, alors la force de ce synapse doit augmenter • Si les mêmes deux neurones sont activés de façon asynchrone, alors le synapse correspondant doit être aaibli ou carrément éliminé 10 GIF-21410/64326 Réseaux de neurones ´ e cette efficacite. • ´ ptique (l’entree j du neurone) au temps t, et a(t) a l’activit •eInteraction Cette formule fait ressortir e`xplicitem ` ) a ce m ˆ me temps t. correlation • Conjonction ouune forme vectorielle, on ecrit : ´ entre et celui qui sort. Sous ∆w(t − 1) = η p(t)a(t). ` ment, on peut exprimer la regle de Hebb sous sa forme la p Dépendance temporelle des activités pré et ∆wj (t − 1) = η pj (t)a(t), post-synaptiques Dépendance spatiale ´ tante positive qui determine la vitesse de l’apprentissage, p • ´ ` ´ ediat avec la regle de l’equation 4.11 est que les changements ´ facon exponentielle si, par exemple, l’entree et la sortie dem ¸ ` ur pallier a cette croissance exponentielle qui provoquerait in GIF-21410/64326 Réseaux de neurones 11 s, on ajoute parfois un facteur d’oubli qui retranche de la varia ´ oissent (ou decroissent) sans limite. Supposons que pj (t) = a(t) = ma ´ ` regime permanentto−∆wj = 0.(Alors,)la vαw(tmaximale wj x que u 1) = η p t)a(t − aleur − 1). ∆w( ´ st donnee par : ´ ne nouvelle constante. Sous forme vectorielle, on ecrit : Facteurquation 4.13, contourne efficaceme d’oubli ´ ´`´ Hebb avec oubli, enoncee a l’e LE DE HEBB (t − 1) = η p(t)a(t) − αw(t − 1). ∆w ma ma wj x ee a l’equation 4.13, contourne efficace =` (1 − α)wj x + η ´ ´ ebb avec oubli, enonc ´ η ´ sent (ou decroissent) sans limite. Supposons que pj (t) = a(t = . α ` ime permanent ou ∆wj = 0. Alors, la valeur maximale wmax ` ` ´ ` regle ne resout pas tous les problemes. A cause du terme d’oubli, il ´ ´ ´ ´ wmax = sinon les max + η ` ˆ soient repetes regulierement, (1 − α)wassociations apprises grace j j ´ ` ´ seront eventuellement perdues car completement oubliees. Une autre η ` re ’exprime donc de la manie= suiv.ante : GIF-21410/64326 Réseaux de neurones ´ onnee par : j α 12 ´ ` ur simplifier (on pose un rythme d’apprentissage egale a celui de l’oubli), instar» «instar» :: j (t ∆w] , − p ( ) −wjj((t− 1) , wt −∆wjj((tt − 1) = ηa(t) [pjj(tt) − (4.17)−1)] ] , 1) Variante (4.17) (4.17) 32 de la acon sui ante soussa forme vectorielle de la ffac¸on suivvante: : ¸ ousvante : v sui sa forme CHAPITRE 4. PROC p(t) ∆. ∆w ( − p( ) −w((t− 1) . wt − (t − 1)]w(tt − 1) = η a(t) [[p(tt) − (4.18) 1)] ] . tte eegle, est de regarder ce qui se passe lorsque ( (t = 1 : ``gle, est de ) garder te rrlorsque a(tre= 1 : ce qui se passe lorsque aat) ) = 1 : sse w( )) = w−t1)]= w(t (t = = (t). w(t − 1) + η p − w(( − 1) w(t − 1) + η [[p((tt))(4.19)t− 1)] ] − wt (1 − η )w(t − 1) +η p((t) (1 − η)w(t − 1) + (4.20). . η p t) (4.18) (4.18) w(t) w(t-1) (4.19) (4.19) (4.20) (4.20) n presence d’une activite post-synaptique positive, le vecteur de poids est ´ positi ´ pre´sence d’une activit´ .post-synaptique positive, le vecteur«de poids sest F e de Repre G ´ segment qui rel de la regle instar» de ` tique ecteur ve, le ee p(It), 4.2 long du est vecteur le –poidssentation graphiqueie l’ancien vecteurlor d’une n du v d’entr ´ ´ tive. dugment qui relie e p(t), le vecteur degment qui relie l’ancien vecteur de vecteur d’entre l’ancien long du se u se ee, tel qu’illustre a la figure 4.2. Lorsque η = 0, le nouveau vecteur de ´` ’entr ´ ´ ´` entree, tel qu’illustre a la figure 4.2. Lorsque η = 0, le nouveau vecteur de Lorsquechangement). Lorsqueecteur, de nouveau vecteur de poids est egal ´ (aucun η = 0, le nouveau v η = 1 le ´ (aucun changement). 1Lorsque η = 1,titif eau vecteur de poids est egal ´ 4.3poids eau ee al nouv a mi-chemin entre l’ancien Comp g le est ` ´ 1alement, lorsque η = 2de nouv est vecteur , le nouveau vecteur 1 , le ` IF-21410/64326 Réseaux de neurones alement, lorsque η = 2 , le nouveau v13 ecteur est aGmi-chemin entre l’ancien ´ mi-chemin entre l’ancien ecteur d’entr`ee. vecteur est a Apprentissage compétitif • Les neurones compétitionnent entre eux pour le droit d’apprendre de ses variantes • On utilise la règle de Hebb, ou l’une • Requiert une mesure de proximité entre les stimuli et les vecteurs de poids 14 GIF-21410/64326 Réseaux de neurones ´ ´ uvent constitues d’une seule couche de neurones de sortie, totalement connectee ´´ Un neurone vOn appliqueses poids synaptiques en les rapprochant (geometr ainqueur modifiera la règle de Hebb, mais ´ ´ mulus d’entree p pour lequel il a battu tous les autres neurones lors de la competiti • sur un seul neurone à la fois: η (p − w) si le neurone est vainqueur ∆w = , 0 autrement ` ´ ROBLEME DE PROBLEME TION DU CREDIT DU CREDIT ` ´ 4.4. L’AFFECTADE L’AFFECTATION ´ sins, aucunement ses mais v ne sera donc erent fect ´ diff ´ rent : lesneurones: v un taux d’apprentissage d’apprentissage ifiera mais avec oisins,poids.aIlec un taux diffpas af: e par leestimulus en question. ´ ` it egalement un voisinage autour du neurone gagnant et on applique une regle simil η1 (p − w) si leηneurone est siainqueur est vainqueur 1 (p − w) v le neurone w) v le neurone est voisin ∆w = η2 (p −∆w =si leηneurone est sioisin du vainqueur , du vainq 2 (p − w) 0 autrement 0 autrement 2 sur un sous-ensemble des • où encored’apprentissage. Un neurone qui ne gagne pas la com ` η < 1 correspond a un taux ´ omme nous le verrons plus loin verrons plus loin dans ce chapitre,competitif est surto Comme nous le dans ce chapitre, l’apprentissage l’apprentissage com ` e contexte dans le contexte d’un apprentissage e, c’est-a-dire lorsqu’onane connai d’un apprentissage dit non-supervis ´ non-supervise, c’est- ` -dire lorsq ´ dit ´´ ´ s desirees pour les desirees pour les sorties du reseau. ´´ ´ valeurs sorties du reseau. 15 GIF-21410/64326 Réseaux de neurones ≤ η1 . avec η2 ≤ η1 . Entrée Couche de S neurones Aectation du crédit + p Rx1 W SxR n • Comment aecter le crédit d’un bon -1 Sx1 ƒ S a Sx1 b résultat global à l’ensemble des a = ƒ(Wp ! b) décisions intermédiaires ? F I G . 2.6 – Representation matricielle d’une couche de S neurones. ´ Couche 1 Couche 2 Couche 3 R Sx1 Entrée p Rx1 W 1 a1 S1 x R + n 1 1 S1 x 1 W 2 a2 S x1 ƒ 1 -1 S2 x S1 + n 2 2 S2 x 1 W 3 a3 S x1 ƒ2 -1 S2 S3 x S2 + n 3 3 S3 x 1 S x1 ƒ3 S3 -1 R b1 S1 x 1 S1 b2 S2 x 1 b3 S3 x 1 a1 = ƒ1(W1p ! b1) a2 = ƒ2(W2a1 ! b2) a3 = ƒ3(W3a2 ! b3) F I G . 2.7 – Representation matricielle d’un reseau de trois couches. ´ ´ ´ ´ 16 ´ differents algorithmes pour y parvenir dans differents contextes. Pour specifier la structure du de neurones GIF-21410/64326 Réseaux 34 Apprentissage supervisé Environnement p(t) Professeur CHAPITRE 4. PROCESSUS D’APPRENTI d(t) • Correction des erreurs + Système supervisé e(t) a(t) ! " • Couples {(p ,d )}, q q = 1, 2, ..., Q qF I G . 4.3 – Schema bloc de l’apprentissage supervise. ´ ´ ´ ´ ` ` L’apprentissage supervise est illustre d’une maniere conceptuelle a la figure 4.3. L’en ´ ´` ment est inconnu du reseau. Celui-ci produit un stimulus p qui est achemine a la fois au pr ´ ˆ` ` ´ et au reseau. Grace a ses connaissances intrinseques, le professeur produit une sortie desi ´ ´ pour ce stimulus. On suppose que cette reponse est optimale. Elle est ensuite comparee (p G signal d’erreur Réseaux est re-inject ´ ´ ´ tration) avec la sortie du reseau 17 produire unIF-21410/64326 e(t) qui de neurones e pour Apprentissage par renforcement • Au lieu d’être guidé par l’erreur, on utilise un indice de satisfaction globale • Pas de gradient • Apprentissage en 2 étapes: exploration + exploitation 18 GIF-21410/64326 Réseaux de neurones Apprentissage non supervisé • Apprentissage compétitif • Métrique de distance • Les vecteurs de poids sont des « prototypes » de stimuli • Le système apprend à regrouper les stimuli en catégories (classes) 19 GIF-21410/64326 Réseaux de neurones Approximation d = g (p) • g est inconnue • Apprentissage supervisé: {(pq , dq )} , q = 1, . . . , Q 20 GIF-21410/64326 Réseaux de neurones Association 1. Auto-association (mémoire): p* 2. Hétéro-association: p d p 21 GIF-21410/64326 Réseaux de neurones Classement • Hétéro-association où: d= d1 d2 . . . dN avec di = • Supervisé avec une sortie par classe • Approximation de N fonctions 22 GIF-21410/64326 Réseaux de neurones 1 0 si p appartient ` la classe i a autrement Prédiction HES D’APPRENTISSAGE Approximation • d’une fonction ´ iction. La notion de prediction est l’une des plus fondamentales en apprentissage ` ´ it d’un probleme de traitement temporel de signal. En supposant que nous possedons x(t-1) ´ ´ ´` ntillons passes d’un signal, x(t − 1), x(t − 2), . . . , x(t − M ), echantillonnes a interv x(t-2) ˆ `´ ` ´ mps fixe, la tache consiste a predire la valeur de x au temps t. Ce probleme de predict x(t) ˆ ´ ˆ` ` etre resolu grace a un apprentissage par correction des erreurs, mais d’une maniere x(t- etant ´ ´ ´ ´´ ˆ ´ rvise (sans professeur), M) donne que les valeurs de sortie desiree peuvent etre infer ´ ´´ ´ ctement de la serie chronologique. Plus precisement, l’echantillon de x(t) peut servir ´´ ur desiree et le signal d’erreur pour l’adaptation des poids se calcule simplement Apprentissage supervisé uation suivante : temporelle x(t): • ... e(t) = x(t) − x(t | t − 1, t − 2, . . . , t − M ), (4. ´ ´´ ´ ´ (t) designe la sortie desiree et x(t | t−1, t−2, . . . , t−M ) represente la sortie observee ´ ´ ´ ´ ´ 23 ´ GIF-21410/64326 Réseaux de neurones ` au etant donne les M echantillons precedents. La prediction s’apparente a la construct ´´ ´ ne la sortie desiree et x(t | t−1, t−2, . . . , t−M ) represente la sortie o ´ ´ ´´ ´ ` onne les M echantillons precedents. La prediction s’apparente a la c ´ ` ´ physique de la serie chronologique. Dans la mesure ou le reseau p ´ ` t la fonction de transfert est non-lineaire, le modele pourra lui-auss Système u(t) y(t) nonˆ a commande d’un processus linéaire autre tache d’apprentissage qu est une ´ ´ ` ide d’un reseau de neurones. Considerons un systeme dynamique n ` ´ ´ ` ` ´ u u(t) designe l’entree du systeme et y (t) correspond a la reponse Système ` ´´ ´ r) eneral, on desire(tcommander ce systeme de d(t) ere a ce qu’il s mani ` ` linéaire ´ ` ´´ ` ` ele de reference, souvent un modele lineaire, {r(t), d(t)}, ou pour ` ve a produire une commande u(t) telle que : t→∞ Commande lim |d(t) − y (t)| = 0, ` ` G celle du modele neurones ´ ` ´ ce que la sortie du systeme suivent de pres IF-21410/64326 Réseaux dede refe 24 Prochain chapitre: Perceptron multicouche 25 GIF-21410/64326 Réseaux de neurones ...
View Full Document

This note was uploaded on 10/10/2010 for the course GIF 7005 taught by Professor Gagne during the Spring '09 term at Université Laval.

Ask a homework question - tutors are online