9 - chap9-slides

9 - chap9-slides - Architectures ART (chap 9) Marc Parizeau...

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: Architectures ART (chap 9) Marc Parizeau GIF-21410/64326 Réseaux de neurones Adaptive Resonance Theory (ART) • Stephen Grossberg & Gail Carpenter • Théorie d’inspiration biologique à base d’équations diérentielles • Plusieurs instanciations algorithmiques: - ART1: entrées binaires - ART2: entrées continues - Fuzzy ART: entrées floues 2 GIF-21410/64326 Réseaux de neurones FAQ http://www.faqs.org/faqs/ai-faq/neural-nets 3 GIF-21410/64326 Réseaux de neurones Résonance • Dans un contexte non supervisé... • Dans quelle mesure un stimulus ressemble-t-il à une catégorie existante ? • Permet l’apprentissage incrémental (séquentiel) des connaissances 4 GIF-21410/64326 Réseaux de neurones Sequencial Learning • Initialize the weights. • Repeat the following steps: - Collect one or more training cases. - Train the network on the current training set using any method. - Discard the current training set and all other information related to training except the weights. 5 GIF-21410/64326 Réseaux de neurones « Sequential learning results in "catastrophic interference", because the minima of the objective function for one training set may be totally dierent than the minima for subsequent training sets. Hence each successive training set may cause the network to forget completely all previous training sets. This problem is also called the "stability-plasticity dilemma". » 6 GIF-21410/64326 Réseaux de neurones • Comment assimiler de nouvelles connaissances, sans oublier les anciennes ? 7 GIF-21410/64326 Réseaux de neurones Ensemble flou • Soit A⊆R, un ensemble flou défini sur un référentiel non flou R = {x1, x2, ..., xn } A = { (x, μA(x)) | x ∈ R, 0 ≤ μA(x) ≤ 1} où μA(x) est le degré d’appartenance de x à l’ensemble flou A 8 GIF-21410/64326 Réseaux de neurones ZY ART Représentation graphique r2 1 R = {r1, r2} E p 0 0 1 r1 9 – Representation vectorielle d’un ensemble flouGIF-21410/64326 Réseauxrde erentiel E defini sur un ef ´ ´ ´ ´ neurones Opérations floues • Soit A et B, deux ensembles flous: - intersection: μA⋂B = min(μA, μB) - réunion: μA⋃B = max(μA, μB) complément: μA∁ = 1 - μA 10 GIF-21410/64326 Réseaux de neurones Interprétation géométrique A A⋃B A A ⋃ A∁ A⋂B B A∁ A⋂A ∁ 11 GIF-21410/64326 Réseaux de neurones Fuzzy Art 9. ARCHITECT CHAPITRE Sx2R W p Rx1 R 2R n2 Sx1 t rese E c a 1 2Rx1 C S a2 Sx1 ! F I G . 9.1 – Architecture du reseau fuzzy ART. ´ ` 12 GIF-21410/64326 Réseaux de neurones ` ulticouche qui, lors de la deuxieme phase d’entraˆnement, oubliera tres ı Soit avec des 1e;sentation vectoriel T p la repr ´ = [1 w 2 w · · · S w] des parametres de l’algorithme. ` et {r1 , r2 , . . . , rR } : Encodage fuzzy ART d ´ Les entrees d’un E = {(rj , p complémentaire vectoriel ´ Soit p la representation ` o{r1 , r2 , p. . ≤ R }represente le degr u 0 ≤ .j ,r1 : ´ : max p = [p1 p2 · · · pR ]T peut = {(rjetr ainsi ˆ p E d’apprent , ent un ensemble flou p(t) parmi la base ` dimensions, comme a la figure 9.2 ` ´ ´ ou 0 ≤ ge complementaire Ec :pj ≤ 1 represente le stim transformer (normaliser) nos degr T ˆ p = [p1 p2 · · · R ] peut ainsi e f d’un hypercubepunitaire, pour entr p(t) 1 ` dimensions, comme a la figure 9.2 a (t) = c p (t) transformer (normaliser) nos stim d’un hypercube unitaire, pour en f T 13 GIF-21410/64326 Réseaux de neurones ´ ´ (1 − p2 ) · · · (1 − pR )] represente le complement fl t ≤ tmax : Normalisationbase d’apprentissag des t irementd’apprentissage. p(t) parmi la le taux un ensemble flou entrées 1; ´ codage complementaire E : c ∆g w(t) = η a1 (t) ∩ g w(t) − g w(t) , 1 ` l’ ´t) hose que l’on peut remarquer a pc(equation 9.3 est que la no a (t) = p (t) oujours constante : R R R ´R ´ p1 )(1 − p2 ) · · · (1 − pR )]T represente le complement flou d 1 |a (t)| = pi + (1 − pi ) = pi + R − pi = R ` iveaux d’activation in2 des neurones de la deuxieme couche i=1 =1 i=1 i=1 i odage permet donc de normaliser en amplitude les stimuli d’e |a1 (tnorme l(t)| cardinal de 2 l’ensemble / ) ∩ i w 1 valeur constante ni (t) = , i = 1, . . . , S, 2 ´ ´ ctivation ni du neurone i|ide (la)|couche competitive, calcules α+ w t ´ ´ le degre de ressemblance entre le stimulus d’entree a1neurones , expr GIF-21410/64326 Réseaux de 14 cT t, plus i w sera grand, plus le niveau d’activation tendra vers 1 Le niveau d’activation n2 du neurone i de la c i ´` ` Pour les stimuli p de mesurer le edegre de la zone, comme a la ´ permet situes a l’ext ´ rieur de ressemblance entre l ´ ´ 97 endre la nouvelle recomplementaire, et le vecteur e. Pour cette E ´ codage ´ gion indiquee en trait pointillde poids i w. r ´ ´ | et le niveauvecteurs quelconques sera nettement inferieur aon o d’activation calcule dans l’espace des stimuli,` 1. A ´ r2 ´ ciee englobe ppour le cas particulier titionespace les autres, et s ` 9.3 gagneront la compe d’un avant a deux dimens ´ t celui dont pleingion est la plus petite qui sera e eclare gagnan la re correspond a la zone d’activit ´ ´ neurone i. d du ´ 1 ` ´ ´ ´ cette zone, le numerateur de l’equation 9.4 sera egal ´ ´´ Soit Zi la region associeeya i w. Dans le cas general d’un espac p y ´" ` ´ it d’un hyper-rectangle defini respectivement par les coins x et p x Z 1 a ∩ w= c ∩ c = f x dimension de cette regioni peut se calculer de la ( ´ aximum. La Z ! p p y Hyper-rectangle i i p!x p 0 0 1 |Zi | ≡ |y − x| r1 ´ r qu’un vecteur i w puisse changer de valeur (equation 9.9), il sociees a i w = [x yc ]T (en trait plein) et a a1 ∩ i w (en trait pointille). ´` ´ ´ ´ 15` ´ t gagne la competition de l’equation 9.7 et que celui-cineurones n’ech GIF-21410/64326 Réseaux de ´´ 4. Repeter tant que t ≤ tmax : Niveau d’activation ´ (b) Effectuer l’encodage complementaire Ec : r2 1 ´ (a) Choisir aleatoirement un ensemble flou p(t) parmi la bas 97 p(t) 1 a (t) = c p (t) (c) Calculer les niveaux d’activation n2 des neurones de la d i y p"y Zi ` ´ ou pc = [(1 − p1 )(1 − p2 ) · · · (1 − pR )]T represente le co |a1 (t) ∩ i w(t)| n2 (t) = , i = 1, i α + |i w(t)| p n x p!x Zi ! p ` ´ ´ ou α est le taux de selection, | · | designe la norme l1 du v (% d’agrandissement) 1 0 0 r1 |x| = [x1 x2 · · · xn ]T = x i=1 sociees a i w = [x yc ]T (en trait plein) et a a1 ∩ i w (en trait pointille). ´` ` ´ 16 GIF-21410/64326 Réseaux de neurones ´ (d) Calculer les sorties de la couche competitive : r2 Soit g = arg max n2 (t), l’indice du neurone gagnant. j 1 Résonance a (t) = 0 autrement 2 i j 1 si n2 (t) = max n2 (t) i j j =1···S 97 , i= ´ ´ (e) Si le degre de resonance du neurone g avec les sorties de la co p"y au seuil ρ : y |a1 (t) ∩ g w(t)| Z < ρ, x 1 (t)| |a Z !p p alors p!x bloquer temporairement le neurone g pour qu’il ne puis `´ a l’etape 4d pour choisir le prochain gagnant. i i r1 ´ (f) Liberer tous les neurones bloques. 0´ 1 0 (g)´ Mettre ` yc ]T (en trait plein) du neurone trait pointill ´ sociees a i w = axjour le prototypeet a a1 ∩ i w (engagnant : e). [ ` ` 17 GIF-21410/64326 Réseaux de neurones nstante et il faut que : CHAPITRE 9. ARCHITECTURES 1 |a (de la w(t)| d’entr ´ ´ nce du neurone g avec les sorties t) ∩ gcouche≥ Rρ ee est inferieur le neurone gagnant puisseil faut une modification de son vecteur de poids. Or : est une |a1faut ∩ et subir que : e constante etconstantew(t)| il (t) que : g <a1,(t) ∩ pw(t)||a1 (tρ ∩ g w(t)| ≥ Rρ (9.8) |ρ ≥ R) ( x g 1|a1 (t)| |a (t) ∩ g w(t)| = c∩ p yc que lepour quegagnant puisse subir une modification de modification de sonOr : neurone le neurone gagnant puisse subir une son vecteur de poids. vecteur rairement le neurone g pour qu’il ne puisse plus gagner et retourner p∩x x p oisir le prochain gagnant.g w(t)| 1 = p x =t) ∩ cc (∩)| c= |a1 (t) ∩ cy |a ( g∩ p p w ty c∩ p yc ´ rones bloques. p ∩x ∩x = p∩x totype du neurone gagnant : = pc ∪ y)c = (deM organ) ∩ yc (p pc ∩ y c px p ∪ y| (9.9) ∆g w(t) = η a1 (t) ∩ g w(t) =− |p ∩t)∩,+ R − |(deM organ) g w( x| = c p∩x (p ∪ y) = (deM organ = R − (|p ∪ y| −| pp ∪ |) )c ∩ xy ( prentissage. = |p ∩ x| + R − |p ∪ y| = R − |Zg ⊕ p| = p∩ x = R − (|p ∪ y| −||p ∩ x||) + R − |p ∪ y| ´ ´ ` p designe la plus petite region (hyper-rectangle) quiR − (|p ∪ y| foisp ∩ et|p (vo = = R − |Zg ⊕ p| englobe a la −| Zg x ) ( ´ i = g ). Par consequent, on obtient l’expression suivante : = englobe `⊕ fois ⊕ p d ´ remarquer a l’equation (hyper-rectangle) quiR − | vecteurs Zg et p (voir fi ´´ gn peutesigne la plus`petite region 9.3 est que la norme des Zg a lap| |Z ⊕ p| R(1 ´ vec i = g ). Par consequent, on obtient l’expression suivante : tante ou Z ⊕ p designe la plusg petite ≤ gion − ρ) :` ´ ´ ` re (hyper-rectangle) qui englobe a la g p ( fie la9.3R maximumPar cons|eegion | on Ratteindre en fonction du taux de vigi taille i = g ). R qu’une rZg ⊕R peutobtient )l’expression suivante : ´´ avec quent, ≤ (1 − ρ R ` t ecifie laplus lespiegions sont contraintes a de petitesIF-21410/64326 du tauxdelorsque ρ grand, (1 − r ´ = A limite, neurones ) pi + R egion pi ` atteindre en fonctionlaRéseaux de vigilan G tailles. (9.10) 18 = R ´ pi + taille maximum qu’une r− ´ p peut |Z ⊕ p| ≤ R(1 − ρ) g 2. Fixer α, η et ρ ; 3. t = 1 ; 1. Initialiser les poids W = [1 w 2 w · · · S w]T avec des 1 ; ´´ 4. Repeter tant que t ≤ tmax : ´ (a) Choisir aleatoirement un ensemble flou p(t) parmi la base d’apprentissage ; ´ (b) Effectuer l’encodage complementaire Ec : a1 (t) = p(t) pc (t) (9.3) ` (c) Calculer les niveaux d’activation n2 des neurones de la deuxieme couche : i |a1 (t) ∩ i w(t)| n2 (t) = , i = 1, . . . , S, i α + |i w(t)| ` ´ ´ ou α est le taux de selection, | · | designe la norme l1 du vecteur : n ` ´ ´ ou pc = [(1 − p1 )(1 − p2 ) · · · (1 − pR )]T represente le complement flou de p. (9.4) |x| = [x1 x2 · · · xn ]T = 19 xi , i=1 (9.5) GIF-21410/64326 Réseaux de neurones ´ et x ∩ y represente l’intersection floue entre x et y : ´ (d) Calculer les sorties de la couche competitive : a2 (t) = i x1 y1 min(x1 , y1 ) x2 y2 min(x2 , y2 ) . ∩ . = . . . . . . . xn yn min(xn , yn ) (9.6) 1 si n2 (t) = max n2 (t) i j 0 autrement j =1···S , i = 1, . . . , S. (9.7) Soit g = arg max n2 (t), l’indice du neurone gagnant. j j ´ ´ ´ ´ (e) Si le degre de resonance du neurone g avec les sorties de la couche d’entree est inferieur au seuil ρ : |a1 (t) ∩ g w(t)| < ρ, (9.8) |a1 (t)| alors bloquer temporairement le neurone g pour qu’il ne puisse plus gagner et retourner `´ a l’etape 4d pour choisir le prochain gagnant. ´ ´ (f) Liberer tous les neurones bloques. ` (g) Mettre a jour le prototype du neurone gagnant : ∆g w(t) = η ` ou η est le taux d’apprentissage. (h) t = t + 1 ; Fin ` `20 ´ La premiere chose que l’on peut remarquer a l’equation 9.3 est IF-21410/64326 Réseaux de neurones G que la norme des vecteurs ´ encodes demeure toujours constante : a1 (t) ∩ g w(t) − g w(t) , (9.9) 9.2. FUZZY ARTMAP ARTp Fuzzy ARTmap S1x2R1 99 W p R1x1 R1 2R1 ARTd n2 S1x1 t rese E c a1 2R1x 1 C S1 a2 S1x1 re s ! et Fpd S2x2R2 W d R2x1 R2 2R2 n2 S2x1 t rese E c a 1 2R2x1 C S2 a 2 Wpd !pd apd ! S2x1 F I G . 9.4 – Architecture du reseau fuzzy ARTmap. ´ 21 GIF-21410/64326 Réseaux de neurones ` 2. Fixer les parametres des modules ARTp et ARTd ; 3. Fixer ηpd et ρpd de Fpd ; 4. t = 1 ; ´´ 5. Repeter tant que t ≤ tmax : 1. Initialiser les poids Wpd = [w1 w2 · · · wS1 ] avec des 1 ; ´ (a) Choisir un couple (p(t), d(t)) parmi les donnees de la base d’apprentissage ; (c) Propager d(t) dans le ARTd ; (b) Propager p(t) dans le ARTp ; (d) Calculer la sortie de Fpd : `d´ ` ´ ou a2 designe le vecteur de sortie de ARTd et g correspond a la categorie produite par le ARTp ; ´ ´ ´ ` (e) Si le degre de resonance de Fpd est inferieur au seuil ρpd , c’est-a-dire si : |apd | < ρpd , |a2 | d (9.17) pd apd = a2 ∩ wg d (9.16) ` (f) Mettre a jour le vecteur gagnant de Fpd : ` ´ alors augmenter ρp juste assez pour forcer le ARTp a produire une nouvelle categorie et `´ ´` retourner a l’etape 5d. Pour ce faire, il faudra fixer temporairement ρp legerement plus 1 p 1 grand que |ap ∩ g w |/|ap |. wg (t + 1) = ηpd a2 + (1 − ηpd ) wg (t) d (9.18) ` (g) S’il y a lieu, remettre ρp a sa valeur initiale ; Fin ´ Plus souvent qu’autrement, le fuzzy ARTmap est utilise pour faire du classement. Dans ce ´ cas, la dimension R2 de l’espace d’entree du module ARTd correspondra au nombre de classes et de neurones GIF-21410/64326 Réseaux 22 ´ ` ` ` les vecteurs d’entree d seront restreints a des ensembles non flous, c’est-a-dire a des vecteurs dont TA B . 9.1 – Valeurs suggerees pour les parametres du fuzzy ARTmap dans un contexte de classe´´ ` ment. ` ´´ Parametres Intervalles valeurs suggerees αp = 0.01 ´ taux de selection ]0, ∞[ αd = 0.01 0.5 ≤ ηp ≤ 1 ηd = 1 taux d’apprentissage ]0, 1] ηpd = 1 0.5 ≤ ρp ≤ 0.9 ρd = 1 taux de vigilance [0, 1] ρpd = 1 TA B . 9.2 – Valeurs suggerees pour les parametres du fuzzy ARTmap dans un contexte d’approxi´´ ` mation de fonction. ` ´´ Parametres Intervalles valeurs suggerees αp = 0.01 ´ taux de selection ]0, ∞[ αd = 0.01 0.5 ≤ ηp ≤ 1 0.5 ≤ ηd ≤ 1 taux d’apprentissage ]0, 1] ηpd = 1 0.5 ≤ ρp ≤ 0.9 0.5 ≤ ρd ≤ 0.9 taux de vigilance [0, 1] ρpd = 1 ´´ ´ generalement de bons resultats. Finalement, le taux d’apprentissage du champ associatif Fpd est GIF-21410/64326 Réseaux de neurones 23 ´` ´ ´ souvent fixe a ηpd = 1 pour apprendre instantanement les bonnes associations de categorie. Dans 24 GIF-21410/64326 Réseaux de neurones 25 GIF-21410/64326 Réseaux de neurones 26 GIF-21410/64326 Réseaux de neurones 27 GIF-21410/64326 Réseaux de neurones Limitations ? • Sensible au bruit dans les données • Sensible à la séquence de présentation des données vigilance • Sensible à la valeur des paramètres de 28 GIF-21410/64326 Réseaux de neurones ...
View Full Document

Ask a homework question - tutors are online