chapitre3 - 16 Chapitre 3 Alg` bre lin´ aire e e Dans ce...

Info iconThis preview shows page 1. Sign up to view the full content.

View Full Document Right Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: 16 Chapitre 3 Alg` bre lin´ aire e e Dans ce chapitre, nous faisons plusieurs rappels essentiels en alg` bre lin´ aire. Au chapitre e e pr´ c´ dent, nous avons vu que les entr´ es et les sorties d’un r´ seau de neurones, ainsi que les ee e e rang´ es de ses matrices de poids forment des vecteurs. Il est donc important de bien comprendre e ´ ce qu’est un espace vectoriel en etudiant ses principales propri´ t´ s. Ensuite, nous aborderons des ee outils alg´ briques de base tels les transformations lin´ aires, les changements de base ainsi que les e e valeurs et vecteurs propres. Ces outils serviront par la suite tout au long des chapitres subs´ quents. e 3.1 D´ finition d’un espace vectoriel e Lorsque nous d´ finissons un vecteur x = [x1 x2 · · · xn ]T , nous faisons habituellement r´ f´ rence e ee ` a un espace euclidien de n dimensions, que nous notons n . Cependant, la notion d’espace vectoriel est beaucoup plus vaste que ce dernier qui ne repr´ sente qu’un cas particulier. e D´ finition. Un espace vectoriel lin´ aire X est un ensemble d’´ l´ ments (de vecteurs) d´ fini sur e e ee e un champ scalaire F , et respectant les propri´ t´ s suivantes : ee 1. poss` de un op´ rateur d’addition tel que : e e (a) x, y ∈ X implique x + y ∈ X ; (b) x + y = y + x ; (commutativit´ ) e (c) (x + y) + z = x + (y + z) ; (associativit´ ) e (d) ∃0 ∈ X tel que x + 0 = x, ∀x ∈ X ; (´ l´ ment neutre) ee (e) ∀x ∈ X , ∃-x tel que x + (-x) = 0 ; (´ l´ ment inverse) ee 2. poss` de un op´ rateur de multiplication tel que : e e (a) a ∈ F et x ∈ X implique ax ∈ X ; (b) ∀x ∈ X et le scalaire 1, 1x = x ; (´ l´ ment neutre) ee 17 18 x2 y x ` ´ CHAPITRE 3. ALGEBRE LINEAIRE x2 x+y x2 x1 x1 x3 x1 (a) F IG . 3.1 – Diff´ rents sous-ensembles de e 2 (b) (c) : (a) r´ gion rectangulaire ; (b) droite ; (c) plan. e (c) ∀a, b ∈ F et ∀x ∈ X , a(bx) = (ab)x ; (associativit´ ) e (d) (a + b)x = ax + bx ; (distributivit´ ) e (e) a(x + y) = ax + ay ; (distributivit´ ) e Il est facile de d´ montrer que ces propri´ t´ s sont respect´ es pour n et, par cons´ quent, 2 . e ee e e ` On peut cependant se poser la question a propos de certains sous-ensembles de 2 . Par exemple, consid´ rons la r´ gion rectangulaire illustr´ e a la figure 3.1a. Ce sous-ensemble de 2 n’est pas e e e` un espace vectoriel car, entre autres, la propri´ t´ 1a n’est pas respect´ e. En effet, si l’on prend ee e ` deux vecteurs a l’int´ rieur du rectangle et qu’on les additionne, il se peut que le r´ sultat sorte du e e rectangle. Par contre, on peut montrer (et ceci est laiss´ e en exercice) que la droite infinie illustr´ e e e ` a la figure 3.1b respecte toutes les propri´ t´ s enum´ r´ es ci-dessus et, par cons´ quent, d´ fini un ee ´ ee e e espace vectoriel. Notez bien, cependant, que cette droite se doit de passer par l’origine, sinon la propri´ t´ 1d ne serait pas respect´ e. ee e Un autre exemple d’un espace vectoriel est l’ensemble P 2 des polynˆ mes de degr´ 2 ou moins. o e ´e Par exemple, deux el´ ments de cet espace sont : x = 3 + 2t + t2 , y = 5 − t. (3.1) (3.2) Cet ensemble respecte les 10 propri´ t´ s d’un espace vectoriel. En effet, si l’on additionne deux ee polynˆ mes de degr´ 2 ou moins, on obtient un autre polynˆ me de degr´ 2 ou moins. On peut aussi o e o e multiplier un polynˆ me par un scalaire sans changer l’ordre de celui-ci, etc. En notation vectorielle, o on peut donc repr´ senter les deux polynˆ mes de l’exemple par x = [3 2 1]T et y = [5 -1 0]T . e o Mentionnons qu’on peut aussi former des espaces vectoriels avec des ensembles de fonctions plus g´ n´ rales que des polynˆ mes. Il importe seulement de respecter les 10 propri´ t´ s fondamenee o ee tales d’un espace vectoriel ! Si nous prenons la peine de pr´ ciser cette d´ finition formelle, c’est e e parce que la r´ solution d’un probl` me avec un r´ seau de neurones requiert toujours de pouvoir e e e ` ` repr´ senter ce probl` me a l’aide d’un espace vectoriel. C’est donc une notion tout a fait fondamene e ` ce sujet d’´ tude. tale a e ´ 3.1. DEFINITION D’UN ESPACE VECTORIEL 19 3.1.1 D´ pendance lin´ aire e e Soient les n vecteurs {x1 , x2 , . . . , xn }. Alors ces vecteurs sont lin´ airement d´ pendants s’il e e existe n scalaires a1 , a2 , . . . , an tels qu’au moins un d’eux est non nul et que : a1 x1 + a2 x2 + · · · + an xn = 0. (3.3) Et r´ ciproquement, si a1 x1 + a1 x1 + · · · + a1 x1 = 0 implique que ∀i, ai = 0, alors les vecteurs e sont (lin´ airement) ind´ pendants. e e Par exemple, les vecteurs suivants : 1 1 x1 = −1 , x2 = 1 −1 −1 sont lin´ airement ind´ pendants car si a1 x1 + a2 x2 = 0, alors : e e (3.4) 0 a1 + a2 -a1 + a2 = 0 , 0 -a1 − a2 (3.5) et a1 + a2 = 0 implique que a1 = −a2 , et −a1 + a2 = 0 implique a1 = a2 . Ainsi, il faut que a1 = a2 = 0. Par contre, les polynˆ mes p1 = 1 + t + t2 , p2 = 2 + 2t + t2 et p3 = 1 + t sont lin´ airement o e d´ pendants puisque a1 p1 + a2 p2 + a3 p3 = 0 pour a1 = 1, a2 = −1 et a3 = 1. e 3.1.2 Bases et dimensions La dimension d’un espace vectoriel est d´ termin´ e par le nombre minimum de vecteurs de e e base requis pour couvrir l’espace vectoriel en entier. On dit d’un ensemble de vecteur {u1 , u2 , . . . , un } ˆ qu’il couvre un espace vectoriel X si et seulement si tous les x ∈ X de cet espace peuvent etre exprim´ s comme une combinaison lin´ aire des vecteurs de base : e e x = a1 u1 + a2 u2 + · · · + an un . (3.6) Par exemple, dans 2 , nous avons l’habitude de travailler avec les vecteurs de base u1 = [1 0] et u2 = [0 1], mais ce n’est pas la seule possibilit´ . Un autre choix serait [0.5 0.5] et [−0.5 0.5] ou e encore [2 0] et [0 2]. La seule chose qui importe est que les vecteurs de base soient lin´ airement e ind´ pendants. e Pour notre espace P 2 des polynˆ mes de degr´ 2 ou moins, on peut choisir autant {1, t, t2 } que o e 2 {1, 1 + t, 1 + t + t }, par exemple. 20 ` ´ CHAPITRE 3. ALGEBRE LINEAIRE 3.1.3 Produit scalaire Le produit scalaire entre deux vecteurs x et y, que nous noterons <x, y>, est une op´ ration e tr` s importante pour les r´ seaux de neurones. N’importe quelle fonction scalaire prenant deux e e `e vecteurs comme argument et respectant les trois propri´ t´ s suivantes peut servir a d´ finir un produit ee scalaire : 1. <x, y> = <y, x> ; 2. <x, (ay1 + by2 )> = a<x, y1 > + b<x, y2 > ; 3. <x, x> ≥ 0, avec <x, x> = 0 uniquement pour x = 0 ; ˆ La premi` re propri´ t´ sp´ cifie qu’un produit scalaire doit etre sym´ trique. La deuxi` me pr´ cise que e ee e e e e ´ ` le produit d’un vecteur par une combinaison lin´ aire de deux vecteurs est egale a la combinaison e lin´ aire des produits scalaires. Finalement, la troisi` me propri´ t´ restreint le produit scalaire d’un e e ee vecteur avec lui-mˆ me aux valeurs positives, sauf pour le vecteur nul qui doit donner z´ ro. e e Le produit scalaire habituellement utilis´ sur e n est d´ fini par : e (3.7) <x, y> = xT y = x1 y1 + x2 y2 + · · · + xn yn . 3.1.4 Norme La norme d’un vecteur est une mesure de longueur. La fonction scalaire ||x|| s’appelle une norme si elle satisfait aux quatre propri´ t´ s suivantes : ee 1. ||x|| ≥ 0 ; 2. ||x|| = 0 si, et seulement si, x = 0 ; 3. ||ax|| = |a| ||x|| ; 4. ||x + y|| ≤ ||x|| + ||y|| ; La premi` re propri´ t´ sp´ cifie qu’une norme est toujours positive ou nulle. La deuxi` me pr´ cise e ee e e e qu’elle n’est nulle que pour le vecteur nul. La troisi` me impose que la norme d’un vecteur multipli´ e e ` par un scalaire soit (lin´ airement) proportionnelle a ce scalaire. Finalement, la derni` re propri´ t´ e e ee ´ ` impose que la norme d’une somme de deux vecteurs soit inf´ rieure ou egale a la somme des e normes. √ La norme la plus souvent utilis´ e, nomm´ e l2 , est d´ finie par ||x||2 = <x, x>, ce qui dans e e e ` un espace euclidien n correspond a la norme euclienne habituelle : ||x||2 = x2 + x2 + · · · + x2 . 1 2 n (3.8) Beaucoup d’autres normes sont possibles telle que, par exemple, ||x||1 = |x1 | + |x2 | + · · · + |xn |. Cette derni` re s’appelle norme l1 (on dit aussi «city block» ou encore «manhattan»). Dans le cas e g´ n´ ral, il existe les normes dites lp telles que : ee ||x||p = p |x1 |p + |x2 |p + · · · + |xn |p , (3.9) ´ 3.1. DEFINITION D’UN ESPACE VECTORIEL o` p ≥ 1. Dans le cas o` p → ∞, on obtient la norme l∞ suivante : u u ||x||∞ = max |xi |. i 21 (3.10) Ceci nous indique que plus p devient grand, plus on attache de l’importance aux grandes compo` santes de x. A la limite, on ne tient compte que de la plus grande composante du vecteur. Finalement, mentionnons qu’il importe parfois de «normaliser» nos vecteurs en les divisant par leur norme : x = 1. (3.11) ||x|| On obtient alors un vecteur qui pointe dans la mˆ me direction qu’auparavant mais dont la norme e est unitaire. Les concepts de produit scalaire et de norme permettent aussi d’introduire la notion d’angle θ entre deux vecteurs x et y via la fameuse loi des cosinus : <x, y> = ||x||2 ||y||2 cos θ. (3.12) 3.1.5 Orthogonalit´ e Deux vecteurs x et y sont dits orthogonaux si leur produit scalaire <x, y> est nul (θ = 90◦ ). ` Un vecteur x ∈ X est aussi dit orthogonal a un sous-espace X ⊂ X lorsqu’il est orthogonal avec tous les vecteurs x de ce sous-espace. Par exemple, un plan dans 3 d´ finit un sous-espace e ` de dimension 2 pour lequel il existe un vecteur perpendiculaire (orthogonal) a ce plan (voir figure 3.1c). Parfois, il importe de convertir un ensemble de n vecteurs ind´ pendants {x1 , x2 , . . . , xn } en e n vecteurs orthogonaux {v1 , v2 , . . . , vn }. On peut effectuer cette op´ ration avec la m´ thode de e e ˆ Gram-Schmidt. Le premier vecteur orthogonal peut etre quelconque, nous choisissons donc le premier vecteur ind´ pendant : e v1 = x1 . (3.13) Pour le second vecteur orthogonal, on utilise x2 , mais apr` s avoir soustrait de x2 , la portion du e vecteur qui est dans la direction de v1 . On obtient : v2 = x2 − av1 , ` o` a est choisi de mani` re a ce que v2 soit orthogonal a v1 . Ceci implique que : u e` <v1 , v2 > = <v1 , (x2 − av1 )> = <v1 , x2 > − a<v1 , v1 > = 0 et : a= (3.15) (3.14) <v1 , x2 > . (3.16) <v1 , v1 > Ainsi, pour trouver la composante de x2 dans la direction de v1 , c’est-` -dire av1 , il s’agit de a calculer le produit scalaire entre les deux vecteurs. Ceci s’appelle le projecteur de x2 sur v1 (voir ` figure 3.2). Si l’on continue ce processus, le k eme vecteur orthogonal est obtenu par l’expression : 22 ` ´ CHAPITRE 3. ALGEBRE LINEAIRE x2 v2 v1 = x1 av1 F IG . 3.2 – Illustration de la m´ thode de transformation orthogonale Gram-Schmidt. e k −1 vk = xk − i=1 <vi , xk > vi . <vi , vi > (3.17) 3.2 Transformations lin´ aires e Une transformation lin´ aire A est une application d’un espace vectoriel X vers un espace e vectoriel Y telle que : 1. ∀x1 , x2 ∈ X , A(x1 + x2 ) = A(x1 ) + A(x2 ) ; 2. ∀x ∈ X , a ∈ , A(ax) = aA(x). ˆ ´ ` La premi` re propri´ t´ sp´ cifie que la transform´ e d’une somme de vecteurs doit etre egale a la e ee e e somme des transform´ es, pour qu’elle soit lin´ aire. La deuxi` me propri´ t´ pr´ cise que la transe e e ee e ˆ´ ` form´ e d’un vecteur auquel on a appliqu´ un facteur d’´ chelle doit aussi etre egale a ce facteur e e e appliqu´ sur la transform´ e du vecteur original. Si l’une ou l’autre de ces deux propri´ t´ s n’est pas e e ee respect´ e, la transformation n’est pas lin´ aire. e e 3.2.1 Repr´ sentations matricielles e ˆ Nous allons maintenant montrer que toute transformation lin´ aire peut etre repr´ sent´ e par e e e une matrice. Soient {v1 , v2 , . . . , vn } les vecteurs de base pour X et {u1 , u2 , . . . , um } ceux de Y . Avec ces bases, nous pouvons repr´ senter n’importe quels vecteurs x ∈ X et y ∈ Y avec les e combinaisons lin´ aires suivantes : e n m x= j =1 xj vj et y = i=1 y i ui . (3.18) Soit la transformation lin´ aire A qui applique X sur Y (A : X −→ Y ). Donc : e A(x) = y, (3.19) ´ 3.2. TRANSFORMATIONS LINEAIRES que l’on peut r´ -´ crire de la facon suivante : ee ¸ n j =1 23 m A xj vj = i=1 y i ui . (3.20) ´ Mais puisque A est un op´ rateur lin´ aire, on peut aussi ecrire : e e n m xj A(vj ) = j =1 i=1 y i ui . (3.21) ´e En consid´ rant maintenant que les vecteurs A(vj ) sont des el´ ments de Y , on peut les r´ -´ crire en e ee tant qu’une combinaison lin´ aire de ses vecteurs de base : e m A(vj ) = i=1 aij ui , (3.22) et en substituant l’´ quation 3.22 dans l’´ quation 3.21, on obtient : e e n m m xj j =1 i=1 aij ui = i=1 y i ui . (3.23) ´ En inversant l’ordre des sommations, on peut ecrire : m n m ui i=1 j =1 aij xj = i=1 y i ui , (3.24) et en r´ arrangeant cette derni` re equation, on produit le r´ sultat : e e´ e m i=1 n j =1 ui aij xj − yi = 0. (3.25) ˆ Finalement, en se rappelant que les vecteurs de base ui doivent etre ind´ pendants, on peut conclure e ˆ que leurs coefficients doivent forc´ ment etre nuls, donc : e n aij xj = yi . j =1 (3.26) Ce qui correspond au produit de matrice : a11 a21 . . . a12 a22 . . . am1 am2 que l’on peut noter Ax = y. · · · a1 n · · · a2 n . .. . . . · · · amn x1 x2 . . . xn = y1 y2 . . . ym , (3.27) ˆ Autrement dit, toute transformation lin´ aire peut etre d´ crite par une matrice A qu’il s’agit e e de multiplier avec le vecteur que l’on veut transformer, pour obtenir le vecteur r´ sultant de la e transformation. 24 Ax Av2 cos θ ` ´ CHAPITRE 3. ALGEBRE LINEAIRE -sin θ cos θ v2 = u2 q x θ Av1 sin θ θ v1 = u1 (a) (b) F IG . 3.3 – Transformation de rotation : (a) rotation du vecteur x ; (b) rotation des vecteurs de base v1 et v2 . ` Comme exemple de transformation lin´ aire, consid´ rons la rotation qui consiste a faire tourner e e 2 un vecteur autour de l’origine. Pour simplifier, utilisons X = Y = et travaillons avec les vecteurs de base habituels, c’est-` -dire ceux du plan cart´ sien illustr´ s a la figure 3.3a. La clef a e e` ` ici est de transformer chaque vecteur de base comme a la figure 3.3b. Ceci s’accomplit grˆ ce a a` l’´ quation 3.20 : e A(v1 ) = cos(θ)v1 + sin(θ)v2 = a11 v1 + a21 v2 , (3.28) A(v2 ) = − sin(θ)v1 + cos(θ)v2 = a12 v1 + a22 v2 . Ce qui nous donne les deux colonnes d’une matrice de rotation A dans A= cos θ − sin θ sin θ cos θ 2 (3.29) : (3.30) 3.2.2 Changement de base Il est important de noter que la repr´ sentation matricielle d’une transformation lin´ aire n’est e e pas unique car elle d´ pend des vecteurs de base. Dans cette sous-section, nous allons examiner ce e qu’il advient d’une transformation lorsqu’on effectue un changement des vecteurs de base. Soit la transformation lin´ aire A : X −→ Y et l’ensemble {v1 , v2 , . . . , vn } des vecteurs de e base de X , et {u1 , u2 , . . . , um } ceux de Y . Par cons´ quent : e Ax = y, ∀x ∈ X . (3.31) Supposons maintenant que l’on veuille changer de base pour X et Y . Soient {t1 , t2 , . . . , tn } et {w1 , w2 , . . . , wm } les nouveaux ensembles de vecteurs de base. Avec ces bases, nous aurons A x = y , ∀x ∈ X , o` x = Bt x , y = Bw y , Bt = [t1 t2 · · · tn ] et Bw = [w1 w2 · · · wm ]. En u substituant ces r´ sultats dans l’´ quation 3.31, on obtient l’expression suivante : e e ABt x = Bw y (3.32) ´ 3.2. TRANSFORMATIONS LINEAIRES puis en multipliant de part et d’autre par B−1 : w (B−1 ABt )x = y , w ce qui implique que A = B−1 ABt . w 25 (3.33) On doit retenir qu’en changeant de base pour repr´ senter nos vecteurs, nous changerons aussi e la repr´ sentation matricielle de nos transformations. Le r´ sultat sera le mˆ me car les deux transfore e e mations sont similaires. Seule la repr´ sentation change (les colonnes de nombres). L’int´ rˆ t d’un e ee ` changement de base est que certaines repr´ sentations sont plus faciles a interpr´ ter que d’autres, e e comme nous le verrons plus loin. 3.2.3 Valeurs et vecteurs propres Nous terminons ce chapitre en abordant une autre notion fondamentale pour l’analyse des transformations lin´ aires en g´ n´ rale, et des r´ seaux de neurones en particulier : les valeurs et e ee e vecteurs propres. Soit la transformation lin´ aire A : X −→ X (ici le domaine et l’image de la transformation e ` sont les mˆ mes). Alors, les vecteurs z ∈ X et les scalaires λ satisfaisant a la relation : e A(z) = λz (3.34) sont dits «vecteurs propres» (z) et «valeurs propres» (λ), respectivement. Cette d´ finition sp´ cifie e e qu’un vecteur propre d’une transformation donn´ e repr´ sente une direction dans laquelle tous les e e ` vecteurs pointant dans cette direction continueront a pointer dans la mˆ me direction apr` s la transe e ` formation, mais avec un facteur d’´ chelle λ correspondant a la valeur propre associ´ e. Notez bien e e que cette interpr´ tation n’est valide que lorsque les valeurs propres sont r´ elles et que les vecteurs e e propres existent ce qui n’est pas toujours le cas. En posant un certain ensemble de vecteur de base, on peut reformuler l’´ quation 3.34 sous sa e forme matricielle : Az = λz (3.35) ou d’une mani` re equivalente : e´ (A − λI)z = 0 (3.36) o` I repr´ sente la matrice identit´ . Cette derni` re equation implique que les colonnes de A − λI u e e e´ sont d´ pendantes et, par cons´ quent, que son d´ terminant est nul : e e e |A − λI| = 0 (3.37) Ce d´ terminant est un polynˆ me de degr´ n poss´ dant exactement n racines, dont certaines peuvent e o e e ˆ etre complexes et d’autres r´ p´ t´ es. e ee Si l’on reprend notre exemple de la transformation de rotation : A= cos θ − sin θ sin θ cos θ (3.38) 26 On peut r´ -´ crire l’´ quation 3.36 de la facon suivante : ee e ¸ ` ´ CHAPITRE 3. ALGEBRE LINEAIRE cos θ − λ − sin θ = 0, sin θ cos θ − λ ce qui donne le polynˆ me suivant : o λ2 − 2λ cos θ + (cos2 θ + sin2 θ) = λ2 − 2λ cos θ + 1 = 0, (3.39) (3.40) dont les racines λ1 = cos θ + j sin θ et λ2 = cos θ − j sin θ sont complexes. Ainsi, puisque qu’il n’y a pas de valeur propre r´ elle (sauf pour θ = 0◦ ou encore θ = 180◦ ), cela implique que tout e vecteur r´ el transform´ pointera dans une nouvelle direction (ce qui est l’effet recherch´ pour une e e e rotation !). Lorsqu’une matrice A de dimension n × n engendre n valeurs propres distinctes, alors il est ` possible d’engendrer n vecteurs propres ind´ pendants qui correspondent a un ensemble de vecteurs e de base pour la transformation que A repr´ sente. Dans ce cas, on peut diagonaliser la matrice de e la transformation en effectuant un changement de base. Plus formellement, si B = [z1 z2 · · · zn ], la matrice des n vecteurs propres, alors : B −1 AB = λ1 0 0 λ2 . . . . . . 00 ··· ··· .. . 0 0 . . . , (3.41) · · · λn o` {λ1 , λ2 , . . . , λn } sont les valeurs propres de A. Ce r´ sultat d´ coule directement de la d´ finition u e e e des vecteurs et valeurs propres de l’´ quation 3.35 : e AB = B λ1 0 0 λ2 . . . . . . 00 ··· ··· ... 0 0 . . . (3.42) · · · λn ` Il nous sera tr` s utile dans les chapitres a venir, lorsque nous analyserons la performance de divers e algorithmes d’apprentissage pour les r´ seaux de neurones. e ...
View Full Document

This note was uploaded on 10/10/2010 for the course GIF 7005 taught by Professor Gagne during the Spring '09 term at Université Laval.

Ask a homework question - tutors are online