Speech Recognition Pattern Classification 2

May 13, 2009 Veton K ë puska 2 Pattern Classification  Introduction  Parametric classifiers  Semi-parametric classifiers  Dimensionality reduction  Significance testing
May 13, 2009 Veton K ë puska 3 Semi-Parametric Classifiers Mixture densities ML parameter estimation Mixture implementations Expectation maximization (EM)

May 13, 2009 Veton K ë puska 4 Mixture Densities PDF is composed of a mixture of m components densities  { ϖ 1 ,…, ϖ 2 }: Component PDF parameters and mixture weights P( ϖ j ) are  typically unknown, making parameter estimation a form of  unsupervised learning . Gaussian mixtures assume Normal components: = = m j j j P p p 1 ) ( ) | ( ) ( ϖ ϖ x x ) , ( ~ ) | ( k k k N p Σ μ x ϖ
May 13, 2009 Veton K ë puska 5 Gaussian Mixture Example: One  Dimension p(x)=0.6p 1 (x)+0.4p 2 (x) p1(x)~N(- σ , σ 2 )                 p 2 (x) ~N(1.5 σ , σ 2 )

May 13, 2009 Veton K ë puska 6 Gaussian Example First 9 MFCC’s from [s]: Gaussian PDF
May 13, 2009 Veton K ë puska 7 Independent Mixtures [s]: 2 Gaussian Mixture Components/Dimension

May 13, 2009 Veton K ë puska 8 Mixture Components [s]: 2 Gaussian Mixture Components/Dimension
May 13, 2009 Veton K ë puska 9 ML Parameter Estimation: 1D Gaussian Mixture Means   ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ( 29 ∑ ∑ = = = - - = = = = = = = = - = - = = = = = = n i i k n i i i k k i k i k k i n i k i k k i i k k k k i k k i x k k k k i n i k k i k i n i i k k k n i m j j j i n i i k x P x x P x P x p P x p x p x x p P L x p x e x p P x p x p x p L P x p x p L k k i 1 1 1 2 2 2 1 1 1 1 1 | | | | since 0 | log | 2 1 | | 1 log log | log log log 2 2 ϖ ϖ μ ϖ ϖ ϖ ϖ σ μ ϖ μ μ ϖ σ μ σ π μ μ ϖ ϖ ϖ μ μ μ μ ϖ ϖ μ σ μ

May 13, 2009 Veton K ë puska 10 Gaussian Mixtures: ML Parameter  Estimation The maximum likelihood solutions are of the form:
May 13, 2009 Veton K ë puska 11 Gaussian Mixtures: ML Parameter  Estimation The ML solutions are typically solved iteratively: Select a set of initial estimates for  P ( ϖ k ) µ k Σ k Use a set of  samples to re-estimate the mixture  parameters until some kind of convergence is  found Clustering procedures are often used to provide  the initial parameter estimates Similar to  K -means clustering procedure ˆ ˆ ˆ

May 13, 2009 Veton K ë puska 12 Example: 4 Samples, 2 Densities 1. Data: X = { x 1 ,x 2 ,x 3 ,x 4 } = {2 , 1 , -1 , -2} 2.
