CS 224S / LINGUIST 281 Speech Recognition and Synthesis Dan Jurafsky 1/5/07 Lecture 2: Acoustic Phonetics

Outline for today Acoustic Phonetics Waves, sound waves, and spectra ( Informally!  We’ll see it with more math when we do feature extraction) Speech waveforms F0, pitch, intensity Spectra Spectrograms Formants Reading spectrograms Deriving schwa: why are formants where they are PRAAT Resources: dictionaries and phonetically-labeled corpora
Acoustic Phonetics Sound Waves http://www.kettering.edu/~drussell/Demos/wav 1/5/07

Simple Period Waves (sine waves) Time (s) 0 0.02 –0.99 0.99 0 1/5/07 Characterized by: period: T amplitude A phase φ Fundamental frequency in cycles per second, or Hz F 0 =1/T 1 cycle
Simple periodic waves Computing the frequency of a wave: 5 cycles in .5 seconds = 10 cycles/second = 10 Hz Amplitude: 1 Equation: Y = A sin(2 π ft) 1/5/07

Speech sound waves A little piece from the waveform of the vowel [iy] Y axis:  Amplitude = amount of air pressure at that time point Positive is compression Zero is normal air pressure,  negative is rarefaction X axis: time.  1/5/07
Digitizing Speech 1/5/07

Digitizing Speech Analog-to-digital conversion Or A-D conversion. Two steps Sampling Quantization 1/5/07
Sampling 1/5/07 Measuring amplitude of a signal at time  t The sample rate needs to have at least two  samples for each cycle One for the positiive, and one for the negative half of  each cycle More than two samples per cycle is ok Less than two samples will cause frequencies to be  missed So the maximum frequency that can be  measured is one that is half the sampling rate. The maximum frequency for a given sampling  rate called  Nyquist frequency

Sampling 1/5/07 If measure at green  dots, will see a  lower frequency  wave and miss the  correct higher  frequency one! Original signal in red:
Sampling 1/5/07 In practice we use the following sample rates 16,000 Hz (samples/sec), for microphones,  “wideband” 8,000 Hz (samples/sec) Telephone Why? Need at least 2 samples per cycle Max measurable frequency is half the  sampling rate Human speech < 10KHz, so need max 20K Telephone is filtered at 4K, so 8K is enough.

Quantization Quantization   Representing real value of  each amplitude as integer 8-bit (-128 to 127) or 16-bit (- 32768 to 32767) Formats : 16 bit PCM 8 bit mu-law; log  compression Byte order LSB (Intel) vs. MSB (Sun,  Apple) Headers : Raw (no header) Microsoft wav Sun .au 1/5/07 40 byte header
WAV format 1/5/07

