Applied Econometrics William Greene Department of Economics Stern School of Business

Applied Econometrics 23. Sample Selection
Samples and Populations Consistent estimation The sample is randomly drawn from the population Sample statistics converge to their population  counterparts A presumption:  The ‘population’ is the  population of interest. Implication: If the sample is randomly drawn  from a specific subpopulation, statistics  converge to the characteristics of that  subpopulation

Nonrandom Sampling Simple nonrandom samples:  Average incomes of  airport travelers   mean income in the population as a  whole? Survivorship: Time series of returns on business  performance.  Mutual fund performance.  (Past  performance is no guarantee of future success.   ) Attrition:  Drug trials.  Effect of erythropoetin on quality  of life survey. Self-selection:   Labor supply models Shere Hite’s (1976) “The Hite Report” ‘survey’ of sexual habits  of Americans. “While her books are ground-breaking and  important, they are based on flawed statistical methods and  one must view their results with skepticism.”
Heckman’s Canonical Model A behavioral model: Offered wage       =  o*  =   'x+ v    (x age,experience,educ...) Reservation wage =  r*   =    'z +  u  (z =  age, kids, family stuff) Labor force participation:                       LFP =  1  β = δ 2 2 v u if o*    r* , 0 otherwise                    Prob(LFP= 1) =   ( 'x- 'z)/ Desired Hours      =  H*  =   'w  +   Actual Hours        =  H*   if LFP =  1                              unobserved if LFP =  0   Φ β δ σ + σ γ ε ε and u are correlated.    and v might be correlated. What is E[H*  | w,LFP =  1]?  Not  'w. ε γ

Standard Sample Selection Model i i i i i i i i i i i 2 i i i i i i i i d * ' z u d   =  1(d *  >  0) y *  =   'x + y    =  y *  when d  =  1, unobserved otherwise (u ,v ) ~  Bivariate Normal[(0,0),(1, , )] E[y | y  is observed] =  E[y|d= 1]                             =   'x + E[ | = α + β ε ρσ σ β ε i i i i i i i i i d 1]                             =   'x + E[ | u ' z ] ( ' z )                             =   'x + ( ) ( ' z )                             =   'x+ = β ε φ α β ρσ Φ α β θλ
Incidental Truncation u1,u2~N[(0,0),(1,.71,1) Conditional distribution of u2|u1 > 0. No longer ~ N[0,1] Unconditional distribution of u2 ~ N[0,1]

Selection as a Specification Error E[y i |x i ,y i  observed]  =  β ’x i  +  θ   λ i Regression of y i  on x i  omits  λ i .   λ i
