You've reached the end of your free preview.
Want to read all 389 pages?
Unformatted text preview: Applied Statistics with R
David Dalpiaz
2018-04-29 2 Contents
1 Introduction 11 1.1 About This Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2 Conventions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3 Acknowledgements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4 License . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2 Introduction to R 13 2.1 Getting Started . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Basic Calculations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3 Getting Help . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4 Installing Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3 Data and Programming 17 3.1 Data Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 Data Structures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2.1 Vectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.2 Vectorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.3 Logical Operators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.4 More Vectorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2.5 Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2.6 Lists . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.7 Data Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Programming Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.3.1 Control Flow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.3.2 Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.3 3 4 CONTENTS 4 Summarizing Data 47 4.1 Summary Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.2 Plotting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.1 Histograms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.2 Barplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.2.3 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.2.4 Scatterplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5 Probability and Statistics in R
5.1 5.2 5.3 59 Probability in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.1.1 59 Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hypothesis Tests in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.2.1 One Sample t-Test: Review . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.2.2 One Sample t-Test: Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.2.3 Two Sample t-Test: Review . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2.4 Two Sample t-Test: Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.3.1 Paired Differences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.3.2 Distribution of a Sample Mean . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 6 R Resources 73 6.1 Beginner Tutorials and References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 6.2 Intermediate References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 6.3 Advanced References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 6.4 Quick Comparisons to Other Languages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 6.5 RStudio and RMarkdown Videos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 6.6 RMarkdown Template . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 7 Simple Linear Regression
7.1 7.2 7.3 7.4 75 Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 7.1.1 Simple Linear Regression Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 Least Squares Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 7.2.1 Making Predictions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 7.2.2 Residuals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 7.2.3 Variance Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Decomposition of Variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 7.3.1 Coefficient of Determination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 The lm Function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 CONTENTS 5 7.5 Maximum Likelihood Estimation (MLE) Approach . . . . . . . . . . . . . . . . . . . . . . . . 97 7.6 Simulating SLR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 7.7 History . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 7.8 RMarkdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 8 Inference for Simple Linear Regression 105 8.1 Gauss–Markov Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 8.2 Sampling Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.2.1 Simulating Sampling Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 8.3 Standard Errors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 8.4 Confidence Intervals for Slope and Intercept . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 8.5 Hypothesis Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 8.6 cars Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
8.6.1 Tests in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 8.6.2 Significance of Regression, t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 8.6.3 Confidence Intervals in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 8.7 Confidence Interval for Mean Response . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 8.8 Prediction Interval for New Observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 8.9 Confidence and Prediction Bands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 8.10 Significance of Regression, F-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
9 Multiple Linear Regression 131 9.1 Matrix Approach to Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 9.2 Sampling Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
9.2.1 Single Parameter Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 9.2.2 Confidence Intervals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 9.2.3 Confidence Intervals for Mean Response . . . . . . . . . . . . . . . . . . . . . . . . . . 141 9.2.4 Prediction Intervals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 9.3 Significance of Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 9.4 Nested Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 9.5 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 10 Model Building 157 10.1 Family, Form, and Fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
10.1.1 Fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
10.1.2 Form . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
10.1.3 Family . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
10.1.4 Assumed Model, Fitted Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 6 CONTENTS
10.2 Explanation versus Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
10.2.1 Explanation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
10.2.2 Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
10.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 11 Categorical Predictors and Interactions 165 11.1 Dummy Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
11.2 Interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
11.3 Factor Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
11.3.1 Factors with More Than Two Levels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
11.4 Parameterization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
11.5 Building Larger Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
12 Analysis of Variance 195 12.1 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
12.2 Two-Sample t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
12.3 One-Way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
12.3.1 Factor Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
12.3.2 Some Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
12.3.3 Power . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
12.4 Post Hoc Testing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
12.5 Two-Way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
12.6 R Markdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
13 Model Diagnostics 219 13.1 Model Assumptions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 13.2 Checking Assumptions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
13.2.1 Fitted versus Residuals Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
13.2.2 Breusch-Pagan Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
13.2.3 Histograms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
13.2.4 Q-Q Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
13.2.5 Shapiro-Wilk Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
13.3 Unusual Observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
13.3.1 Leverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
13.3.2 Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
13.3.3 Influence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 13.4 Data Analysis Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
13.4.1 Good Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
13.4.2 Suspect Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 CONTENTS 7 14 Transformations 255 14.1 Response Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
14.1.1 Variance Stabilizing Transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
14.1.2 Box-Cox Transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
14.2 Predictor Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
14.2.1 Polynomials . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
14.2.2 A Quadratic Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
14.2.3 Overfitting and Extrapolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
14.2.4 Comparing Polynomial Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
14.2.5 poly() Function and Orthogonal Polynomials . . . . . . . . . . . . . . . . . . . . . . . 304
14.2.6 Inhibit Function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
14.2.7 Data Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
15 Collinearity 315 15.1 Exact Collinearity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
15.2 Collinearity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
15.2.1 Variance Inflation Factor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
15.3 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
16 Variable Selection and Model Building 331 16.1 Quality Criterion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
16.1.1 Akaike Information Criterion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
16.1.2 Bayesian Information Criterion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
16.1.3 Adjusted R-Squared . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
16.1.4 Cross-Validated RMSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 16.2 Selection Procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
16.2.1 Backward Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
16.2.2 Forward Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
16.2.3 Stepwise Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
16.2.4 Exhaustive Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
16.3 Higher Order Terms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
16.4 Explanation versus Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
16.4.1 Explanation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
16.4.2 Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 8 CONTENTS 17 Logistic Regression 359 17.1 Generalized Linear Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
17.2 Binary Response . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
17.2.1 Fitting Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
17.2.2 Simulation Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
17.3 Working with Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
17.3.1 Testing with GLMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
17.3.2 Wald Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
17.3.3 Likelihood-Ratio Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
17.3.4 SAheart Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
17.4 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
17.4.1 spam Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 17.4.2 Evaluating Classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
18 Beyond 385 18.1 What’s Next . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
18.2 RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
18.3 Tidy Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
18.4 Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
18.5 Web Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
18.6 Experimental Design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
18.7 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
18.7.1 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
18.8 Time Series . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
18.9 Bayesianism . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
18.10High Performance Computing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
18.11Further R Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
19 Appendix
##
##
##
##
##
##
##
##
##
##
## [[1]]
NULL
[[2]]
NULL
[[3]]
NULL
[[4]]
NULL 389 CONTENTS
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
## [[5]]
NULL
[[6]]
NULL
[[7]]
NULL
[[8]]
NULL
[[9]]
NULL
[[10]]
NULL
[[11]]
NULL 9 10 CONTENTS Chapter 1 Introduction
Welcome to Applied Statistics with R! 1.1 About This Book This book was originally (and currently) designed for use with STAT 420, Methods of Applied Statistics, at
the University of Illinois at Urbana-Champaign. It may certainly be used elsewhere, but any references to
“this course” in this book specifically refer to STAT 420.
This book is under active development. When possible, it would be best to always access the text online to
be sure you are using the most up-to-date version. Also, the html version provides additional features such
as changing text size, font, and colors. If you are in need of a local copy, a pdf version is continuously
maintained.
Since this book is under active development you may encounter errors ranging from typos, to broken code,
to poorly explained topics. If you do, please let us know! Simply send an email and we will make the changes
as soon as possible. (dalpiaz2 AT ill...
View
Full Document
- Fall '19
- Regression Analysis, Dot Product, Vector Motors