Data Science Fundamentals

Example code

library(rsample)
flights %>% 
  initial_split()  ->
  samples

nrow(training(samples))
nrow(testing(samples))

## [1] 252582
## [1] 84194

Example code

samples %>% 
  training() %>% 
  lm(arr_delay ~ as.factor(month) + as.factor(day) + hour , data=.) ->
  initial_lm

initial_lm
## 
## Call:
## lm(formula = arr_delay ~ as.factor(month) + as.factor(day) + 
##     hour, data = .)
## 
## Coefficients:
##        (Intercept)   as.factor(month)2   as.factor(month)3  
##         -15.578026           -0.523332           -0.009617  
##  as.factor(month)4   as.factor(month)5   as.factor(month)6  
##           4.925857           -2.322463           10.916768  
##  as.factor(month)7   as.factor(month)8   as.factor(month)9  
##          10.579558            0.350634          -10.001152  
## as.factor(month)10  as.factor(month)11  as.factor(month)12  
##          -6.282354           -5.779870            9.156317  
##    as.factor(day)2     as.factor(day)3     as.factor(day)4  
##          -0.835973           -3.053353           -9.091525  
##    as.factor(day)5     as.factor(day)6     as.factor(day)7  
##          -6.589357           -8.952260            2.497260  
##    as.factor(day)8     as.factor(day)9    as.factor(day)10  
##          11.810864            1.294906            7.777381  
##   as.factor(day)11    as.factor(day)12    as.factor(day)13  
##           2.998162            3.405094            2.031710  
##   as.factor(day)14    as.factor(day)15    as.factor(day)16  
##          -4.301413           -8.459728           -3.757981  
##   as.factor(day)17    as.factor(day)18    as.factor(day)19  
##           2.303175            2.975389            3.165694  
##   as.factor(day)20    as.factor(day)21    as.factor(day)22  
##          -5.861942           -4.406458           10.942822  
##   as.factor(day)23    as.factor(day)24    as.factor(day)25  
##           9.586899            3.568447            2.930465  
##   as.factor(day)26    as.factor(day)27    as.factor(day)28  
##          -3.970729           -3.841386            1.254968  
##   as.factor(day)29    as.factor(day)30    as.factor(day)31  
##          -7.937313           -6.378870           -4.457317  
##               hour  
##           1.667757

Data Science Fundamentals

Steph Locke

2018-09-01