《An Introduction To Statistical Learning 》 - Gareth.James、Daniela.Witten、Trevor.Hasie、Robert.Tibshirani
- 不仅介绍了统计学的基本概念,而且从其内在本质的角度进行阐述,并对各种模型与算法进行了比较,总结了各自的优劣势。
统计学习的三类应用
- 预测
- 分类
- 聚类 (不输出预测变量)
第二章 统计学习
整体上介绍了统计学习的几种方式,并给出了评价模型的维度
2.1 统计学习
统计学习,是关于估计 $f$ 的一系列方法。
$$ Y= f(x) + \xi$$
$f$ 表达了 X 提供给 Y 的系统信息。是 x 的函数
$\xi$ ,随机误差项;均值为0,且与 X 独立
预测 & 推断 - 估计 $f$ 的两种场景
面对一个问题,首先要做的是对其目的 进行判断:预测 or 推断
预测
通过现有的输入集 X ,获取输出 Y
$$\hat{Y} = \hat{f}(X)$$
$\hat{f}$ 表示$f$ 的预测, $\hat{Y}$ 表示 $Y$ 的预测值。
在这个式子中,$\hat{f}$ 是黑箱。表示一般意义下,如果该黑箱能够提供准确的预测 $Y$, 则并不十分追求 $f$ 的准确形式。
$\hat{Y}$ 作为 $Y$ 的预测,精确度取决于两个量:可约误差、不可约误差$\xi$
$\xi$ 包含了对预测 $Y$ 有用但却不可直接观测的变量信息:由于没有测量它们,所以 $f$ 不能使用这些变量去预测。
- 例如:某个病人不良反应的风险也许会在一天内很不一样,比如药物的药效本身在设计上随着一天内服药环境的温度和湿度的不同而不同,或者风险与病人当天服药的情绪状态有关。
推断
对 $X$ 变化是 对 $Y$ 产生怎样的影响比较感兴趣,我们的 目的是获得 $X$ 和 $Y$ 的关系,而不是为了预测 $Y$; 去理解 $Y$ 作为 $X$ 的函数是怎么变化的。可能涉及:
- 哪些预测变量与响应变量有关? 通常情况下用于预测的变量中只有一小部分与 $Y$ 充分有关,从一大组可能的变量中根据应用的需要识别一些重要的预测因子是很有必要的。
- 响应变量与每个预测变量之间的关系是什么?
- $Y$ 与每个预测变量的关系能否用一个线性方程概括,还是它们的关系需要更复杂的形式?
参数 & 非参数 - 估计 $f$ 的两种方法
确定目的之后,选择合适的估计方法:参数方法 & 非参数方法
参数方法
what:基于模型的方法统称为参数法。
why :把估计 $f$ 的问题简化到估计一组参数。(优势)
对$f$ 假设一个具体的参数形式将简化对 $f$ 的估计;因为估计参数更为容易
how :
- 假设函数 $f$ 具有一定的形式或形状;常用的线性假设 $f(X) = \beta_0 + \beta_1X_1 + …$ ; 此时估计 $f$ 的问题被简化为估计一组参数 $\beta$
- 用训练数据去拟合模型
不足:选定的模型可能与真正的 $f$ 并不一致,这个时候的效果会很差
解决办法:尝试选择光滑(felexible)模型拟合不同形式的函数$f$ ;但拟合光滑度更强的模型需要更多的参数估计。并可能出现过拟合现象。
非参数方法
- what:不需要对函数的形式做事先明确的假设,追求的是接近数据点的估计。
- how :估计函数在去粗和光滑处理后尽可能与更多的数据点接近
- 优势:不限定函数的具体形式,可以在更大的范围内选择更适合$f$形状的估计
- 不足:无法将估计$f$的问题简化到仅仅对少数参数进行估计的问题,所以为了获得对$f$更精准的估计,往往需要大量的观测点(远远超出参数方法所需要的点),并且无法对模型进行合理的解释
预测精度 & 模型解释性 - 基于目的的权衡
通常情况下,当一种方法的预测精度增加时,它的模型结实度则减弱。
但事实是更精确的预测常常在欠光滑度的模型上取得。原因在于高光滑度的模型有过拟合的问题存在。
- 推断:更需要模型解释性,倾向于选择参数方法
- 预测:更需要高预测精度,倾向于选择非参数方法
指导学习 & 无指导学习
- 指导学习:对每一个预测变量观测值 $x_i$ 都有对应的相应变量的观测 $y_i$ ;建模的目标是通过建立预测变量和响应变量之间的关系,精准预测响应变量或更好地理解两者之间的关系。
- 无指导学习:只有预测变量的观测向量 $x_i$ ,这些变量没有对应的响应变量 $y_i$ 与之对应。 这类问题拟合线性模型是不可能的,因为缺乏响应变量用于预测
回归 & 分类
2.2 评价模型
目的是选择最适合的统计方法。
偏差 - 方差的权衡,以及测试误差产生 $U$形曲线都使建模成为一项苦难的任务
通过 [均方误差] 检验拟合效果
涉及MSE、自由度、过拟合
均方误差
- 均方误差(Mean Squared Error , MSE):(真实值 - 预测值)平方的均值
$$MSE = \frac 1n \sum_i^n(y_i - \hat{f}(x_i) ) ^2$$
训练均方误差、测试均方误差;
在应用中不在意是否 $\hat{f}(x_i) \approx y_i$ ,而是关心一个新的观测点 $(x_0, y_0)$ ,是否有 $\hat{f}(x_0) \approx y_0$ ;所以,选择的标准的是使得 测试均方误差 最小,而不一定是训练均方误差最小。
一般情况下,一个模型的训练均方误差最小时,并不能保证模型的测试均方误差同时会很小。两者之间更像是 U 型的关系。
[自由度与均方误差(训练&测试)]
####自由度
描述曲线光滑度的量。
- 当拟合函数的光滑度增加时,训练均方误差单调递减,但测试均方误差成 $U$ 型分布;
- 模型越光滑,偏差越小;
####过拟合
当所建的模型产生一个较小的训练均方误差,但却得到一个较大的测试均方误差,该模型就是过拟合了。
过拟合,表示对已有的训练数据有非常精准的估计,但是对新的不属于原来训练数据集的观测点的估计偏差很大。
- 但无论过拟合是否发生,我们总是期望训练均方误差比测试均方误差要小,原因是许多统计学习方法直接或者间接,其目标函数都是训练均方误差最小。
- Why:在于暗示降低模型的光滑度,减小测试均方误差
偏差 - 方差权衡
模型选择的两个指标,但是它们是负相关的。
- 使用光滑度更高的方法,所得模型偏差会减少,方差会增加
- 虽然两者是负相关,但变化的幅度是不一样的;有的时候,提高一种方法的光滑度,偏差减小的速度要比模型方差增阿基的快,这时期望测试均方误差就会下降
- 目标:使得(方差 + 偏差$^2$ ) 最小化
偏差 - Bias
为了选择一个模型逼近真实函数而被带入的误差,其构成可能非常复杂。即预测值与真实值之间的差值。
一般来说,光滑度越高的方法产生的偏差越小;
####方差 - Variance
代表用一个不同的训练集估计 $f$ 时,估计函数的改变量。
一般来说,光滑度越高的统计模型有更高的方差。
分类模型的评价
通过错误率去进行评价
- 训练错误率:衡量估计 $\hat{f}$ 精度的方法
$${1\over n} \sum_i^n I (y_i \neq \hat{y_i}) $$ ( 2.8 )
$I(y_i \neq \hat{y_i})$ 表示一个示性变量;当 $y_i \neq \hat{y_i}$ 时,值等于1;否则等于0;
若值等于0,表示第$i$个观测值用分类模型实现了正确的分类。上式计算了误分类的比例。
与之对应的为 测试错误率
贝叶斯分类器
贝叶斯分类器将产生最低的测试错误率
- 设计一个简单的分类器将每个观测值分配到它最大可能所在的类当中,将这个类作为它的预测值;即将一个$x_0$ 分配到下式最大的那个$j$ 类上是合理的:
$$Pr (Y=j | X=x_0)$$ ( 2.10 )
这是一个条件概率。给定了观测向量 $x_0$ 条件下 $Y=j$ 的概率。
在一个二分类问题中,只有两种可能的响应值1或2;若 $Pr (Y=1|X=x_0) > 0.5 $ ,贝叶斯分类器将其预测为1,否则为2;
贝叶斯决策边界:表示那些概率为0.5的点所组成的边界。
贝叶斯分类器将产生最低的测试错误率,称为贝叶斯错误率。因为贝叶斯分类器总是选择使 ( 2.10 ) 最大的类。
在 $X = x_0$ 处的错误率是 $1 - max_j Pr (Y=j | X=x_0)$
整个贝叶斯错误率
$$ 1 - E (max_j Pr (Y=j | X) ) $$ ( 2.11 )
期望平均了所有$X$ 上可能的概率
贝叶斯错误率类似于不可约误差
K 最邻近分类器
实际情况是一般很难知道给定 $X$ 后 $Y$ 的分布,所以很多时候计算贝叶斯分类几乎是不可能的;所以常常
- 先给定 $X$ 后估计 $Y$ 的条件分布
- 然后将一个给定的观测值分类到估计的分布概率最大的类别中
- KNN (K - Nearest Neighbors )分类器 - 步骤
- 给一个正整数 K 和一个观测值$x_0$
- 从训练集中找出 K 个最靠近$x_0$ 的点集开始,用 $N_0$表示这个K个点的集合
- 对集合中每个类别$j$ 分别估计它的条件概率 $Pr (Y= j | X=x0) = \frac 1n \sum{N_0}I(y_i = j) $
- 最后运用贝叶斯方法将测试的观测值$x_0$ 分到概率最大的类中
例如,目标是对黑色十字标记的点作出预测;选取K=3;
首先识别出靠近该点最近的3个观测值;其中2个点位蓝色,一个点位橙色;所以蓝色的估计概率为 2/3,橙色点的估计概率1/3;
因为蓝色点的概率最大,所以最后把该十字标记点分类为蓝色
- K的选择对获得KNN分类器有根本性的影响。
- K = 1 时,决策边界很不规则;此时偏差最低,但方差往往很大;
- K = 100 时,模型的光滑性减弱, 得到一个接近线性的决策边界;
第三章 线性回归
简单线性回归、多元线性回归、多项式回归
##简单线性回归
根据单一变量 $X$ 预测定量 响应变量 $Y$ 的方法。
$$ Y \approx \beta_0 + \beta_1X$$ ( 3.1)
估计系数
目的是估计 $\beta_0 , \beta_1$
残差(Residual) = (预测值 与 实际值) 之间的差值;即偏差;
残差平方和 - RSS ( Residual Sum of Squares )
$$RSS = \sum_i^n (y_i - \hat{y}_i) ^2$$ ( 3.3 )
最小二乘估计(Least Squares Coefficient Estimate):选择使得 RSS最小的参数;
最小二乘直线:找到一条直线,使得RSS最小
评估估计的准确性
介绍了样本均值、标准误差、置信区间、零假设、t统计量、p值
目的是确保单个模型中系数的准确性
- 总体回归直线 Vs. 最小二乘直线
- 总体回归直线:真实的回归直线,一般是无法获得的
- 最小二乘直线:拟合的回顾直线,尽量逼近真实的回归直线
- 两者之间有细微的差别,这是基于对标准统计方法的延伸(即利用样本信息估计一个较大总体的特征)
#####样本均值
样本均值:随机抽取10个样本集,每个集中有100个观测值,每个样本自身的均值,组成一个集合(共10个元素);该组集合的均值即为样本均值;
例如我们对随机变量$Y$的总体均值$\mu$感兴趣。问题在于 $\mu$ 是未知的,但我们有 n 个关于 $Y$ 的观测值,即为$y_1, y_2 ,… , y_n$ ,可以用它来估计$\mu$ 。 一个合理的估计是 $ \hat{\mu} = \overline y $ ,其中 $\overline y = \frac 1n \sum_i^n y_i$
对一组特定的观测值$y_1, …,y_n$ 可能会高度或低估均值 $\mu$ ,但如果对大量观测数据集中得到许多对 $\mu$ 的估计,则它们的均值正好等于$\mu$ ;
因此一个无偏估计不会系统地高估后低估真实参数。这种无偏性同样适用于最小二乘参数估计。
标准误差
样本均值的标准误差 - SE (Standard Error):衡量估计值 $\hat{\mu}$ 与真实均值的偏离程度
$$Var(\hat{\mu}) = SE (\hat{\mu})^2 = {\sigma^2 \over n} $$ ( 3.8 )
$$SE(\hat\mu) = {\sigma \over \sqrt{n} }$$
标准误差 $SE(\hat{\mu})$ 衡量了估计$\hat{\mu}$ 偏离 $\mu$ 的实际值的平均量,也告诉我们这种偏差随着n的增大而减小。
方差:随机变量与数学期望(均值) 之间的偏离程度
$$Var(x) = \frac 1n \sum (x_i - \mu) ^2$$
#####置信区间
置信区间 - CI (Confidence Interval) :通过标准误差来估计算置信区间
95%的置信区间:被定义为真实值有95%的概率落在该区间;或许说该范围有95%的概率包含未知参数的真实值
对于线性回归模型,$\hat\beta_1$ 的95%的置信区间约为 (基于经验原则)
$$ \hat\beta_1 \pm 2 SE(\hat\beta_1)$$ ( 3.9 )
#####零假设
标准误差对系数进行假设检验:零假设 与 备择假设
- 零假设: $H_0 $ : X 和 Y 之间没有关系;
- 备择假设: $H_a$ : X 和 Y 之间有一定的关系;
为了检验零假设,需要确定 $\hat\beta_1$ ($\beta_1$的估计值) 距离零是否足够远,从而能够确信 $\beta_1$是非零的;
- 足够远的评判,取决于 $\hat\beta_1$ 的准确性;即依赖于 SE($\hat\beta_1$) ;
- 如果 SE($\hat\beta_1$)很小,那即使 $\hat\beta_1$ 较小,也可能为 $\beta_1 \neq 0 $提供强有力的证据,证明X 和 Y 是相关的;
- 如果 SE($\hat\beta_1$)很大,那 $\hat\beta_1$ 的绝对值必须很大才能拒绝零假设。
#####t 统计量
t 统计量:衡量了$\hat\beta_1$ 偏离0的标准偏差 (即若为零假设时, $\beta$ 应为0)
$$t = {\hat\beta_1 - 0 \over SE(\hat\beta_1) } = {\hat\beta_1 - 0 \over {\sigma / \sqrt{n} } }$$
t 分布有钟形结构;当n > 30时,类似正态分布;
#####p 值
$p$ 值 :假设 $\beta_1=0$ 时,计算任意观测值大于等于|t|的概率;
- $p$值的解释:在接受原假设为真的情况下,该组样本量中的值出现的概率;
- 若这个概率 $p$ 非常小,但现在的这个统计量却出现了,表明在预测变量和响应变量之间的真实关系未知的情况下,不太可能完全由于偶然而观察到预测变量和响应变量之间的强相关。
系数 | 标准误 | t统计量 | p值 | |
---|---|---|---|---|
Intercept | 7.0325 | 0.4578 | 15.36 | <0.0001 |
Tv | 0.0475 | 0.0027 | 17.67 | <0.0001 |
表明,该 t 统计量(15.36)出现的概率为 <0.0001,但现在却出现了。所以我们拒绝 $\beta_1=0$ 的原假设,认为两者之间是有关系的。
评价模型的准确性
目的是选择合适的模型;在此之前必须保证每个模型中系数的准确性
评价线性模型的拟合度常用:残差标准误、$R^2$ 统计量
残差标准误
残差标准误 - RSE (Residual Standard Error ) :残差本身的偏离程度;
$$RSS = \sum_i^n (y_i - \hat{y}_i) ^2$$
$$RSE = \sqrt{ {1 \over (n-2) }RSS}$$
当模型拟合越好,RSE则越小;
- 不足:但这是一个绝对值的度量,以Y的单位进行衡量;所以偏差的大小会根据原本统计单位的不同而不同;
- 一个是渠道的数量,单位个;一个是金额的数量,单位万元;会有很大的不同
$R^2$ 统计量
表示被解释方差的比例,值在 [0 , 1]之间;测量的是 Y 中的变异中能被 X 解释的部分所占的比例;越接近1,说明回归可以解释越多的变异性
$$R^2 = {TSS-RSS \over TSS } = 1- {RSS \over TSS}$$ ( 3.17 )
$TSS = \sum(y_i - \overline y) ^2 $ :总平方和,测量的是响应变量 Y 自身的总方差,可以认为在执行回归分析之前响应变量中的固有变异性;
$TSS - RSS$ :测量的是响应变量进行回归之后被解释的变异性;
- 不足:当更多的变量进入模型时,即使新加入的变量与响应变量的关联很弱, $R^2$也一定会增加;这是因为在最小二乘法中添加变量必然会使我们更准确地拟合训练数据;
多元线性回归
多个预测变量$X_i$ 预测 定量 响应变量 $Y$
$$ Y = \beta_0 + \beta_1X_1 + … + \beta_nX_n + \xi$$
$X_i$ 代表第 $i$ 个预测变量,$\beta_i $代表第 $i$ 个预测变量与响应变量之间的关联;
$\beta_i $ 解释为在所有其他预测变量保持不变的情况下,$X_i$增加一个单位对 $Y$ 产生的平均效果;
F 统计量 - 预测变量与响应变量是否有关系
所有预测变量中是否至少有一个可以用预测响应变量。
$H_0 : \beta_1 = \beta_2 = … = \beta_n = 0 $
$H_a : 至少有一个 \beta_i 不为0$
$F$ 统计量:
$$F = {(TSS-RSS)/p \over (RSS/(n-p-1))}$$
F统计量 越接近1,表示预测变量与响应变量无关;
F统计量 大于1,表示两者有关系,则拒绝零假设;
- F统计量越大,越能表明两者之间是相关的;
- F统计量接近1,是否拒绝零假设取决于n和p的值;
- 若n很大,即使F统计量只是略大于1,可能仍可提供拒绝零假设
- 若n较小,需要较大的统计量才能拒绝零假设;
- 同时可以根据 $p$ 值来进行判断
回归模型中的其他问题
涉及定性预测变量、模型的扩展、潜在的异常值
定性预测变量 - 构造哑变量
二值预测变量
一个定性变量只有2种可能的取值;只需要给二值变量创建一个指标/哑变量;
- $x_i$ = 1,表示女性; $x_i$ =0 ,表示男性
- $y_i = \beta_0 + \beta_1x_i + \xi_i$
- $\beta_0 + \beta_1 + \xi_i$ ; 女性 - $x_i =1$
- $\beta_0 + \xi_i$ ; 男性 - $x_i =$0
$\beta_0$ 解释男性的平均债务水平
$\beta_0 + \beta_1$ 解释女性的平均债务水平
$\beta_1$ 表示男性与女性之间债务的平均差异;
也可以使用 $x_i$ = 1,表示女性; $x_i$ = -1 ,表示男性 ;对结果并不影响,区别仅在于对系数的解释不同;
两个水平以上的定性变量
给每一个水平创建一个哑变量;而不是对整个变量创建哑变量;
没有相对应的哑变量的水平,被称为基准水平;
- $x{i1} $ = 1,表示高中; $x{i1}$ =0 ,表示非高中
- $x{i2} $ = 1,表示大学; $x{i2}$ =0 ,表示非大学
- $x{i3} $ = 1,表示硕士; $x{i3}$ =0 ,表示非硕士
- $y_i = \beta_0 + \beta1x{i1} + \beta2x{i2} + \beta3x{i3} +\xi_i$
- $\beta_0 + \beta_1 + \xi_i$ ; 高中
- $\beta_0 + \beta_2 + \xi_i$ ; 大学
- $\beta_0 + \beta_3+ \xi_i$ ; 硕士
- $\beta_0 + \xi_i$ ;初中
线性模型的扩展
可加性假设:预测变量$X_i$变化对响应变量$Y$ 产生的影响与其他预测变量的取值无关;
线性假设:无论 $X_i$ 取何值,$X_i$变化一个单位引起的响应变量 $Y$的变化是恒定的
去除可加性 - 交互项
- 实验分层原则:如果模型中含有交互项,那么即使主效应的系数 p 值不显著,也应该包含在模型中;
- 所以,要优先检查交互项的系数的零假设
非线性关系 - 多项式
引入高次方,即多项式;
$ Y = \beta_0 + \beta_1x + \beta_2x^2 + \xi$
潜在的异常值
数据的非线性、误差项自相关、误差项方差非恒定、离群点、高杠杆点、共线性
线性回归 Vs. KNN
- 参数方法在建模的过程中对 $f(X)$ 的形式提出了很强的假设;
- 当选定的参数形式接近 $f$ 的真实形式,参数方法会优于 非参数方法
- 维度的增加给线性回归的MSE带来的影响较小,而对KNN的影响较大;
- 若每个预测变量仅有少量的观测值,参数方法往往会优于非参数方法
- 若需要更高的模型结实度,则倾向于参数方法;