Jimmy那些事儿

统计学_基本概念

1. 基本概念

1.1 方差

Varience

  • what : 各值与均值距离的平方和除以(n-1); $s^2=\frac{\sum(X-u)^2}{(n-1)}$
  • why : 说明数据的离散程度

1.2 贝叶斯定律

Baye’s Rule

  • what : P(B|A)=P(A∩B)/P(A)
  • why : 将一个未知的条件概率转化为一个已知的条件概率

1.3 置信系数

Confidence Coefficient

  • what : (1-α)
  • why : 一个随机选取的置信区间,它包含了所有总体参数的概率

置信区间CI:置信系数的百分比表达形式

  • how : 根据置信系数(1-α)来确定置信区间CI;
    • 当(1-α)=0.90, α=0.1, α/2=0.05,表示对于分布右尾处面积为0.05是置信区间之外的面积;
    • 求当[0,0.45]这一侧的Z值,得出Z=1.645
    • 置信区间右侧 = X + 1.645*(标准差/sqrt(n))

样本统计量 与 置信区间

  • what : 样本统计量,根据 误差范围(ME)和置信区间来确定
  • how : 误差范围 = 置信区间的一半/单侧
    • ME = α/2处的Z得分 *(标准差/sqrt(n))

1.4 检验统计量

  • what : 一个样本统计量;Z=(样本均值-给定的u)/(标准差/$\sqrt{(n)}$)
  • why : 利用这个样本统计量在原假设与备择假设之间做出选择。用来检验该拒绝还是接受假设的一个度量值 

1.5 拒绝域

  • what : 检验统计量可能取值的一个集合;其对应的概率为 α ;

    • 拒绝域可以自己选择;例如,拒绝域:Z>1.645,对应的 α =0.05;
  • why : 当检验统计量的值落入这个集合时,研究者会拒绝原假设而接受备择假设;

1.6 显著性水平p值

P值是指当原假设为真时,所得到的观察结果或更为极端结果出现的概率,简单讲它是在假设原假设为真时计算出来的一个区间里的概率。(p-value is the probability we get this sample or a more extreme sample under H0)

α错误,它是指当原假设为真时我们却拒绝原假设所犯的错误

即在原假设为真的情况下,观测到某个值的概率为P值;若P值非常小,说明这个事件出现的概率是非常小的。但实际情况却出现了,所以我们拒绝原假设

https://www.zhihu.com/question/21429785


P值就是由原假设为真时推论的样本结果,与实际观察的样本结果相一致的概率。如果P值很小,说明实际观察的样本结果与推论的样本结果相一致的概率很低,在事实面前,这个原假设是否合理就值得怀疑。P值越小,怀疑的可信性越强,证据越充分。

现在假设你接受了一个原假设,然后我们用现有的数据检验这个假设是否正确。

在这个原假设成立的条件下,如果得到现有观测值的概率非常小,我们可以说小概率事件 在一次实验中不可能发生,而现在这个小概率事件发生了。那么说明数据不是来自我们假设的那个分布,从而拒绝原假设。p值就是原假设成立的条件下 得到比现有观测数据更极端的观测值的概率。如果这个p值很小,说明原假设不成立

https://d.cosx.org/d/13605-13605/6


  • what :观测到检验统计量至少与原假设相矛盾,从而支持备择假设的概率;p值在[0,1]之间;

    • p值 = P(Z>z);z为检验统计量;即p值为检验统计量右侧的尾部面积;
  • why :用于判断是否拒绝原假设而支持备择假设;数值越低,说明否定原假设的证据越充分;

    • 假设检验中,p值与给定的 α值进行比较;

      比如说我们经常定的α=0.05,表明我们容忍有5%的概率出现该总情况。

      • 当p为0.06大于α时,表示出现这种极端情况的概率有6%,但我们有5%的容忍,所以不能拒绝原假设。
      • 当p为0.02小于α时,表示出现这种极端情况的概率为2%,低于可以容忍出现的概率5%,所以拒绝原假设。
    • 当p值落入拒绝域对应的概率 α 中(p < α),则拒绝原假设;【若为双侧检验,则应为p < α/2 ) 从图形上去理解,α为右侧尾部的面积

例如你计算出P值为0.01,那么P值就告诉你,即使你对检验量和总体真实参数的差异宽容到概率为99%的区间,这个检验量还是落在了这个区间以外,因此你就需要怀疑这个总体参数是不是真的你原先设想的那个。

P值就只是方便你判断检验统计量是否落在拒绝域,犯第一类错误的风险是否低于可以接受的标准,α就是预先给自己定下一个标准,这个风险必须少于多少,才能相信这个检验的结果。


1.7 相关系数

  • what : [-1, 1]之间的值
  • why : 用于衡量两个定量变量之间线性关系的强弱;

1.8 协方差

Covariance

  • what : 一个样本的值的偏离程度,会对另一个样本的值的偏离程度产生多大的影响;
  • why : 衡量两个变量的总体误差;如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。
    • 若协方差为0,表示两者不相关,相互独立;
    • 方差是一种特殊情况,表示两个变量相同;

1.9 离差/误差

  • what : 单个数值与平均值之间的差;
    • $\sum(离差)$=0
  • why : 离差/误差平方和(SSE),可以用来反映数据的离散程度;
    • SSE = Sum of Squares for error

1.10 残差

  • what : 实际观测值 与 模型预测值 之间的差
    • $\sum(残差)$=0
  • why : 残差平方和,可以反映拟合直线的好坏;因为它反映了数据的离散程度;


1.11 均值的标准误

  • What:估计来自同一总体的多个样本所得到的样本均值之间的差异性;MSE = Mean Standard for error
  • Why :反映的是样本之间的变异性;而标准差反映的是单个样本内的变异性;


1.12 方差-协方差矩阵

  • What:计算不同变量之间协方差的一个对称矩阵;
  • Why :可以导出一个变换矩阵,这个矩阵能够使数据完全去相关化;也就是说,可以找出一组最佳的基于紧凑的方式来表达一组数据;在主成分分析中有很大的应用;


1.13 偏态与峰度

偏态:Skewness

  • What:指非对称分布的偏斜状态;指统计总体当中的变量值分别落在众数左右两边,呈非对称性分布
  • Why :衡量随机变量概率分布的不对称性
  • How :
    • 偏态为负(负偏态/左偏态),说明概率密度函数左侧的尾部比右侧的长绝大多数的值(包括中位数在内)位于均值的右侧
    • 偏态为正(正偏态/右偏态),说明概率密度函数右侧的尾部比左侧的长,绝大多数的值(但不一定包括中位数)位于均值的左侧;
    • 偏态为零,表示数值均匀地分布在平均值的两侧,但并不一定意味着就是对称分布;
    • 若分布对阵,平均值=中位数,偏度为零;(若为单峰分布,平均值=中位数=众数)

峰度

  • What:数据呈现的一种形状;
  • Why :表示分布的波峰尾部**相对于正态分布的区别**;
  • How :
    • 峰度值为正,说明相比于正态分布,该分布具有更重的尾部和更陡的峰值,即中间更窄且高
    • 峰度为负,说明相比于正态分布,该分布具有更轻的尾部和更平缓的峰值,即中间更宽且低

2017/2/8


标准误差

(各样本的均值)的标准差

img

标准误差英文Standard Error),也称标准误,即样本统计量的标准差英文Standard Deviation),是描述对应的样本统计量抽样分布的离散程度及衡量对应样本统计量抽样误差大小的尺度[1]。(读者注意:Standard Error是样本统计量的Standard Deviation,而不是样本的Standard Deviation,此处作者英文引用的位置不恰当。)

概述

标准误差针对样本统计量而言,是某个样本统计量的标准差。当谈及标准误差时,一般须指明对应的样本统计量才有意义。以下以样本均值(样本均值是一种样本统计量)作为例子:

例如, 样本均值总体均值无偏估计。但是,来自同一总量的不同样本可能有不同的均值。

于是,假设可以从总体中随机选取无限的大小相同的样本,那每个样本都可以有一个样本均值。依此法可以到一个由无限多样本均值组成的总体,该总体的标准差即为标准误差

在很多实际应用中,标准差的真正值通常是未知的。因此,标准误这个术语通常运用于代表这一未知量的估计。在这些情况下,需要清楚业已完成的和尝试去解决的标准误差仅仅可能是一个估量。然而,这通行上不太可能:人们可能往往采取更好的估量方法,而避免使用标准误,例如采用最大似然或更形式化的方法去测定信赖区间。第一个众所周知的方法是在适当条件下可以采用学生t-分布为一个估量平均值提供置信区间。在其他情况下,标准差可以有效地利用于提供一个不确定性空间的示值,但其正式或半正式使用是提供置信区间或测试,并要求样本总量必须足够大。其总量大小取决于具体的数量分析[2]


平均值标准误差

“样本均值的估计标准误差”,简称平均值标准误差(standard error of the mean, SEM),或平均数标准误差。必须记得在简称的背后总是意指“样本的”。

如果已知母体标准差(σ),那么抽取无限多份大小为 n 的样本,每个样本各有一个平均值,*所有这个大小的样本之平均值*的标准差可证明为(注意!不是一份样本里观察值的标准差(那是下面公式里的)):

但由于通常σ为未知,此时可以用研究中取得样本的标准差 (S) 来估计(https://wikimedia.org/api/rest_v1/media/math/render/svg/bef6d7a33e7d36b1d1734ef70e11c91f5f5ac13d):

其中,S为样本的标准差,n为样本数量(大小)。

名词比较:

注意:

  1. 标准误差也可定义为残差标准差[3][4]
  2. 无论是标准误差还是小型样本的标准差,都往往低估了母体的标准误差和标准差:平均数的标准误差是总量标准误差的一个有偏估计量。当样本总量 n = 2时,低估率大概为25% ;但 n=6 时,低估率只有5%。基于此,古尔兰(Gurland)和特里帕蒂(Tripathi)对此公式作了改进努力[5]


统计量

统计量是基于样本的,而非基于所有数据

统计量 或 抽样统计量 是样本)测量的一种属性(例如,计算样本算术平均值)。 它计算的通过对数据集进行某种函数(统计算法)的运算后得到的值。

统计学定义一个统计量为一个总体参数的点估计量统计量的函数本身可以用于计算全体数据,而统计量则将抽取的样本作用于这一函数。统计量不同于统计参数。统计参数通常由于数量过大而不便于统计计算。而统计量仅仅统计抽出来的样本。统计量可以用于对统计参数进行估计。

例如,在计算样本的算术平均值时,算法会先将所有数据的值累加,然后除以样本数。 如果我们计算的是样本的平均值,我们就可以称其为统计量;这个值用于估计整体数据的平均值。 算数平均值本身之所以不能被叫做统计量因为其计算了全部数据而不仅仅是样本


极大似然估计

  • what:就是利用已知的样本结果反推最有可能(最大概率)导致这样结果的参数值。

  • why :

  • How :求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。

    例如:一个麻袋里有白球与黑球,但是我不知道它们之间的比例,那我就有放回的抽取10次,结果我发现我抽到了8次黑球2次白球,我要求最有可能的黑白球之间的比例时,就采取最大似然估计法:
    我假设我抽到黑球的概率为p,那得出8次黑球2次白球这个结果的概率为:

    $$p(黑=8) = p ^8 (1-p)^{(10-8)}$$
    现在我想要得出p是多少啊,很简单,*使得P(黑=8)最大的p就是我要求的结果,接下来求导的的过程就是求极值的过程。