介绍了箱线图的基本概念与意义
概念 - What
利用五个统计量(最小值、第一四分位数、中位数、第三四分位数,最大值)来描述数据;一个【类别型】变量与一个/多个【连续型】变量的关系
四分位差IQR:上下四分位之间的距离;
- 第p个百分位点(指的是有p%个测量值在它的下面,而有(100-p)%个测量值在它的上面)
- 其宽度说明数据的【中间数据】的离散程度;宽度越窄,说明中间的数据越集中
IQR-Interquatile Range; 上下四分位之间的距离;
下四分位-25%,上四分位-75%
内栏:1.5倍IQR / 外栏:3倍IQR
胡须:在【内栏】内的最大/最小观测值为顶端
- 且是在内栏范围内的极值;若有极值超过内栏(1.5IQR),则选取在1.5IQR内的第二大极值
- 较长的胡须暗示数据的偏态
异常值
- 1.5-3.0倍IQR之间的值~潜在异常值*表示
- 外栏之外-异常值-0表示
意义 - Why
[why] - 了解连续变量是如何随着分类变量水平的变化而变化;作用:
- 识别异常值
- 1.5-3.0倍IQR之间的值~潜在异常值*表示
- 外栏之外-异常值-0表示
- 判断数据的偏态的和尾重(但不能提供精确测量)
- 对称:中位数位于方盒中央,即关于上下四分位数对称
- 偏态:中位数越偏离中心位置,偏态性越强;
- 左偏:异常值集中在较小这一侧,左偏;即尾部在左侧;说明数据位于均值左边的比较少,因为有少量数值比较小,把均值往左拉,使得均值<中位数
- 比较几个数据的形状
- 四分位距大小(正常值的分布是集中还是分散):观察方盒和线段的长短
- 偏态情况:分析中位线和异常值
应用 - How
|
|
- 手动移除异常值
|
|