Jimmy那些事儿

箱线图

介绍了箱线图的基本概念与意义

概念 - What

利用五个统计量(最小值、第一四分位数、中位数、第三四分位数,最大值)来描述数据;一个【类别型】变量与一个/多个【连续型】变量的关系

  • 四分位差IQR:上下四分位之间的距离;

    • 第p个百分位点(指的是有p%个测量值在它的下面,而有(100-p)%个测量值在它的上面)
    • 其宽度说明数据的【中间数据】的离散程度;宽度越窄,说明中间的数据越集中

    IQR-Interquatile Range; 上下四分位之间的距离;

    下四分位-25%,上四分位-75%

  • 内栏:1.5倍IQR / 外栏:3倍IQR

  • 胡须:在【内栏】内的最大/最小观测值为顶端

    • 且是在内栏范围内的极值;若有极值超过内栏(1.5IQR),则选取在1.5IQR内的第二大极值
    • 较长的胡须暗示数据的偏态
  • 异常值

    • 1.5-3.0倍IQR之间的值~潜在异常值*表示
    • 外栏之外-异常值-0表示


意义 - Why

[why] - 了解连续变量是如何随着分类变量水平的变化而变化;作用:

  • 识别异常值
    • 1.5-3.0倍IQR之间的值~潜在异常值*表示
    • 外栏之外-异常值-0表示
  • 判断数据的偏态的和尾重(但不能提供精确测量)
    • 对称:中位数位于方盒中央,即关于上下四分位数对称
    • 偏态:中位数越偏离中心位置,偏态性越强;
    • 左偏:异常值集中在较小这一侧,左偏;即尾部在左侧;说明数据位于均值左边的比较少,因为有少量数值比较小,把均值往左拉,使得均值<中位数
  • 比较几个数据的形状
    • 四分位距大小(正常值的分布是集中还是分散):观察方盒和线段的长短
    • 偏态情况:分析中位线和异常值


应用 - How

1
2
ggplot(data, aes(x=类别型变量, y=连续型变量, fill=分组因子变量))
+ geom_boxplot() # outer.color= , 异常值颜色(可为NA,表示不显示)
  • 手动移除异常值
1
2
3
4
5
6
qnt <- quantile(temp6$budget, p=c(0.25,0.75), na.rm=T)
h <- 1.5* IQR(temp6$budget,na.rm=T)
temp6$budget <- with(temp6,{
ifelse(budget<(qnt[1]-h),NA,budget)
ifelse(budget>(qnt[2]+h),NA,budget)})
temp6 <- na.omit(temp6)