四分位距(IQR)衡量数据集中间50%的分布范围。它是第75百分位数(Q3)与第25百分位数(Q1)之差,是一种不受异常值影响的稳健变异度量。
公式
IQR = Q3 − Q1
逐步示例
数据集:{3, 7, 8, 15, 21, 24, 30, 32, 45}
第一步: 对数据排序(上述数据已排序)。
第二步: 求中位数(Q2)。 中位数 = 21(9个元素集合中的第5个值)
第三步: 求Q1——下半部分{3, 7, 8, 15}的中位数。 Q1 = (7 + 8) / 2 = 7.5
第四步: 求Q3——上半部分{24, 30, 32, 45}的中位数。 Q3 = (30 + 32) / 2 = 31
第五步: 计算IQR。 IQR = 31 − 7.5 = 23.5
使用IQR检测异常值
常用规则:任何低于Q1 − 1.5×IQR或高于Q3 + 1.5×IQR的值都被视为异常值。
下界:7.5 − 1.5×23.5 = 7.5 − 35.25 = −27.75 上界:31 + 1.5×23.5 = 31 + 35.25 = 66.25
我们数据集中没有任何值落在这些边界之外,因此没有异常值。
IQR与标准差的比较
在以下情况下,IQR优于标准差:
- 数据偏斜或有异常值
- 需要基于中位数的摘要(IQR与中位数配合使用;标准差与均值配合使用)
- 分析收入、房价或其他右偏分布
使用我们的IQR计算器处理任何数据集。