四分位距(IQR)衡量数据集中间50%的分布范围。它是第75百分位数(Q3)与第25百分位数(Q1)之差,是一种不受异常值影响的稳健变异度量。

公式

IQR = Q3 − Q1

逐步示例

数据集:{3, 7, 8, 15, 21, 24, 30, 32, 45}

第一步: 对数据排序(上述数据已排序)。

第二步: 求中位数(Q2)。 中位数 = 21(9个元素集合中的第5个值)

第三步: 求Q1——下半部分{3, 7, 8, 15}的中位数。 Q1 = (7 + 8) / 2 = 7.5

第四步: 求Q3——上半部分{24, 30, 32, 45}的中位数。 Q3 = (30 + 32) / 2 = 31

第五步: 计算IQR。 IQR = 31 − 7.5 = 23.5

使用IQR检测异常值

常用规则:任何低于Q1 − 1.5×IQR或高于Q3 + 1.5×IQR的值都被视为异常值。

下界:7.5 − 1.5×23.5 = 7.5 − 35.25 = −27.75 上界:31 + 1.5×23.5 = 31 + 35.25 = 66.25

我们数据集中没有任何值落在这些边界之外,因此没有异常值。

IQR与标准差的比较

在以下情况下,IQR优于标准差:

  • 数据偏斜或有异常值
  • 需要基于中位数的摘要(IQR与中位数配合使用;标准差与均值配合使用)
  • 分析收入、房价或其他右偏分布

使用我们的IQR计算器处理任何数据集。