什么是皮尔逊分布?
皮尔逊分布是由英国统计学家卡尔·皮尔逊(Karl Pearson)于1895年提出的一类连续概率分布。 它通过一个微分方程来定义,能够根据数据的偏度(skewness)和峰度(kurtosis)拟合多种形状的分布。 因其灵活性,皮尔逊系统被广泛应用于金融、生物统计、工程可靠性分析等领域。
皮尔逊分布的数学定义
皮尔逊分布由以下一阶微分方程定义:
dp(x)/dx = [(x - a) / (b₀ + b₁x + b₂x²)] · p(x)
其中 p(x) 是概率密度函数,参数 a, b₀, b₁, b₂ 决定了分布的具体形式。
根据判别式 D = b₁² - 4b₀b₂ 和其他条件,该系统可分为7种主要类型(I–VII)。
皮尔逊分布的类型
根据偏度与峰度的不同组合,皮尔逊系统包含以下常见类型:
类型 I
Beta 分布的推广,适用于有界区间。
类型 II
对称的 Beta 分布,常用于圆形数据。
类型 III
包括 Gamma 分布、指数分布和卡方分布。
类型 IV
非对称、重尾分布,无闭式累积函数。
类型 V
逆 Gamma 分布,用于正偏态数据。
类型 VI
Beta prime 分布或 F 分布的推广。
类型 VII
包括 t 分布,对称重尾。
应用场景
- 金融建模:拟合资产收益率的偏态与厚尾特性。
- 生物统计:描述生长曲线、寿命数据等非正态变量。
- 质量控制:在工业过程中建模非高斯噪声。
- 环境科学:降雨量、污染物浓度等自然现象建模。
为什么使用皮尔逊分布?
相比单一分布(如正态分布),皮尔逊系统能根据样本的前四阶矩(均值、方差、偏度、峰度) 自动选择最合适的分布类型,提供更准确的概率模型。这使其成为探索性数据分析和分布拟合的强大工具。