Poisson回归(泊松回归)

用于建模计数型响应变量的广义线性模型

什么是Poisson回归?

Poisson回归是一种广义线性模型(GLM),专门用于对计数型数据(如事件发生次数)进行建模。 它假设响应变量服从泊松分布,并通过对数链接函数将线性预测器与期望值关联起来。

log(λ) = β₀ + β₁x₁ + β₂x₂ + … + βₖxₖ

其中 λ 是事件发生的平均次数(即泊松分布的参数),β 是待估计的回归系数。

适用场景

注意:Poisson回归要求数据满足“均值等于方差”的假设。若存在过度离散(方差远大于均值),应考虑负二项回归。

数学基础

泊松分布的概率质量函数为:

P(Y = k) = (λᵏ e⁻ᵞ) / k! ,k = 0, 1, 2, …

在Poisson回归中,我们建模的是 λ 的对数:

λ = exp(β₀ + β₁x₁ + … + βₖxₖ)

这意味着每个自变量每增加一个单位,事件发生率会以指数形式变化(乘以 eβⱼ)。

简单示例演示

假设我们研究广告点击次数(Y)与广告展示次数(X)的关系。以下是一个简化模拟:

输入展示次数:

如何实现?

在Python中,可使用 statsmodelssklearn 实现Poisson回归:

import statsmodels.api as sm

model = sm.GLM(y, X, family=sm.families.Poisson())

result = model.fit()

在R语言中:

model <- glm(y ~ x1 + x2, family = poisson, data = df)