什么是Poisson回归?
Poisson回归是一种广义线性模型(GLM),专门用于对计数型数据(如事件发生次数)进行建模。 它假设响应变量服从泊松分布,并通过对数链接函数将线性预测器与期望值关联起来。
log(λ) = β₀ + β₁x₁ + β₂x₂ + … + βₖxₖ
其中 λ 是事件发生的平均次数(即泊松分布的参数),β 是待估计的回归系数。
适用场景
- 某网站每天的访问量
- 医院每日接诊的急诊人数
- 交通事故在特定路段的月发生次数
- 一封邮件中包含的拼写错误数量
注意:Poisson回归要求数据满足“均值等于方差”的假设。若存在过度离散(方差远大于均值),应考虑负二项回归。
数学基础
泊松分布的概率质量函数为:
P(Y = k) = (λᵏ e⁻ᵞ) / k! ,k = 0, 1, 2, …
在Poisson回归中,我们建模的是 λ 的对数:
λ = exp(β₀ + β₁x₁ + … + βₖxₖ)
这意味着每个自变量每增加一个单位,事件发生率会以指数形式变化(乘以 eβⱼ)。
简单示例演示
假设我们研究广告点击次数(Y)与广告展示次数(X)的关系。以下是一个简化模拟:
输入展示次数:
如何实现?
在Python中,可使用 statsmodels 或 sklearn 实现Poisson回归:
import statsmodels.api as sm
model = sm.GLM(y, X, family=sm.families.Poisson())
result = model.fit()
在R语言中:
model <- glm(y ~ x1 + x2, family = poisson, data = df)