17-SAS 与负二项分布
1 负二项分布中的参数估计
负二项分布( negative binomial distribution )是一种离散型分布,常用于描述生物的群聚性:在毒理学的显性致死试验或致癌试验中也都有应用。
二项分布中的 n 是固定的,当 n 不固定,并用 x+k 来替换 n 后,所得到的在 x+k 次试验中得到此种结果恰为 k 次的概率,这时的概率函数就是负二项分布,所以在是负二项分布中的一个重要的参数。
计算参数k的常用方法有动差法、频数法、零频数法、最大似然法等。这里介绍相对较为简单的动差法。
1.1 动差法示例
在研究某种毒物的致死作用时,对 60 只小白鼠进行了显性致死试验,得到数据资料见表。若该样本计数服从负二项分布,试估计其参数 μ 和 k。
| 胚胎死亡数 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 合计 |
|---|---|---|---|---|---|---|---|---|
| 观察雌鼠数 | 30 | 14 | 8 | 4 | 2 | 0 | 2 | 60 |
1.1.1 动差法原理(Method of Moments)
动差法是一种参数估计方法,通过令样本矩(如样本均值、样本方差)等于理论分布的对应矩,解方程得到参数估计。
对于负二项分布:
参数:
- \(\mu = \text{E}(X)\)
- \(\text{Var}(X) = \mu + \mu^2/k\)
由样本数据可得样本均值 \(\bar{x}\) 和样本方差 \(s^2\),则可解出:
- \(\hat{k} = \mu^2 / (s^2 - \mu)\)
这个估计在 \(s^2 > \mu\) 时成立(即数据存在过度离散)。
1.1.2 其他参数估计方法
| 方法 | 思路 | 优点 | 缺点 |
|---|---|---|---|
| 频数法(Frequency Method) | 利用频数分布构造估计量,如通过最大频数位置反推参数 | 直观,适用于整数型数据 | 精度差,参数间依赖强 |
| 零频数法(Zero Frequency Method) | 利用观测中“零”的频率推断参数 | 简便,只需零频数 | 精度有限,需大量样本支持 |
| 最大似然估计(MLE) | 构造似然函数,以数值优化求得参数估计 | 统计效率高,常用于建模 | 需要迭代计算,依赖软件 |
代码
UNIVARIATE 过程
变量: x
频数: f
| 矩 | |||
|---|---|---|---|
| 数目 | 60 | 权重总和 | 60 |
| 均值 | 1.03333333 | 观测总和 | 62 |
| 标准差 | 1.43759058 | 方差 | 2.06666667 |
| 偏度 | 1.78111198 | 峰度 | 3.3122114 |
| 未校平方和 | 186 | 校正平方和 | 121.933333 |
| 变异系数 | 139.121669 | 标准误差均值 | 0.18559215 |
| 基本统计测度 | |||
|---|---|---|---|
| 位置 | 变异性 | ||
| 均值 | 1.033333 | 标准差 | 1.43759 |
| 中位数 | 0.500000 | 方差 | 2.06667 |
| 众数 | 0.000000 | 极差 | 6.00000 |
| 四分位间距 | 2.00000 | ||
| 位置检验: Mu0=0 | ||||
|---|---|---|---|---|
| 检验 | 统计量 | p 值 | ||
| Student t | t | 5.567764 | Pr > |t| | <.0001 |
| 符号 | M | 15 | Pr >= |M| | <.0001 |
| 符号秩 | S | 232.5 | Pr >= |S| | <.0001 |
| 分位数(定义 5) | |
|---|---|
| 水平 | 分位数 |
| 100% 最大值 | 6.0 |
| 99% | 6.0 |
| 95% | 4.0 |
| 90% | 3.0 |
| 75% Q3 | 2.0 |
| 50% 中位数 | 0.5 |
| 25% Q1 | 0.0 |
| 10% | 0.0 |
| 5% | 0.0 |
| 1% | 0.0 |
| 0% 最小值 | 0.0 |
| 极值观测 | |||||
|---|---|---|---|---|---|
| 最小值 | 最大值 | ||||
| 值 | 频数 | 观测 | 值 | 频数 | 观测 |
| 0 | 30 | 1 | 1 | 14 | 2 |
| 1 | 14 | 2 | 2 | 8 | 3 |
| 2 | 8 | 3 | 3 | 4 | 4 |
| 3 | 4 | 4 | 4 | 2 | 5 |
| 4 | 2 | 5 | 6 | 2 | 7 |
| 观测 | mu | k |
|---|---|---|
| 1 | 1.03333 | 1.03333 |
1.1.3 程序说明
数据集中的x和f分别表示胚胎死亡数和雌鼠数,首先通过 univariate 过程计算均数和方差,并将该两项指标输出到 mv2 数据集中,再用数据集k调用mv2的内容,用专用公式计算k的值。
1.1.4 结果说明
univariate 过程的输出结果不再叙述,最后输出的两个参数分别为u=1.033 33,k=1.033 33.
1.2 零频数法
理论上,
\[ P(X=0) = \left( \frac{k}{k+\mu} \right)^k \]
设观察零频率 \(f_0 = 30/60 = 0.5\),解此方程估计 k。