09-SAS 计量资料的单变量分析
1 单变量分析
单变量分析是对单个变量进行统计分析的过程,用于单变量描述的 SAS 过程有很多,包括 corr、freq、means、summary、tabulate 和 univariate 等过程。
这些过程通常用于描述数据集的分布、中心趋势和变异性。
corr过程用于计算变量间的相关系数,还可以计算相关系数和一些单变量的描述性统计量。freq过程可以生成单向和多向的频数表和交叉表。means过程用于对数值变量计算简单描述性统计量。summary过程也是用来计算单个变量的基本统计量。它和means过程不同之处在于,该过程不在 Output 窗口输出结果,除非加上命令print,而means总是在 Output 窗口输出结果tabulate过程是用分类报表的形式输出满足用户要求的描述性统计量。univariate过程可以计算的描述性统计量是最多的,而且还可用图表的形式反映变量值的分布情况,并对变量进行正态性检验
这里主要介绍 freq、means 和 univariate 过程
1.1 频数表的编制
频数表是对分类变量进行单变量分析的常用方法,可以显示每个类别的频数和百分比。
- 检查数据集,选择变量
| 观测 | Make | Model | Type | Origin | DriveTrain | MSRP | Invoice | Engine Size (L) | Cylinders | Horsepower | MPG (City) | MPG (Highway) | Weight (LBS) | Wheelbase (IN) | Length (IN) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Acura | MDX | SUV | Asia | All | $36,945 | $33,337 | 3.5 | 6 | 265 | 17 | 23 | 4451 | 106 | 189 |
| 2 | Acura | RSX Type S 2dr | Sedan | Asia | Front | $23,820 | $21,761 | 2.0 | 4 | 200 | 24 | 31 | 2778 | 101 | 172 |
| 3 | Acura | TSX 4dr | Sedan | Asia | Front | $26,990 | $24,647 | 2.4 | 4 | 200 | 22 | 29 | 3230 | 105 | 183 |
| 4 | Acura | TL 4dr | Sedan | Asia | Front | $33,195 | $30,299 | 3.2 | 6 | 270 | 20 | 28 | 3575 | 108 | 186 |
| 5 | Acura | 3.5 RL 4dr | Sedan | Asia | Front | $43,755 | $39,014 | 3.5 | 6 | 225 | 18 | 24 | 3880 | 115 | 197 |
- 使用 cars 数据集中的 MPG(City) 变量进行频数表的编制
FREQ 过程
| MPG (City) | ||||
|---|---|---|---|---|
| MPG_City | 频数 | 百分比 | 累积 频数 |
累积 百分比 |
| 10 | 2 | 0.47 | 2 | 0.47 |
| 12 | 4 | 0.93 | 6 | 1.40 |
| 13 | 12 | 2.80 | 18 | 4.21 |
| 14 | 13 | 3.04 | 31 | 7.24 |
| 15 | 17 | 3.97 | 48 | 11.21 |
| 16 | 31 | 7.24 | 79 | 18.46 |
| 17 | 41 | 9.58 | 120 | 28.04 |
| 18 | 69 | 16.12 | 189 | 44.16 |
| 19 | 37 | 8.64 | 226 | 52.80 |
| 20 | 57 | 13.32 | 283 | 66.12 |
| 21 | 38 | 8.88 | 321 | 75.00 |
| 22 | 18 | 4.21 | 339 | 79.21 |
| 23 | 7 | 1.64 | 346 | 80.84 |
| 24 | 22 | 5.14 | 368 | 85.98 |
| 25 | 9 | 2.10 | 377 | 88.08 |
| 26 | 22 | 5.14 | 399 | 93.22 |
| 27 | 1 | 0.23 | 400 | 93.46 |
| 28 | 5 | 1.17 | 405 | 94.63 |
| 29 | 7 | 1.64 | 412 | 96.26 |
| 31 | 1 | 0.23 | 413 | 96.50 |
| 32 | 7 | 1.64 | 420 | 98.13 |
| 33 | 1 | 0.23 | 421 | 98.36 |
| 35 | 2 | 0.47 | 423 | 98.83 |
| 36 | 1 | 0.23 | 424 | 99.07 |
| 38 | 1 | 0.23 | 425 | 99.30 |
| 46 | 1 | 0.23 | 426 | 99.53 |
| 59 | 1 | 0.23 | 427 | 99.77 |
| 60 | 1 | 0.23 | 428 | 100.00 |
1.2 单变量描述
单变量描述是对数值变量进行统计分析的过程,可以计算均值、标准差、最小值、最大值等统计量。
1.2.1 means 过程
代码
MEANS PROCEDURE
| 分析变量: MPG_City MPG (City) | ||||
|---|---|---|---|---|
| 数目 | 均值 | 标准差 | 最小值 | 最大值 |
| 428 | 20.0607477 | 5.2382176 | 10.0000000 | 60.0000000 |
means 过程默认给出均值、标准差、最小值和最大值,但是用户可以指定其他统计量,如下:
Stderr:均数的标准差,即标准误;Sum:合计值;Variance:方差CV:变异系数;Nmiss:缺失变量值的观测例数;Range:极差;USS:平方和;CSS:离均差平方和;T:检验假设为总体均数为 0 的 student-t 检验的检验统计量 t 值;Probt:总体均数为0的检验假设中,值所对应的概率值(P值);Sumweight:权重变量值的和;Skewness:偏度系数;Kurtosis:峰度系数;CLM:双侧 95%置信区间的下限( lclm)和上限( uclm );Median | P50:中位数或 50% 分位数;P1:1%分位数;P5:5%分位数;P10:10% 分位数;Q1 | P25:下四分位数或 25%分位数;Q3 | P75:上四分位数或 75% 分位数:P90:90%分位数;P95:95% 分位数:P99:99%分位数:Qrange:四分位数间距
多个统计量输出示例:
代码
MEANS PROCEDURE
| 分析变量: MPG_City MPG (City) | |||||||
|---|---|---|---|---|---|---|---|
| 数目 | 均值 | 标准差 | 标准误差 | 变异系数 | 均值的95% 置信下限 | 均值的95% 置信上限 | 四分位间距 |
| 428 | 20.0607477 | 5.2382176 | 0.2531988 | 26.1117767 | 19.5630765 | 20.5584188 | 4.5000000 |
1.2.2 保留小数
means 过程给出的结果中,每个统计量均在小数点后保留七位有效数字,可以通过 maxdec 语句改变有效位数,该语句是 means 过程的一个选 项,可加在 proc means 的后面。示例如下:
1.2.3 频数表资料的描述性统计
如果数据已经被整理成频数表资料,means 过程通过 freq 语句定义频数变量,用 var 语句定义组中值变量,同样可以计算简单的描述性统计量。
1.3 univariate 过程
univariate 过程能够给出的描述性统计量比较多,除了上述 means 过程给出的统计量外,它还能输出符号统计量、正态性检验的统计量以及用户自己定义的百分位数,而且可以生成若干个描述变量分布的茎叶图、箱式图、正态概率图等统计图。
代码
UNIVARIATE 过程
变量: x
频数: f
| 矩 | |||
|---|---|---|---|
| 数目 | 118 | 权重总和 | 118 |
| 均值 | 54.5084746 | 观测总和 | 6432 |
| 标准差 | 21.0724212 | 方差 | 444.046936 |
| 偏度 | 0.69543247 | 峰度 | 0.17594659 |
| 未校平方和 | 402552 | 校正平方和 | 51953.4915 |
| 变异系数 | 38.6589817 | 标准误差均值 | 1.93987361 |
| 基本统计测度 | |||
|---|---|---|---|
| 位置 | 变异性 | ||
| 均值 | 54.50847 | 标准差 | 21.07242 |
| 中位数 | 54.00000 | 方差 | 444.04694 |
| 众数 | 42.00000 | 极差 | 96.00000 |
| 四分位间距 | 24.00000 | ||
| 位置检验: Mu0=0 | ||||
|---|---|---|---|---|
| 检验 | 统计量 | p 值 | ||
| Student t | t | 28.09898 | Pr > |t| | <.0001 |
| 符号 | M | 59 | Pr >= |M| | <.0001 |
| 符号秩 | S | 3510.5 | Pr >= |S| | <.0001 |
| 分位数(定义 5) | |
|---|---|
| 水平 | 分位数 |
| 100% 最大值 | 114 |
| 99% | 114 |
| 95% | 102 |
| 90% | 78 |
| 75% Q3 | 66 |
| 50% 中位数 | 54 |
| 25% Q1 | 42 |
| 10% | 30 |
| 5% | 30 |
| 1% | 18 |
| 0% 最小值 | 18 |
| 极值观测 | |||||
|---|---|---|---|---|---|
| 最小值 | 最大值 | ||||
| 值 | 频数 | 观测 | 值 | 频数 | 观测 |
| 18 | 4 | 1 | 66 | 18 | 5 |
| 30 | 17 | 2 | 78 | 12 | 6 |
| 42 | 32 | 3 | 90 | 5 | 7 |
| 54 | 24 | 4 | 102 | 4 | 8 |
| 66 | 18 | 5 | 114 | 2 | 9 |
程序说明:
- 数据集
prg4_6中的变量为x和f; - 调用
univariate过程时,var x;语句指明x为分析变量; freq f,语句表示f为频数变量。
整个分析结果输出的统计量分为五个部分:
- 矩(Moments)、
- 基本统计测度( Basic Statistical Measures)、
- 位置检验( Tests for Location:Mu0=0)、
- 分位数[Quantiles(Definition 5)]
- 和极值观测(Extreme Observations )
矩(Moments)部分的统计量包括:
- 非缺失值的例数(N)
- 权重总和(Sum Weights)
- 均数(Mean)
- 观测总和(Sum Observations)
- 标准差(Std Deviation)
- 方差(Variance)
- 偏度(Skewness,即偏度系数)
- 峰度(Kurtosis,即峰度系数)
- 未校正平方和(Uncorrected SS,即平方和)
- 校正平方和(Corrected SS,即离均差平方和)
- 变异系数(Coeff Variation)
- 标准误差均数(Std Error Mean,即标准误)。
基本统计测度(Basic Statistical Measures)部分统计量包括:
- 均数(Mean)
- 标准差(StdDeviation)
- 中位数(Median)
- 方差(Variance)
- 众数(Mode)
- 极差(Range)
- 四分位极差(Interquartile Range,即四分位数间距)。
位置检验(Tests for Location: Mu0=0)部分的统计量包括:
- Student’s t: 总体均数为0的 student-t 检验的检验统计量u值;
- Pr > |t|: 总体均数为0的t检验中,检验统计量所对应的概率值(P值);
- Sign M: 总体中位数为0的符号检验的检验统计量 M值;
- Pr >= |M|: 总体中位数为0的符号检验中检验统计量所对应的概率值(P值);
- Signed Ranks: 总体中位数为0的符号秩检验的检验统计量S值;
- Pr >= |S|: 总体中位数为0的符号秩检验中,检验统计量所对应的概率值(P值)。
分位数[Quantiles(Definition 5)]部分的统计量包括:
- 100% 分位数( 100% Max,即最大值)
- 99% 分位数
- 95% 分位数
- 90% 分位数
- 75% (即 Q3,上四分位数)
- 50% 分位数(即 Median,中位数)
- 25% 分位数(即 Q1,下四分位数)
- 10% 分位数
- 5% 分位数
- 1% 分位数和 0% 分位数( 0% Min,即最小值)。
极值观测(Extreme Observations)部分列出了五个最小值和五个最大值以及这些值分别对应的频数和观测号。
umivariate 过程除了能够给出几个特定的百分位数,还能输出用户自己定义的百分位数。此时在过程中要使用 output 语句.
代码
UNIVARIATE 过程
变量: x
频数: f
| 矩 | |||
|---|---|---|---|
| 数目 | 118 | 权重总和 | 118 |
| 均值 | 54.5084746 | 观测总和 | 6432 |
| 标准差 | 21.0724212 | 方差 | 444.046936 |
| 偏度 | 0.69543247 | 峰度 | 0.17594659 |
| 未校平方和 | 402552 | 校正平方和 | 51953.4915 |
| 变异系数 | 38.6589817 | 标准误差均值 | 1.93987361 |
| 基本统计测度 | |||
|---|---|---|---|
| 位置 | 变异性 | ||
| 均值 | 54.50847 | 标准差 | 21.07242 |
| 中位数 | 54.00000 | 方差 | 444.04694 |
| 众数 | 42.00000 | 极差 | 96.00000 |
| 四分位间距 | 24.00000 | ||
| 位置检验: Mu0=0 | ||||
|---|---|---|---|---|
| 检验 | 统计量 | p 值 | ||
| Student t | t | 28.09898 | Pr > |t| | <.0001 |
| 符号 | M | 59 | Pr >= |M| | <.0001 |
| 符号秩 | S | 3510.5 | Pr >= |S| | <.0001 |
| 分位数(定义 5) | |
|---|---|
| 水平 | 分位数 |
| 100% 最大值 | 114 |
| 99% | 114 |
| 95% | 102 |
| 90% | 78 |
| 75% Q3 | 66 |
| 50% 中位数 | 54 |
| 25% Q1 | 42 |
| 10% | 30 |
| 5% | 30 |
| 1% | 18 |
| 0% 最小值 | 18 |
| 极值观测 | |||||
|---|---|---|---|---|---|
| 最小值 | 最大值 | ||||
| 值 | 频数 | 观测 | 值 | 频数 | 观测 |
| 18 | 4 | 1 | 66 | 18 | 5 |
| 30 | 17 | 2 | 78 | 12 | 6 |
| 42 | 32 | 3 | 90 | 5 | 7 |
| 54 | 24 | 4 | 102 | 4 | 8 |
| 66 | 18 | 5 | 114 | 2 | 9 |
| 观测 | p2_5 | p97_5 |
|---|---|---|
| 1 | 18 | 102 |
程序说明:
univariate产生的部分统计量输出到新建的数据集中,数据集的名称由out=来定义,本例out=pct就是表示将要新建的数据集名称定为pct。output语句中的选项pctlpts表示需要计算的百分位数,本例需要输出第 2.5% 和第 97.5%分位数;pctlpre表示在新数据集中的变量中百分位数的前缀,本例表示百分位数前缀为p。
1.4 正态性检验
正态性检验是检验数据是否符合正态分布的统计方法,常用的正态性检验方法有 Shapiro-Wilk 检验、Kolmogorov-Smirnov 检验等。
在 SAS 中,可以使用 univariate 过程进行正态性检验,其语法只需要在 proc univariate 语句中加上 normal 选项即可,normal 和 plot 选项,就能输出该组数据正态性检验的结果和茎叶图、箱式图及正态概率图。
UNIVARIATE 过程
变量: MPG_City (MPG (City))
| 矩 | |||
|---|---|---|---|
| 数目 | 428 | 权重总和 | 428 |
| 均值 | 20.0607477 | 观测总和 | 8586 |
| 标准差 | 5.23821764 | 方差 | 27.438924 |
| 偏度 | 2.7820718 | 峰度 | 15.7911473 |
| 未校平方和 | 183958 | 校正平方和 | 11716.4206 |
| 变异系数 | 26.1117767 | 标准误差均值 | 0.25319881 |
| 基本统计测度 | |||
|---|---|---|---|
| 位置 | 变异性 | ||
| 均值 | 20.06075 | 标准差 | 5.23822 |
| 中位数 | 19.00000 | 方差 | 27.43892 |
| 众数 | 18.00000 | 极差 | 50.00000 |
| 四分位间距 | 4.50000 | ||
| 位置检验: Mu0=0 | ||||
|---|---|---|---|---|
| 检验 | 统计量 | p 值 | ||
| Student t | t | 79.22923 | Pr > |t| | <.0001 |
| 符号 | M | 214 | Pr >= |M| | <.0001 |
| 符号秩 | S | 45903 | Pr >= |S| | <.0001 |
| 正态性检验 | ||||
|---|---|---|---|---|
| 检验 | 统计量 | p 值 | ||
| Shapiro-Wilk | W | 0.80784 | Pr < W | <0.0001 |
| Kolmogorov-Smirnov | D | 0.178848 | Pr > D | <0.0100 |
| Cramer-von Mises | W-Sq | 2.686108 | Pr > W-Sq | <0.0050 |
| Anderson-Darling | A-Sq | 14.67298 | Pr > A-Sq | <0.0050 |
| 分位数(定义 5) | |
|---|---|
| 水平 | 分位数 |
| 100% 最大值 | 60.0 |
| 99% | 36.0 |
| 95% | 29.0 |
| 90% | 26.0 |
| 75% Q3 | 21.5 |
| 50% 中位数 | 19.0 |
| 25% Q1 | 17.0 |
| 10% | 15.0 |
| 5% | 14.0 |
| 1% | 12.0 |
| 0% 最小值 | 10.0 |
| 极值观测 | |||
|---|---|---|---|
| 最小值 | 最大值 | ||
| 值 | 观测 | 值 | 观测 |
| 10 | 167 | 36 | 156 |
| 10 | 119 | 38 | 405 |
| 12 | 413 | 46 | 150 |
| 12 | 217 | 59 | 374 |
| 12 | 216 | 60 | 151 |
1.4.1 正态性检验部分”Tests for Normality”
正态性检验部分包括 Shapiro-Wilk 检验以及基于经验分布函数的拟合优度检验:Kolmogorov-Smirnov 检验、Cramer-von Mises 检验、 Anderson-Darling 检验。
样本量
- 当
n≤2000时,选用Shapiro-Wilks检验的检验统计量; - 当
n>2000时则选用Kolmogorov-Smirnov检验的检验统计量。
总体参数 根据总体参数是否已知来选用不同的拟合优度检验及其对应的检验统计量
- 正态分布总体均数和标准差都已知或都未知时上述三种基于经验分布函数的拟合优度检验都可选用;
- 正态分布总体均数和标准差有一者未知时,选用
Cramer-von Mises检验或Anderson-Darling检验。
本例由于样本例数仅为 428,所以选用 Shapiro-Wilks 检验统计量 W=0.80784 所对应的 P= < 0.001,说明该资料不服从正态分布。
1.5 几何均数的计算
SAS 无法直接计算几何均数,必须通过 SAS 语句编写一段程序,用 means 过程或 univariate 过程间接计算出几何均数。
例 4-3 69例类风湿关节炎(RA)患者血清 EBV-VCA-lgG 抗体滴度的分布结果如下,求其平均抗体滴度
| 抗体滴度 | 1:10 | 1:20 | 1:40 | 1:80 | 1:160 | 1:320 | 1:640 | 1:1280 |
|---|---|---|---|---|---|---|---|---|
| 人数 | 4 | 3 | 10 | 10 | 11 | 15 | 14 | 2 |
代码
| 观测 | g |
|---|---|
| 1 | 150.641 |
1.5.1 程序说明:
- 第一步创建数据集
prg4_9;,它有三个变量 x、f 和 y, x 为抗体滴度的倒数, f 为某抗体滴度所对应的频数, y 是 x 的对数(以10为底)。 - 第二步是用
means过程计算y的描述性统计量,将计算所得到的均数输出到数据集 b 中用变量名logmean表示,则数据集 b 有一个变量logmean,一个观测,其值为y的均数。 noprint语句表示不在Output窗口显示means过程的结果;- 第三步新建数据集 c ,调用数据集 b 中的内容,新产生变量 g ,该变量的值为变量
logmean的反对数。 - 第四步将数据集 c 的结果显示在
Output窗口内。
得出这组数据的几何均数为:\(1:150.641\)
1.6 means 过程常用选项和语句
运用 means 和 univariate 过程进行计量资料的统计描述时,可根据需求增加一些选项或语句,以满足用户的输入/输出要求。
1.6.1 means 过程的基本格式
1.6.2 means 过程常用选项
noprint:不在 Output 窗口输出结果,但仍然将结果输出到数据集中;maxdec=: 指定输出结果的小数点后有效位数,默认是 7 位,常用有maxdec=2、maxdec=4等;alpha=value: 用于指定均数置信区间的置信水平,默认值为 0.05.missing: 将class语句所指定变量的缺失值作为合法的水平用以创建代表分组的组合,否则class语句所指定变量为缺失值的观测将会被排除在分析过程之外.
1.6.3 means 过程的常用语句
by: 用于指定分组变量,以便按照该变量将输人数据集分割为多个子数据集,从而在各子数据集内分别执行相应的分析过程,使用该语句前需使用sort过程对输人数据集进行排序。可以在by语句中设置notsorted或descending选项,前者表示数据未按照by语句所指定变量进行排列,后者是在输人数据集时先按照by语句所指定变量进行降序排列时使用.class: 也用于指定分组变量,但其作用与by语句稍有不同。每一个class语句所指定变量的水平或多个class语句所指定变量的每一个水平组合均定义一个分组,有关全体样本和各分组内样本的相应统计量均会被计算并显示.
1.7 univariate 过程常用选项和语句
1.7.1 univariate 过程的基本格式
1.7.2 univariate 过程常用选项
data = 输入资料文件名称指明到底对那一个资料文件进行分析,若省略此选项则 SAS 会自动找出在本程序之前最后形成的资料文件并对它进行分析。noprint使用此选项分析结果将不在 result 里输出。plot使用此选项UNIVARIATE过程将产生三种图形:茎叶图 (Stem-And-Leaf Plot) 、平行条状图 (Horizontal Bar Chart)、盒状图(Box Plot)、正态分布拟合图 (Normal Probability Plot)cibasic选项 以正态分布为基础,为均数、标准差、方差等计算置信区间,该选项还可以设定次级选项设定置信区间类型及置信区间的置信水平。cipctldf选项以非参数方法为各分位数计算置信区间,该选项的用法和功能与cibasic类似。cipctdfnormal选项以正态分布假设为基础为各分位数计算置信区间,该选项的用法和功能与cibasic类似
1.7.3 univariate 过程常用语句
- histogram语句 该语句用于对指定的变量绘制高分辨率的直方图,同时还可以为直方图添加分布密度曲线。在一个
univariate过程中可以同时调用多条histogram语句,同时还可以为histogram语句设定相应的变量及选项来对生成的图形进行相应的调整。 probplot语句 该语句用于对指定变量绘制高分辨率的概率图。与histogram语句一样,该语句也可以指定对应的分析变量及控制选项来执行不同的控制功能。qqplot语句 该语句用于对指定变量绘制高分辨率的 q-q 图,用于判断数据是否符合所指定的理论分布。该语句的用法与probplot语句类似,也可设定相应的变量及控制选项。ppplot语句 该语句用于对指定变量绘制高分辨率的 p-p 图,用于判断数据是否符合所指定的理论分布。该语句的用法与probplot语句类似,也可设定相应的变量及控制选项。cdfplot语句 该语句用于对指定变量绘制高分辨率的经验分布函数图,用于判断数据是否符合所指定的理论分布。该语句的用法与probplot语句类似,也可设定相应的变量及控制选项。
1.7.4 直方图示例
1.7.5 正态拟合曲线
加一个 NORMAL 选项则在直方图上面加了一根拟合后的正态分布图,并且还增加了拟合正太分布的参数估计、拟合优度、分位数,这里的括号中的意思可理解为均值(MU)和标准差(SIGMA)的值为原始数据本身的均值和标准差.
代码
UNIVARIATE 过程
UNIVARIATE 过程
“Height”的拟合正态分布
| “正态”分布的参数 | ||
|---|---|---|
| 参数 | 符号 | 估计 |
| 均值 | Mu | 15.18321 |
| 标准差 | Sigma | 1.964707 |
| “正态”分布的拟合优度检验 | ||||
|---|---|---|---|---|
| 检验 | 统计量 | p 值 | ||
| Kolmogorov-Smirnov | D | 0.06967244 | Pr > D | >0.150 |
| Cramer-von Mises | W-Sq | 0.03567178 | Pr > W-Sq | >0.250 |
| Anderson-Darling | A-Sq | 0.29075434 | Pr > A-Sq | >0.250 |
| “正态”分布的分位数 | ||
|---|---|---|
| 百分比 | 分位数 | |
| 观测 | 估计 | |
| 1.0 | 11.5200 | 10.6126 |
| 5.0 | 12.3778 | 11.9516 |
| 10.0 | 12.4800 | 12.6653 |
| 25.0 | 13.9129 | 13.8580 |
| 50.0 | 14.9544 | 15.1832 |
| 75.0 | 16.3618 | 16.5084 |
| 90.0 | 18.0840 | 17.7011 |
| 95.0 | 18.7542 | 18.4149 |
| 99.0 | 18.9570 | 19.7538 |
1.7.6 实际数据核分布的密度曲线
代码
UNIVARIATE 过程
UNIVARIATE 过程
“Height”的拟合正态分布
| “正态”分布的参数 | ||
|---|---|---|
| 参数 | 符号 | 估计 |
| 均值 | Mu | 15.18321 |
| 标准差 | Sigma | 1.964707 |
| “正态”分布的拟合优度检验 | ||||
|---|---|---|---|---|
| 检验 | 统计量 | p 值 | ||
| Kolmogorov-Smirnov | D | 0.06967244 | Pr > D | >0.150 |
| Cramer-von Mises | W-Sq | 0.03567178 | Pr > W-Sq | >0.250 |
| Anderson-Darling | A-Sq | 0.29075434 | Pr > A-Sq | >0.250 |
| “正态”分布的分位数 | ||
|---|---|---|
| 百分比 | 分位数 | |
| 观测 | 估计 | |
| 1.0 | 11.5200 | 10.6126 |
| 5.0 | 12.3778 | 11.9516 |
| 10.0 | 12.4800 | 12.6653 |
| 25.0 | 13.9129 | 13.8580 |
| 50.0 | 14.9544 | 15.1832 |
| 75.0 | 16.3618 | 16.5084 |
| 90.0 | 18.0840 | 17.7011 |
| 95.0 | 18.7542 | 18.4149 |
| 99.0 | 18.9570 | 19.7538 |
1.7.7 plot
plot 选项,在结果中增加了分析变量数据的分布图、盒形图、以及概率图.
代码
UNIVARIATE 过程
变量: Height
| 矩 | |||
|---|---|---|---|
| 数目 | 35 | 权重总和 | 35 |
| 均值 | 15.1832114 | 观测总和 | 531.4124 |
| 标准差 | 1.96470673 | 方差 | 3.86007253 |
| 偏度 | 0.24174068 | 峰度 | -0.5914026 |
| 未校平方和 | 8199.78929 | 校正平方和 | 131.242466 |
| 变异系数 | 12.9399945 | 标准误差均值 | 0.33209605 |
| 基本统计测度 | |||
|---|---|---|---|
| 位置 | 变异性 | ||
| 均值 | 15.18321 | 标准差 | 1.96471 |
| 中位数 | 14.95440 | 方差 | 3.86007 |
| 众数 | . | 极差 | 7.43700 |
| 四分位间距 | 2.44890 | ||
| 位置检验: Mu0=0 | ||||
|---|---|---|---|---|
| 检验 | 统计量 | p 值 | ||
| Student t | t | 45.71934 | Pr > |t| | <.0001 |
| 符号 | M | 17.5 | Pr >= |M| | <.0001 |
| 符号秩 | S | 315 | Pr >= |S| | <.0001 |
| 分位数(定义 5) | |
|---|---|
| 水平 | 分位数 |
| 100% 最大值 | 18.9570 |
| 99% | 18.9570 |
| 95% | 18.7542 |
| 90% | 18.0840 |
| 75% Q3 | 16.3618 |
| 50% 中位数 | 14.9544 |
| 25% Q1 | 13.9129 |
| 10% | 12.4800 |
| 5% | 12.3778 |
| 1% | 11.5200 |
| 0% 最小值 | 11.5200 |
| 极值观测 | |||
|---|---|---|---|
| 最小值 | 最大值 | ||
| 值 | 观测 | 值 | 观测 |
| 11.5200 | 1 | 18.0369 | 31 |
| 12.3778 | 3 | 18.0840 | 32 |
| 12.4440 | 5 | 18.6354 | 34 |
| 12.4800 | 2 | 18.7542 | 33 |
| 12.6700 | 8 | 18.9570 | 30 |
UNIVARIATE 过程
UNIVARIATE 过程
“Height”的拟合正态分布
| “正态”分布的参数 | ||
|---|---|---|
| 参数 | 符号 | 估计 |
| 均值 | Mu | 15.18321 |
| 标准差 | Sigma | 1.964707 |
| “正态”分布的拟合优度检验 | ||||
|---|---|---|---|---|
| 检验 | 统计量 | p 值 | ||
| Kolmogorov-Smirnov | D | 0.06967244 | Pr > D | >0.150 |
| Cramer-von Mises | W-Sq | 0.03567178 | Pr > W-Sq | >0.250 |
| Anderson-Darling | A-Sq | 0.29075434 | Pr > A-Sq | >0.250 |
| “正态”分布的分位数 | ||
|---|---|---|
| 百分比 | 分位数 | |
| 观测 | 估计 | |
| 1.0 | 11.5200 | 10.6126 |
| 5.0 | 12.3778 | 11.9516 |
| 10.0 | 12.4800 | 12.6653 |
| 25.0 | 13.9129 | 13.8580 |
| 50.0 | 14.9544 | 15.1832 |
| 75.0 | 16.3618 | 16.5084 |
| 90.0 | 18.0840 | 17.7011 |
| 95.0 | 18.7542 | 18.4149 |
| 99.0 | 18.9570 | 19.7538 |