2.3.2 描述性统计分析
在对一组数据进行分析之前,需要对数据进行描述性统计分析,以了解不同变量的分布情况,然后再进行深入分析。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、数据分布以及一些基本的统计图形。
(1)描述性统计分析的作用
● 频数分析。利用频数分析和交叉频数分析可以检验异常值。
● 趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
● 离散程度分析。用来反映数据之间的差异程度,常用的指标有方差和标准差。
● 数据分布。利用偏度和峰度两个指标来检查样本数据是否符合正态分布。
● 图形绘制。用图形的形式来表达数据,比用文字表达更清晰、更简明。
(2)案例分析
某网站平台的专题运营活动结束后,需要对活动期间的登录用户数和付费金额(单位:元)的平均值、最大最小值等进行统计,作为分析每天登录人数和付费金额的价值以及数据波动的一个衡量的依据。要求得到平均值、标准误差(相对于平均值)、中值、众数、标准偏差等统计指标。活动期间登录用户数和付费金额数据如表2-22所示。
表2-22 登录用户数和付费金额表
(3)操作步骤
1)单击“数据|分析|数据分析”,在“数据分析”对话框中选择“描述统计”选项,然后单击“确定”按钮。
2)如图2-141所示,在“描述统计”对话框进行参数设置,输入区域选择登录用户数和付费金额所属区域$B$1:$C$11(包含标题),勾选“标志位于第一行”选项,输出区域选择单元格$F$2,勾选“汇总统计”“平均数置信度”“第K大值”“第K小值”选项。
图2-141 “描述统计”对话框
3)登录用户数和付费金额的描述性统计结果如图2-142所示。
图2-142 “描述统计”分析结果
(4)描述性统计的指标解释
汇总统计的指标包括平均值、标准误差、中位数、众数、标准差、方差、峰值、偏度、区域、最小值、最大值、求和、观测数、最大K值、最小K值和置信度等指标。
● 平均值:一组数据之和除以数据的个数。
● 标准误差:标准差除以样本容量的开平方来计算的。
● 中位数:排序后位于中间的数据的值。
● 众数:出现次数最多的值。
● 标准差:各个数据分别与其平均数之差的平方的和的平均数的平方根。标准差是反映一组数据离散程度最常用的一种量化形式,是表示精确度的重要指标。
● 方差:各个数据分别与其平均数之差的平方的和的平均数。
● 峰值:衡量数据分布起伏变化的指标,以正态分布为基准,比其平缓时值为正,反之则为负。
● 偏度:衡量数据峰值偏移的指数,根据峰值在均值左侧或者右侧分别为正值或负值。● 区域:最大值与最小值的差值。
● 最小值:一组数据中的值最小的数据。
● 最大值:一组数据中的值最大的数据。
● 求和:一组数据中所有数据的和。
● 观测数:一组数据中所有数据的个数。
● 第K大(小)值:输出表的某一行中包含每个数据区域中的第K个最大(小)值。
● 置信度:总体均值区间估计的置信度。95%指的是总体均值有95%的可能性在计算出的区间中。