第 1 章 导 论
一、统计学
1 .统计学
统计学是收集、处理、分析、解释数据并从数据中得出结论的科学,其目的是探索数据内在的数量规律性。
数据收集是取得统计数据; 数据处理是将数据用图表等形式展示出来;数据分析则是选择适当的统计方法研 究数据,并从数据中提取有用信息进而得出结论。
2 .数据分析所用的方法
(1)描述统计:研究数据收集、处理、汇总、图表描述、概括与分析的统计方法;
(2)推断统计:研究如何利用样本资料来推断总体特征的统计方法。
3 .统计学的应用领域
(1)企业发展战略
(2)产品质量管理
(3)市场研究
(4)财务分析
(5)经济预测
(6)人力资源管理
二、 统计数据的类型
1 .分类数据、顺序数据、数值型数据(按计量尺度不同分类)
(1)分类数据:只能归于某一类别的非数字型数据,是对事物进行分类的结果,数据表现为类别, 一般用 文字来表述;
(2)顺序数据:只能归于某一有序类别的非数字型数据,数据表现为类别,但类别有序;
(3)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数都是数值 型数据。
关系:(1)分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别, 因而也可统称为定性数据或称品质数据;数值型数据说明的是现象的数量特征, 通常是用数值来表现的, 因此也 可称为定量数据或数量数据;(2)对不同类型的数据,可采用不同的统计方法来处理和分析。例如,对分类数据 可以计算出各类别的频率, 但对其进行加、减、乘或除等数学运算是没有意义的。而数值型数据则可以进行数学 运算,比如计算均值和方差等统计量。
2 .观测数据和实验数据(按收集方法分类)
(1)观测数据:通过直接调查或观测而收集到的数据, 这类数据是在没有对事物人为控制的条件下得到的; (2)实验数据:在实验中控制实验对象以及所处的实验环境而收集到的数据。
3 .截面数据和时间序列数据(按被描述的现象与时间的关系分类)
(1)截面数据:又称为静态数据,它是指在同一时间对同一总体的数量进行观察而获得的数据,这类数据 通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况;
(2)时间序列数据:又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据, 这类数据是按时间顺序收集到的,用于描述现象随时间变化的情况。
三、 统计中的几个基本概念
1 .总体和样本
(1)总体
①总体、个体
总体是包含所研究的全部个体(数据) 的集合, 它通常由所研究的一些个体组成。组成总体的每一个元素称
为个体。
②总体的分类
根据总体所包含的单位数目是否可数可以分为:
a .有限总体:指总体的范围能够明确确定,而且元素的数目是有限可数的;
b .无限总体: 指总体所包括的元素是无限的,不可数的。
(2)样本、样本量
①样本:从总体中抽取的部分单位组成的集合;
②样本量:构成样本的单位的数目。
2 .参数和统计量
(1)参数
参数是用来描述总体特征的概括性数字度量, 它是研究者想要了解的总体的某种特征值。研究者所关心的参 数通常有总体平均数、总体标准差、总体比例等,参数是一个未知的常数。
(2)统计量
统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的, 因此统计量是样本的函数。研究者所关心的统计量主要有样本平均数、样本标准差、样本比例等,统计量不含任 何未知的参数。
3 .变量
(1)变量、变量值
①变量: 说明现象某种特征的概念, 其特点是从一次观察到下一次观察结果会呈现出差别或变化,可以有两 个或更多个可能的取值。
②变量值:变量的具体取值。
(2)变量的类型
①分类变量
是说明事物类别的一个名称,其取值是分类数据。
②顺序变量
是说明事物有序类别的一个名称,其取值是顺序数据。
③数值型变量
是说明事物数字特征的一个名称,其取值是数值型数据。根据其取值的不同,又可以分为:
a .离散型变量:只能取可数值的变量,它只能取有限个值,而且其取值都以整位数断开,可以一一列举; b .连续型变量:可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举。
(3)变量的其他分类
①随机变量、非随机变量
②经验变量、理论变量
经验变量所描述的是周围环境中可以观察到的事物;理论变量是由统计学家用数学方法所构造出来的一些变 量。
第 2 章 数据的搜集
一、数据的来源
1 .数据的直接来源
数据的直接来源是指通过直接调查或实验活动直接获得一手数据,直接来源的数据又分为调查数据和实验数 据。它们的不同之处在于:
(1)调查数据为通过调查方法得到的数据,而实验数据为通过实验方法得到的数据。
(2)调查数据通常是针对社会现象而获取的,而实验数据大多是针对自然现象而获取的;
(3)调查数据通常取自有限总体,即总体所包含的个体单位是有限的;而实验数据是指在实验中通过控制 实验对象所搜集到的变量的数据。
2 .数据的间接来源
(1)间接来源的数据(二手资料)
如果与研究内容有关的原信息已经客观存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可 以使用的数据,则称为间接来源的数据。
(2)二手资料的优点
搜集方便;数据采集快;采集成本低。
(3)二手资料的作用
分析所要研究的问题; 提供研究问题的背景, 帮助研究者更好地定义问题, 检验和回答某些假设和疑问, 寻 找研究问题的思路和途径。
(4)二手资料的局限性
针对性不够;资料的相关性不够;口径可能不一致;数据也许不准确,也许过时等。
(5)对二手资料进行评估的内容
①资料是谁搜集的?数据搜集者的实力和社会信誉度会在一定程度上影响数据说服力; ②搜集的目的是什么?为了某种特殊的利益而搜集的数据是值得怀疑的;
③数据是怎样搜集的?搜集数据的方法有很多,不同方法所采集到的数据,其解释力和说服力都是不同的。 如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。数据的质量来源于数据的产生过程;
④什么时候搜集的?过时的数据的说服力会受到质疑。
(6)使用二手数据的注意事项
使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据 时,应注明数据的来源,以尊重他人的劳动成果。
二、调查方法
1 .概率抽样和非概率抽样
(1)概率抽样
概率抽样(随机抽样):指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。 ①概率抽样的特点
a .抽样时是按一定的概率以随机原则抽取样本,随机原则就是在抽取样本时排除主观上有意识地抽取调查 单位,使每个单位都有一定的机会被抽中;
b .每个单位被抽中的概率是已知的,或是可以计算出来的;
c .当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。
②概率抽样的优点
概率抽样最主要的优点是可以依据调查结果, 计算估计量误差, 从而得到对总体目标量进行推断的可靠程度。 还可以按照要求的精确度,计算必要的样本单位数目。 这些为统计估计结果的评估提供了有力的依据。
③概率抽样与等概率抽样的区别
概率抽样是指总体中的每个单位都有一定的非零概率被抽中, 单位之间被抽中的概率可以相等, 也可以不等。
等概率抽样是指总体中的每个单位都以相等的非零概率被抽中,如果单位之间被抽中的概率不等,则称为不 等概率抽样。
④概率抽样的方式
a .简单随机抽样
抽样框: 抽样框通常包括所有总体单位的信息, 它不仅提供了备选单位的名单以供抽选, 还是计算各个单位 入样概率的依据。
简单随机抽样:也称为纯随机抽样,指从包括总体 N 个单位的抽样框中随机地、 一个一个地抽取 n 个单位 作为样本,每个单位的入样概率是相等的。简单随机抽样是一种最基本的抽样方法,是其他抽样方法的基础。
特点:简单、直观,在抽样框完整时, 可以直接从中抽取样本,由于每个单位被选中概率相同, 能比较方便 的用样本统计量对目标量进行估计及计算估计量误差。
局限性:第一,它要求将包含所有总体单位的名单作为抽样框,当总体单位个数 N 很大时, 很难构造这样 的抽样框;第二, 根据这种方法抽出的单位很分散, 给实施调查增加了困难;第三,没有利用其他辅助信息以提 高估计的效率。
b .分层抽样
概念:分层抽样是将抽样单位按某种特征或某种规则划分为不同的层, 然后从不同的层中独立、随机地抽取 样本,将各层的样本结合起来,对总体的目标量进行估计。
优点:第一,保证样本中含有总体各种特征的抽样单位, 样本的结构与总体的结构相近, 有效地提高估计的 精度; 第二, 在一定条件下使组织实施调查更加方便(当层的划分是按行业或行政区划进行时);第三,在对总 体参数进行估计的同时, 也可以对各层的目标量进行估计等等。
缺点: 整体差异不明显时不适用,在使用时需要与其他抽样方法综合使用。
c .整群抽样
概念: 将总体中若干个单位合并为组, 这样的组称为群。抽样时直接抽取群, 然后对中选群中的所有单位全 部实施调查,这样的抽样方法称为整群抽样。
优点: 与简单随机抽样相比,整群抽样的优点在于简化了编制抽样框的工作量,并且调查的地点相对集中, 减少调查费用,易于调查实施。
缺点: 整群抽样的主要缺点是估计的精度较差。在样本量相同的情况下,整群抽样的
抽样误差通常比较大,所以要得到与简单随机抽样相同的精度,需要增加基本调查单位。
d .系统抽样
概念: 将总体中的所有单位(抽样单位) 按一定顺序排列, 在规定的范围内随机地抽取一个单位作为初始单 位,然后按事先制定好的规则确定其他样本单位,这种抽样方法称为系统抽样。
优点:操作简便,如果有辅助信息,对总体内的单位进行有组织的排列, 可以有效地提高估计的精度。
缺点:对估计量方差的估计比较困难。
e .多阶段抽样
概念:采用类似整群抽样的方法, 首先抽取群, 但并不是调查群内的所有单位,而是再进一步抽样, 从选中 的群中抽取出若干个单位进行调查。因为取得这些接受调查的单位需要两个步骤, 所以将这种抽样方式称为二阶 段抽样, 将这种方法推广,使抽样的阶段数增多,就称为多阶段抽样。
优点:具有整群抽样的优点。第一,样本相对集中, 减少调查费用; 第二, 不需要包含所有低阶段抽样单位 的抽样框; 第三, 由于实行了再抽样,使调查单位在更广泛的范围内展开。
适用范围: 在较大规模的抽样调查中,多阶段抽样是经常被采用的方法。
(2)非概率抽样
非概率抽样是相对于概率抽样而言的, 指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求, 采用某种方式从总体中抽出部分单位对其实施调查。
表 2- 1 非概率抽样的方式
抽样方式 | 概念 | 优点 | 缺点 | 举例 |
方便抽样 | 调查员根据方便原则,以最大
限度降低调查成本的目的,自 行确定作为样本的单位 |
容易实施,调查成本低 | 样本单位的确定
随意,不能对总体 参数进行推断 |
“拦截式 ”调查 |
判断抽样 | 调查员根据经验和对研究对象 的了解,有目的地选择样本 | 抽样成本低,易于操作 | 样本人为确定,不
能对总体参数进 行推断 |
“平均型 ”,“众 数型 ”样本 |
自愿样本 | 被调查者自愿参加, 向调查人 员提供有关信息 | 提供许多有价值的信
息,反映某类群体的一 般看法 |
样本有偏,不能对
总体参数进行推 断 |
网上调查 |
滚雪球抽样 | 选择一组调查单位, 对其实施 调查后,再调查他们提供另外 一些属于研究总体的调查对象 | 容易找到属于特定群
体的被调查者,调查成 本较低 |
耗时长,不能对总 体参数进行推断 | 微信朋友圈转发 问卷 |
配额抽样 | 将总体中的所有单位分为若干
类,然后在每个类中采用方便 抽样或判断抽样的方式选取样 本单位 |
操作简单,样本的结构 和总体的结构相似 | 可能出现偏斜的
情况,不能对总体 参数进行推断 |
按年龄性别配额 分配样本 |
(3)概率抽样与非概率抽样的比较
①概率抽样是依据随机原则抽选样本, 样本统计量的理论分布存在, 而非概率抽样不是依据随机原则抽选样 本,样本统计量的分布是不确切的。
②概率抽样可以根据调查的结果对总体的有关参数进行估计, 计算估计误差, 得到总体参数的置信区间, 而 非概率抽样无法做到这些。
③概率抽样适合调查目的在于掌握研究对象总体的数量特征的调查, 而非概率抽样适合探索性的研究, 调查 的结果用于发现问题,为更深入的数量分析做准备。
④概率抽样的技术含量高, 要求有较高的统计学专业知识, 调查的成本比较高, 而非概率抽样操作简便, 时 效快,成本低,对抽样中的统计专业技术要求不是很高。
2 .搜集数据的基本方法
样本单位确定之后, 对这些单位实施调查, 即从样本单位那里得到所需要的数据, 可以采用不同的方法,搜 集数据的基本方法有以下几种。
表 2-2 搜集数据的基本方法
类型 | 方法介绍 | 优点 | 缺点 |
自填式 | 指在没有调查 员协助的情况 下由被调查者 自己填写, 完成 调查问卷 | ①调查员组织管理相对容易;
②调查成本最低,增大样本量对调查费 用影响很小,可进行大范围的调查; ③减小被调查者回答敏感性问题的压力 |
①不适合结构复杂的问卷,对调查的内 容有局限;
②调查周期比较长; ③难以及时调改措施解决数据收集出 现的问题; ④问卷回收率比较低 |
面访式 | 指现场调查中 调查员与被调 查者面对面,调 查员提问、被调 查者回答 | ①提高调查的回答率;
②提高调查数据的质量, 利于识字率低 的群体调查; ③调查问题组合更科学合理; ④可借助其他调查工具(图片、卡片等) 丰富调查内容; ⑤可对花费时间进行调节 |
①调查成本高;
②对调查过程的质量控制有一定难度; ③对于敏感性问题,被调查者可能不愿 当面回答 |
电话式 | 指调查人员通 过打电话的方 式向被调查者 实施调查 | ①速度快,能够在很短的时内完成调查; ②成本低廉,适合样本单位分散情况; ③为调查员提供安全保障;
④可及时处理调查中遇到的问题,调查 督导对访问实施监听容易 |
①电话使用率不高的地区,电话调查会
受限制; ②电话式访问的时间不宜过长; ③答案过多会造成调查进度的延缓,被 调查者容易挂断电话; ④被访者不愿意接受调查时,要说服调 查更为困难 |
观察式 | 调查人员通过 直接观测的方 法获取信息 | —— | —— |
3 .数据搜集方法的选择
选择数据搜集方法时需要考虑的问题有:①抽样框中的有关信息;②目标总体的特征;③调查问题的内容; ④有形辅助物的使用;⑤实施调查的资源;⑥管理与控制;⑦质量要求。
三种搜集数据方法的特点如表 2-3 所示。
表 2-3 搜集数据不同方法的特点
项目 | 自填式 | 面访式 | 电话式 |
调查时间 | 慢 | 中等 | 快 |
调查费用 | 低 | 高 | 低 |
问卷难度 | 要求容易 | 可以复杂 | 要求容易 |
有形辅助物的使用 | 中等利用 | 充分利用 | 无法利用 |
调查过程控制 | 简单 | 复杂 | 容易 |
调查员作用的发挥 | 无法发挥 | 充分发挥 | 一般发挥 |
回答率 | 最低 | 较高 | 一般 |
三、 实验方法
搜集数据的另一类方法是通过实验, 在实验中控制一个或多个变量, 在有控制的条件下得到观测结果。实验 数据是指在实验中控制实验对象而搜集到的变量的数据。
1 .实验组和对照组
实验法的基本逻辑: 有意识地改变某个变量的情况(设为 A 项),然后看另一个变量变化的情况(设为 B 项)。 如果 B 项随着 A 项的变化而变化, 就说明 A 项对 B 项有影响。为此,需要将研究对象分为两组,一个为实验组, 一个为对照组。
实验组:指随机抽选的实验对象的子集。在这个子集中,每个单位接受某种特别的处理。 对照组:每个单位不接受实验组成员所接受的某种特别的处理。
匹配:指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组。 随机: 实验组和对照组的产生应遵循随机原则,即将实验单位随机地分配到实验组和随机组。
一个好的实验, 实验组和对照组的产生不仅应该是随机的,而且应该是匹配的。
2 .实验中的若干问题
实验法的逻辑严密,是证明假设、分析事物因果关系的一个良好方式。但在实验过程中也会遇到一些问题: (1)人的意愿;(2)心理问题;(3)道德问题。
3 .实验中的统计
(1)统计在实验过程中的作用
①确定进行实验所需要的单位的个数,以保证实验可以达到统计显著的结果;
②将统计的思想融入实验设计,使实验设计符合统计分析的标准;
③提供尽可能最有效的能同时研究几个变量影响的方法。
(2)一个好的实验,应该在两个方面都有效:
①内部的有效性
内部的有效性意味着实验测量的准确性。实验的目的是要考察自变量和因变量之间的因果关系, 而如果实验 观察结果受到其他无关变量的影响,就很难推断自变量与因变量之间的因果关系。
②外部的有效性
外部的有效性决定是否可以将实验中发现的因果关系进行推广,即能否将结果推广到实验环境以外的情况。
四、 数据的误差
数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。
1 .数据误差类型
据的误差有两类: 抽样误差和非抽样误差。抽样误差是由抽样的随机性引起的样本结果与总体真值之间的差 异。非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由其他原因引起的样本观察结果与总体真值之 间的差异。
抽样误差是一种随机性误差, 只存在于概率抽样中; 非抽样误差则不同, 无论是概率抽样、非概率抽样, 还 是在全面调查中,都有可能产生非抽样误差。
表 2-4 两种误差类型
误差类型 | 产生原因 | 举例 | |
抽样误差 | 由于抽样的随机性引起的样本结果与总体真值之间的差异 | ||
非抽样
误差 |
抽样框误差 | 目标总体和抽样总体不一致 时产生的误差 | 以电话号码簿作为抽样框,在对某地 区所有住户进行某种意向调查时,就 存在着抽样框误差 |
回答误差 | ①理解误差,不同被调查者 对调查问题的理解不同 | 如在调查中使用“经常”“频繁”“偶 尔 ”等词 | |
②记忆误差,回忆长时间数 据可能不准确 | 对于记忆类问题的调查 | ||
③有意识误差, 调查问题敏 感,不愿意告知;受利益 驱动, 进行数字造假 | 调查纳税情况时,被调查者往往高 报,以表现自己没有漏税行为 | ||
无回答误差 | ①随机因素造成 | 邮寄的问卷丢失,或调查时被访者正 在生病,无法接受调查 | |
②非随机因素造成 | 被调查者不愿告诉实情而拒绝回答 | ||
调查员误差 | 由于调查员的原因而产生的 调查误差 | 调查员粗心,在记录调查结果时出现 错误 | |
测量误差 | 由于测量工具产生的误差 | 视力的测定与现场的灯光、测试距离 都有密切关系 |
2 .数据误差影响因素
(1)影响抽样误差大小因素
①抽样单位的数目。在其他条件不变的情况下, 抽样单位的数目越多, 抽样误差越小; 抽样单位的数目越少, 抽样误差越大。这是因为随着样本数目的增多, 样本结构越接近总体。抽样调查也就越接近全面调查。当样本扩 大到总体时,则为全面调查,也就不存在抽样误差了。
②总体的变异性。总体的变异性越大, 即各单位之间的差异越大, 抽样的误差也就越大; 反之, 总体的变异 性越小, 各单位之间越相似,抽样误差也就越小。如果所有的单位完全一样, 调查一个就可以精确无误地推断总 体,抽样误差也就不存在了。
③抽样方法的选择。重复抽样和不重复抽样的抽样误差的大小不同。采用不重复抽样比采用重复抽样的抽样 误差小。
④抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本, 对于总体的代表性不同。通常将抽样误差作为比较各种抽样组织方式优劣的标准。
(2)影响非抽样误差大小因素
现实生活中有很多原因造成非抽样误差,如抽样框误差,无回答误差等等。
3 .误差的控制
(1)抽样误差的控制
抽样误差是由于抽样的随机性带来的, 只要采用概率抽样,抽样误差就不可避免,控制抽样误差的主要方法 是改变样本量,要求的抽样误差越小,所需要的样本量就越大。
(2)非抽样误差的控制
非抽样误差与抽取样本的随机性无关, 因而在概率抽样和非概率抽样中都会存在(但抽样框误差仅在概率抽 样中存在)。有很多原因造成非抽样误差,因此控制起来比较困难。 这里仅介绍几种简单方法。
①对于抽样框误差, 构造抽样框时广泛地搜集有关信息, 改进抽样框;
②对于无回答误差,可以从以下两方面进行控制。一方面是预防,即在调查前做好各方面的准备工作, 尽量 把无回答降到最低程度。另一方面, 当无回答出现后, 分析无回答产生的原因, 采取一些补救措施。例如, 在无 回答单位中再抽取一个样本, 实施更有力的调查, 并以此作为无回答层的代表, 和回答层的数据结合起来对总体 进行估计;
③对于理解误差, 要注意问卷中的措辞, 一份好的调查问卷可以有效地减少理解调查误差, 做好问卷设计是 减少非抽样误差的一个方面;
④对于记忆误差,要缩短调查所涉及的时间间隔;
⑤对于有意识误差, 要注重对调查过程进行控制的具体措施,对调查结果进行检验、评估, 对现场调查人员 进行奖惩的制度等。
第 3 章 数据的图表展示
一、数据的预处理
数据的预处理是在对数据分类或分组之前所做的必要处理,包括数据的审核、筛选、排序等。
1 .数据审核
数据审核是检查数据中是否有错误。
(1)原始数据主要从完整性和准确性两个方面去审核
①完整性审核:检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等; ②准确性审核:检查数据是否有错误,是否存在异常值等。
异常值的鉴别:如果异常值属于记录时的错误, 在分析之前应予以纠正;如果异常值是一个正确的值,则应 予以保留。
(2)二手数据着重审核数据的适用性和时效性
①弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要,不能 盲目生搬硬套;
②对于一些时效性较强的问题,如果所取得的数据过于滞后,就可能失去研究的意义。
2 .数据筛选
数据筛选是根据需要找出符合特定条件的某类数据,可借助计算机自动完成。
3 .数据排序
(1)数据排序的概念
数据排序是按一定顺序将数据排列, 方便研究者通过浏览数据发现一些明显的特征或趋势, 找到解决问题的 线索。 分类数据和数值型数据均可进行数据排序,数值型数据经过排序后的数据称为顺序统计量。
(2)数据排序的作用
①有助于对数据检查纠错;
②为重新归类或分组等提供方便;
③在某些场合,排序本身就是分析的目的之一。
二、 品质数据的整理与展示
1 .分类数据的整理与图示
分类数据本身就是对事物的一种分类,为对数据及其特征有一个初步的了解,在整理时首先列出所分的类别, 然后计算出每一类别的频数、频率或比例、比率等, 形成一张频数分布表, 最后根据需要选择适当的图形进行展 示。
(1)频数与频数分布
①频数与频数分布
频数又称为次数, 是各组占有的单位个数,将总体所有单位按一定标志进行归类排列,称为频数分布。频数 (频率) 愈大的组所对应的标志值,它对于总体标志平均水平所起的作用也愈大; 反之,频数(频率) 愈小的组 所对应的标志值对于总体标志平均水平所起的作用也愈小。
②列联表和交叉表
由两个或两个以上变量交叉分类的频数分布表也称为列联表。
二维的列联表(两个变量交叉分类)也称为交叉表。
③比例(构成比)、百分比和比率
比例是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构。 将比例乘以 100 得到的结果称为百分比, 用%表示。比率是样本(或总体)中各不同类别数据之间的比值,其比 值可能大于 1。
(2)分类数据的图示
统计图是统计数据直观的表现形式, 可以将复杂的数据用生动的图形表现出来, 因而绘制并使用好统计图就
成为统计分析的基本功。常见的分类数据展示图形有条形图、 帕累托图、饼图、环形图等。 ①条形图
指用宽度相同的条形的高度或长短来表示数据多少的图形。可以横置或纵置, 纵置时也称为柱形图。条形图 有简单条形图、 复式条形图等形式。
②帕累托图
指按各类别数据出现的频数多少排序后绘制的条形图。通过对条形的排序,容易看出哪类数据出现得多,哪 类数据出现得少。
③饼图
指用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体) 中各组成部分的数 据占全部数据的比例。
④环形图
指把饼图叠在一起,挖去中间的部分形成的图形。
环形图与饼图类似,但又有区别。环形图中间有一个“空洞 ”,每个样本用一个环来表示,样本中的每一部 分数据用环中的一段表示。因此环形图可显示多个样本各部分所占的相应比例,适用于比较研究。
2 .顺序数据的整理与图示
分类数据的频数分布表和图示方法, 如频数、比例、百分比、比率、条形图和饼图等, 也都适用于对顺序数 据的整理与图示。但一些适用于顺序数据的整理和图示方法, 并不适用于分类数据。对于顺序数据,还可以计算 累积频数和累积频率(百分比)。
(1)累积频数和累积频率
①累积频数:将各有序类别或组的频数逐级累加起来得到的频数。其累积方法有两种:
a .向上累积:又称为较小制累积,是从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组 数据则是从变量值小的一方向变量值大的一方累加频数);
b .向下累积:又称为较大制累积,是从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组 数据则是从变量值大的一方向变量值小的一方累加频数)。
②累积频率或累积百分比:将各有序类别或组的百分比逐级累加起来, 它也有向上累积和向下累积两种方法。 (2)顺序数据的图示
根据累积频数或累积频率, 可以绘制累积频数分布或频率图。
三、 数值型数据的整理与展示
1 .数据分组
(1)数据分组的概念和目的
数据分组是根据统计研究的需要, 为了观察数据的分布特征,将原始数据按照某种标准划分成不同的组别, 分组后的数据称为分组数据。经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。 在分组时, 如果按照性别、质量等级等定性指标分组, 称为按品质标志分组; 如果按照数量或数值等定量指标分组,称为按 数量标志分组。
(2)数据分组的方法
①单变量值分组:把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用;
②组距分组: 将全部变量值依次划分为若干个区间, 并将这一区间的变量值作为一组。在组距分组中, 一个 组的最小值称为下限; 一个组的最大值称为上限。 适用于连续变量或变量值较多的情况。
(3)分组和编制频数分布表的具体步骤
①确定组数
一般情况下,一组数据所分的组数不应少于 5 组且不多于 15 组, 即 5≤K≤15。实际应用时, 可根据数据的 多少和特点及分析的要求来确定组数。
②确定各组的组距
组距是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最 大值-最小值) ÷组数。
注意: 为便于计算,组距宜取 5 或 10 的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高 于最大变量值。
③根据分组整理成频数分布表
(4)组距分组的注意事项
①遵循“不重不漏 ”的原则
“不重 ”就是任一个单位数值只能分在其中某一组中, 不能同时分在两组中;“不漏 ”就是任一数值必须分 在某一组内,不能遗漏。
为解决“不重 ”的问题,统计分组时习惯上规定“上组限不在内 ”,即当相邻两组的上下限重叠时, 恰好等 于某一组上限的变量值不算在本组内,而计算在下一组内。
a .对于离散变量,可以采用相邻两组组限间断的办法解决“不重 ”的问题;
b.对于连续变量,可以采取相邻两组组限重叠的方法, 根据“上组限不在内 ”的规定解决“不重 ”的问题, 也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。
②避免出现空白组(即没有变量值的组)或个别极端值被漏掉
在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值 的组)或个别极端值被漏掉, 第一组和最后一组可以采取“××以下 ”及“××以上 ”这样的开口组。开口组通 常以相邻组的组距作为其组距。
(5)等距分组、不等距分组
在组距分组时,如果各组的组距相等,则称为等距分组;如果各组的组距不相等,则称为不等距分组。 (6)组中值
组中值是每一组中下限值与上限值中间的值,即
组中值=(下限值+上限值) /2
在组距分组时, 通常用组中值作为该组数据的一个代表值。使用组中值代表一组数据时有一个必要的假定条 件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。
2 .数值型数据的图示
条形图、饼图、环形图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有一些图示方法, 这些方法并不适用于分类数据和顺序数据。
(1)分组数据:直方图
①直方图:展示分组数据分布的一种图形, 它是用矩形的宽度和高度(即面积) 来表示频数分布的。绘制该 图时,用横轴表示各组组限,纵轴表示频数(一般标在左方) 或频率(一般标在右方)。
②直方图与条形图的区别
表 3- 1 直方图与条形图的区别
图形 | 频数表示 | 排列方式 | 数据类型 |
条形图 | ①条形的长度表示频数,宽度固定 ②长度有意义, 高度没有意义 | 各矩形分开排列 | 分类数据 |
直方图 | ①矩形面积表示频数,矩形高度表示 频数或组距,宽度表示组限
②高度与宽度均有意义 |
各矩形连续排列 | 数值型数据 |
(2)未分组数据:茎叶图和箱线图
①茎叶图
a .茎叶图
茎叶图是反映原始数据分布的图形。它由茎和叶两部分构成, 其图形是由数字组成的。它主要用于反映原始 数据的分布形状及离散状况,比如,分布是否对称,数据是否集中,是否有离群点等。
b .茎叶图的绘制方法
绘制茎叶图的关键是设计好树茎。制作茎叶图时, 首先把一个数字分成两部分, 通常是以该组数据的高位数 值作为树茎,而且叶上只保留该数值的最后一个数字。
c .茎叶图与直方图的区别
茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值, 即保留了原始数据的信息;而直方图虽然能很好地显示数据的分布, 但不能保留原始的数值。在应用方面, 直方 图通常适用于大批量数据,茎叶图通常适用于小批量数据。
②箱线图
a .箱线图
由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成, 反映原始数据分布。通过箱 线图,不仅可以反映出一组数据分布的特征,还可以进行多组数据分布特征的比较。
b .箱线图的绘制方法
先找出一组数据的最大值、最小值、中位数和两个四分位数(中位数 Me 是一组数据排序后处于中间位置上 的变量值,四分位数是处在数据 25%位置和 75%位置上的两个值,分别称为下四分位数 QL 和上四分位数 QU ); 然后,连接两个四分位数画出箱子;再将最两个极值点与箱子相连接,中位数在箱子中间。
(3)时间序列数据:线图
如果数值型数据是在不同时间上取得的, 即时间序列数据, 则可以绘制线图。线图主要用于反映现象随时间 变化的特征。
注意: 绘制线图时, 时间一般绘在横轴,观测值绘在纵轴。 一般应绘成横轴略大于纵轴的长方形,其长宽比 例大致为 10:7。图形过扁或过于瘦高, 不仅不美观,而且会给人造成视觉上的错觉, 不便于对数据变化的理解。 一般情况下, 纵轴数据下端应从“0 ”开始,以便于比较。数据与“0 ”之间的间距过大,可以采取折断的符号将 纵轴折断。
(4)多变量数据的图示
①散点图
是指用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量 x,纵轴代表变量 y,每组数 据(xi ,yi )在坐标系中用一个点表示, n 组数据在坐标系中形成的 n 个点称为散点,由坐标及其散点形成的二 维数据图称为散点图。
②气泡图
可用于展示三个变量之间的关系。绘制时将一个变量放在横轴, 另一个变量放在纵轴, 而第三个变量则用气 泡的大小来表示。
③雷达图
是指显示多个变量的常用图示方法,也称为蜘蛛图。雷达图在显示或对比各变量的数值总和时十分有用, 假 定各变量的取值具有相同的正负号, 则总的绝对值与图形所围成的区域成正比。此外, 利用雷达图也可以研究多 个样本之间的相似程度。
图 3- 1 总结了数据类型与主要的图示方法。
图 3- 1 数据类型与主要的图示方法
四、 合理使用图表
1 .鉴别图形优劣的准则
精心设计的图形可以准确表达数据所要传递的信息。设计图形时,应绘制得尽可能简洁,以清晰地显示数据、 合理地表达统计目的为依据。
(1)一张好图应具有的基本特征
①显示数据;
②让读者把注意力集中在图形的内容上,而不是制作图形的程序上;
③避免歪曲;
④强调数据之间的比较;
⑤服务于一个明确的目的;
⑥有对图形的统计描述和文字说明。
(2)五种鉴别图形优劣的准则
①一张好图应当精心设计,有助于洞察问题的实质;
②一张好图应当使复杂的观点得到简明、确切、高效的阐述;
③一张好图应当能在最短的时间内以最少的笔墨给读者提供最大量的信息;
④一张好图应当是多维的;
⑤一张好图应当表述数据的真实情况。
2 .统计表的设计
制作好统计表并充分利用是做好统计分析的基本要求。
(1)统计表的构成
①表头:应放在表的上方,它说明的是统计表的主要内容。
②行标题和列标题:通常安排在统计表的第一列和第一行,它表示的主要是所研究问题的类别名称和变量名
称,如果是时间序列数据,行标题和列标题也可以是时间,当数据较多时,通常将时间放在行标题的位置。 ③数字资料:行标题和列标题的其余部分是具体的数字资料。
④表外附加:必要时可以在统计表的下方加上表外附加, 主要包括数据来源、变量的注释和必要的说明等内 容。
(2)设计和使用统计表时的注意事项
①要合理安排统计表的结构, 比如行标题、列标题、数字资料的位置应安排合理。应使统计表的横竖长度比 例适当,避免出现过高或过宽的表格形式。
②表头一般应包括表号、总标题和表中数据的单位等内容。
总标题应简明确切地概括出统计表的内容, 一般需要表明统计数据的时间(When)、地点(Where)以及何 种数据(What),即标题内容应满足 3W 要求。
如果表中的全部数据都是同一计量单位, 可在表的右上角标明;若各变量的计量单位不同, 则应放在每个变 量后或单列出一列标明。
③表中的上下两条横线一般用粗线, 中间的其他线要用细线, 这样使人看起来清楚、醒目。通常情况下,统 计表的左右两边不封口;列标题之间在必要时可用竖线分开, 而行标题之间通常不必用横线隔开。总之,表中尽 量少用横竖线。
表中的数据一般是右对齐, 有小数点时应以小数点对齐,而且,小数点的位数应统一;对于没有数据的表格 单元,一般用“— ”表示;一张填好的统计表不应出现空白单元格。
④在使用统计表时, 必要时可在表的下方加上注释,特别要注意注明数据来源, 以表示对他人劳动成果的尊 重,以备读者查阅使用。
第 4 章 数据的概括性度量
一、集中趋势的度量
集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
1 .分类数据:众数
(1)概念
众数是一组数据中出现次数最多的变量值,用 Mo 表示。
(2)众数的适用范围
众数主要用于测度分类数据的集中趋势, 也适用于顺序数据以及数值型数据集中趋势的测度。一般只有在数 据量较大的情况下,众数才有意义。
(3)众数的特点
众数是一个位置代表值,它不受数据中极端值的影响。从分布的角度看,众数是具有明显集中趋势点的数值, 一组数据分布的最高峰点所对应的数值即为众数。如果数据的分布没有明显的集中趋势或最高峰点, 众数可能不 存在;如果有两个或多个最高峰点,则可以有两个或多个众数。众数如图 4- 1 所示。
图 4- 1 众数示意图
2 .顺序数据:中位数和分位数
(1)中位数
①概念
中位数是一组数据排序后处于中间位置上的变量值,用 Me 表示。
中位数将全部数据等分成两部分,每部分包含 50%的数据,一部分数据比中位数大,另一部分则比中位数小。 用中位数来代表总体标志值的一般水平,可以避免数列中极端值的影响,对某些社会经济现象更具有代表性。
②中位数的适用范围
中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用于分类数据。
③中位数的确定
根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,最后确定中位数的具体数值。
中位数位置的确定公式(n 为数据个数):
中位数位置=(n+1)/2
设一组数据为 x1 ,x2 ,„,xn ,从小到大的顺序排序后为 x(1),x(2),„,x(n),则中位数为:
(x( n+1)
|( 2 )| Me =〈| 1 (|
|l 2〈|lx
)| + x( n+1) 〉 |( 2 )| J|
n为奇数
n为偶数
④中位数的特点
中位数是一个位置代表值,其特点是不受极端值的影响。
(2)四分位数
①概念
四分位数、十分位数和百分位数分别是用 3 个点、 9 个点和 99 个点将数据 4 等分、 10 等分和 100 等分后各 分位点上的值。
四分位数也称四分位点,它是一组数据排序后处于 25%和 75%位置上的值。通常所说的四分位数是指处在 25%位置上的数值(称为下四分位数)和处在 75%位置上的数值(称为上四分位数)。
②四分位数的计算
根据未分组数据计算四分位数时, 首先对数据进行排序, 然后确定四分位数所在的位置, 该位置上的数值就 是四分位数。
在总体所有 N 个单位的标志值都已经按大小顺序排列的情况下, 设下四分位数为 QL,上四分位数为 QU,根 据四分位数的定义有:
QL 位置=(n+1)/4
QU 位置=3(n+1)/4
注意: 如果位置是整数, 四分位数就是该位置对应的值;如果是在 0.5 的位置上,则取该位置两侧值的平均 数;如果是在 0.25 或 0.75 的位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。
3 .数值型数据:平均数
平均数也称为均值,它是一组数据相加后除以数据的个数得到的结果。平均数在统计学中具有重要的地位, 是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。
(1)简单平均数与加权平均数
①简单平均数:根据未分组数据计算的平均数,用总体各单位标志值简单加总得到的标志总量除以单位总量
_
而得。设一组样本数据为 x1,x2 ,„,xn ,样本量(样本数据的个数)为 n,则简单样本平均数记为x,计算公式
为:
x = x1 + x2 + + x n = 1 xi
n n i =1
②加权平均数:根据分组数据计算的平均数。
设原始数据被分成 k 组,各组的组中值分别用 M1,M2,„,Mk 表示,各组变量值出现的频数分别用 f1,f2,„, fk 表示,则样本加权平均数的计算公式为:
x =
M1f1 + M2 f2 + Mk fk = 1 f1 + f1 + fk n
Mi fi
(2)一种特殊的平均数:几何平均数
几何平均数是 n 个变量值乘积的 n 次方根,用 G 表示。计算公式为:
G = = n Ⅱ xi
n
i =1
②适用范围
几何平均数主要用于计算比率的平均。当变量值是比率的形式时,采用几何平均法计算平均比率更为合理。 在实际应用中,几何平均数主要用于计算现象的平均增长率。
4 .众数、中位数和平均数的比较
众数、中位数和平均数是集中趋势的三个主要测度值,彼此间存在着一定的数量关系。 (1)众数、中位数和平均数的关系
表 4- 1 众数、中位数和平均数的关系
测度值 | 分布角度 | 对称分布 | 左偏分布 | 右偏分布 |
众数 (Mo) | 一组数据分布最高峰 | 众数、中位数和平 均数必定相等,
__ 即 Mo =Me =x, 如图 4-2(a) |
存在极小值,拉动平 均数向极小值一方 靠,众数和中位数不
__ 受极值的影响,即x <Me<Mo , 如图 4-2(b) |
存在极大值,拉动 平均数向极大值一 方靠,即 Mo<Me
__ <x,如图 4-2(c) |
中位数 (Me) | 一组排序数据中间位置的值 | |||
平均数
__ (x) |
全部数据的算术平均 |
图 4-2 不同分布的众数、中位数和平均数
在非对称正态分布的情况下, 众数、中位数和平均数三者的差别取决于偏斜的程度, 偏斜的程度越大, 它们 之间的差别越大; 偏斜的程度越小, 它们之间的差别越小。但不论如何偏斜, 中位数总是在众数与算术平均数之 间。经验表明,在适度偏斜的情况下,众数与中位数的距离约为中位数与算术平均数距离的 2 倍。即:
__ __
2(x-Me )=Me-Mo 或 2(Me-x)=Mo-Me
(2)众数、中位数和平均数的特点与应用场合
①众数是一组数据分布的峰值, 不受极端值的影响。其缺点是具有不唯一性,一组数据可能有一个众数, 也 可能有两个或多个众数,也可能没有众数。
众数只有在数据量较多时才有意义, 当数据量较少时, 不宜使用众数。众数主要适合作为分类数据的集中趋 势测度值。
②中位数是一组数据中间位置上的代表值,不受数据极端值的影响。
中位数主要适合作为顺序数据的集中趋势测度值。
③平均数是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。
当数据呈对称分布或接近对称分布时, 3 个代表值相等或接近相等, 这时则应选择平均数作为集中趋势的代 表值。但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据, 平均数的代表性较差。因此,当数 据为偏态分布,特别是当偏斜程度较大时,可以考虑选择众数或中位数。
二、 离散程度的度量
数据的离散程度是数据分布的另一个重要特征, 它反映的是各变量值远离其中心值的程度。数据的离散程度 越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。
1 .分类数据:异众比率
(1)计算公式
异众比率是指非众数组的频数占总频数的比例,用 Vr 表示。其计算公式为:
Vr = = 1-
式中, ∑fi 为变量值的总频数; fm 为众数组的频数。
(2)特点
异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越 大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
(3)适用范围
异众比率主要适合测度分类数据的离散程度,对于顺序数据以及数值型数据也可以计算异众比率。
2 .顺序数据:四分位差
(1)计算公式
四分位差(内距或四分间距):是上四分位数与下四分位数之差, 用 Qd 表示。其计算公式为:Qd =QU-QL。 (2)特点
四分位差反映了中间 50%数据的离散程度,其数值越小, 说明中间的数据越集中;其数值越大, 说明中间的 数据越分散。
(3)适用范围
四分位差不受极值的影响,其主要用于测度顺序数据的离散程度;对于数值型数据也可以计算四分位差, 但 不适合分类数据。
3 .数值型数据: 极差、平均差、 方差和标准差
(1)极差
①概念: 极差是指一组数据的最大值与最小值之差,也称全距,用 R 表示。其计算公式为: R =max(xi) -min(xi)
②局限性: 由于极差只是利用了一组数据两端的信息, 因此容易受极端值的影响,并且它不能反映出中间数 据的分散状况,因而不能准确描述出数据的分散程度。
(2)平均差
①概念: 平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数,用 Md 表示。 a .根据未分组数据计算平均差的公式为:
xi – x
M = i=1
d n
b .根据分组数据计算平均差的公式为:
Mi – x fi
M = i=1
d n
②优点: 平均差以平均数为中心, 反映了每个数据与平均数的平均差异程度, 它能全面准确地反映一组数据 的离散状况。平均差越大,说明数据的离散程度越大;反之,则说明数据的离散程度越小。
s =
s =
③局限性:为了避免离差之和等于零而无法计算平均差这一问题, 平均差在计算时对离差取了绝对值, 以离 差的绝对值来表示总离差,这就给计算带来了不便,因而实际中应用较少。
(3)方差和标准差
①方差:各变量值与其平均数离差平方和的平均数。
样本方差:样本数据个数减 1 后除离差平方和。其中样本数据个数减 1 ,即 n-1 称为自由度。
设样本方差为 s2 ,根据未分组数据和分组数据计算样本方差的公式分别为:
未分组数据:
s2 =
分组数据:
s2 =
②标准差:方差的平方根。
标准差的计算公式分别为:
未分组数据:
(xi –x )2
n – 1
分组数据:
(Mi –x)2 fi
n – 1
(4)相对位置的度量
可以利用平均数和标准差计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置, 并可以用它来判断一组数据是否有离群数据。
①标准分数
变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或 z 分数。设标准分数为 z,则有:
__
zi =(xi-x)/s
标准分数给出了一组数据中各数值的相对位置;其具有平均数为 0、标准差为 1 的特性。 z 分数只是将原始 数据进行了线性变换, 不改变一个数据在该组数据中的位置,也不改变该组数据分布的形状。
②经验法则
当一组数据对称分布时,经验法则表明:
约有 68%的数据在平均数±1 个标准差的范围之内;
约有 95%的数据在平均数±2 个标准差的范围之内;
约有 99%的数据在平均数±3 个标准差的范围之内。
在 3 个标准差之外的数据,在统计上称为离群点。
③切比雪夫不等式
如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据 都适用。
对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/k2 )的数据落在 k 个标准差之内。其中 k 是大于 1 的任意值,但不一定是整数。对于 k =2 ,3 ,4,该不等式的含义是:
至少有 75%的数据落在平均数±2 个标准差的范围之内;
至少有 89%的数据落在平均数±3 个标准差的范围之内;
至少有 94%的数据落在平均数±4 个标准差的范围之内。
4 .相对离散程度:离散系数
(1)概念
离散系数也称为变异系数,它是一组数据的标准差与其相应的平均数之比。其计算公式为:
__
vs =s/x
(2)离散系数与方差标准差的区别
方差和标准差是反映数据分散程度的绝对值, 其数值的大小一方面受原变量值自身水平高低的影响, 也就是 与变量的平均数大小有关, 另一方面, 它们与原变量值的计量单位相同, 采用不同计量单位计量的变量值, 其离 散程度的测度值也就不同。
离散系数消除了变量值水平高低和计量单位不同对离散程度测度值的影响, 它是测度数据离散程度的相对统 计量,其作用主要是用于比较对不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小, 说明数据的离散程度也小。
三、 偏态与峰态的度量
集中趋势和离散程度是数据分布的两个重要特征, 为全面了解数据分布的特点, 还需要知道数据分布的形状 是否对称、偏斜的程度以及分布的扁平程度等。
1 .偏态及其测度
偏态系数:是测度偏态的程度的统计量,记作 SK。
(1)根据未分组的原始数据计算偏态系数的公式为:
SK = nΣ (xi –x )3
(n – 1)(n – 2)s3
(2)根据分组数据计算偏态系数的公式为:
k
Σ (Mi – x )3 fi
SK = i=1
ns3
当分布是对称时, 离差三次方后正负离差可以相互抵消,则偏态系数等于 0;当分布不是对称时,离差三次 方后正负离差不能相互抵消,此时偏态系数不为 0 。当偏态系数为正值时,称为正偏或右偏;反之, 当偏态系数 为负值时,可称为负偏或左偏。若偏态系数大于 1 或小于-1,被称为高度偏态分布; 若偏态系数在 0.5~1 或- 1~-0.5 之间,被认为是中等偏态分布;偏态系数越接近 0,偏斜程度就越低。
2 .峰态及其测度
峰态系数:是测度数据分布平峰或尖峰程度的统计量,记作 K。
峰度通常是与标准正态分布相比较而言的。 如果一组数据服从标准正态分布, 则峰态系数的值等于 0;若峰 态系数的值明显不等于 0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。
(1)根据未分组数据计算峰态系数的公式为:
K = n(n +1)Σ (xi –x )4 – 3[ Σ (xi –x )2 ]2 (n– 1) (n– 1)(n– 2)(n– 3)s4
(2)根据分组数据计算峰态系数是用离差四次方的平均数,再除以标准差的四次方,其计算公式为:
K =
(Mi – x )4 fi
ns4
(4.1)
– 3
公式中将离差的四次方除以 s4 是为了将峰度系数转化成相对数。 由于正态分布的峰态系数为 0 ,当 K>0 时 为尖峰分布,数据的分布更集中;当 K<0 时为扁平分布,数据的分布越分散。 式(4.1)中也可以不减 3,此时 的比较标准是 3,当 K>3 时为尖峰分布, K<3 时为扁平分布。
图 4-3 总结了数据的分布特征与适用的描述统计量。
集中趋势 {中位数
众数
平均数 异众比率
四分位差
数据的分布特征 离散程度 极差
平均值
方差或标准差
离散系数
分布的形状 {
图 4-3 数据的分布特征与适用的描述统计量
第 5 章 概率与概率分布
一、随机事件及其概率
1 .随机事件的几个基本概念
试验和事件:在相同条件下,对某事物或现象所进行的观察或实验叫做试验,把观察或试验的结果叫做事件。
随机事件:在相同条件下,每次试验可能出现也可能不出现的事件, 也称为偶然事件。 必然事件:在相同条件下,每次试验肯定发生的事件。
不可能事件:在相同条件下,每次试验一定不发生的事件。
基本事件;不能分解成两个或更多个事件组合的最简单事件称为基本事件(或简单事件)。 样本空间: 一个试验中所有的简单事件的全体集合称为样本空间或基本空间,记为 Ω。
样本点:样本空间中每一个特定的试验结果
2 .事件的概率
事件 A 的概率是事件 A 在随机试验中出现的可能性大小的数值度量,记事件 A 发生的概率为 P(A)。基于 对概率的不同解释,概率的定义有所不同,主要有古典定义、统计定义和主观概率定义。
(1)概率的古典定义
如果一项随机试验的全部基本事件总数有限,而且各个基本事件出现的可能性相等,则某一事件 A 发生的 概率为该事件所包含的基本事件数 m 与样本空间中所包含的基本事件总数 n 的比值,记为:
P(A)=事件 A 所包含的基本事件的个数/样本空间所包含的基本事件的个数=m/n
(2)概率的统计定义
在相同条件下重复进行的 n 次试验中,事件 A 出现 m 次(m≤n),称比值 m/n 为事件 A 发生的频率。 当实 验次数 n 很大时,该频率稳定地在某一常数 p 上下波动,且波动的幅度随试验次数的增加而减小,则定义频率的 稳定值 p 即为事件 A 的概率,记为: P(A)=m/n =p。
(3)主观概率定义
主观概率指的是一个决策者根据本人掌握的信息对某个事件发生可能性作出的判断,对一些无法重复的试验, 只能根据以往的经验,人为确定这个事件的概率。
二、概率的性质与运算法则
1 .概率的基本性质
(1)对任一随机事件 A,有 0≤P(A) ≤1
(2)必然事件的概率为 1,而不可能事件的概率为 0,即 P(Ω)=1 ,P(Φ)=0
2 .概率的加法法则
法则 1 两个互斥事件之和的概率等于两个事件概率之和。
设 A 和 B 为两个互斥事件,则
P(A∪B)=P(A)+P(B)
对于多个两两互不相容的随机事件 A1 ,A2 ,„,An ,则
P(A1 ∪A2 ∪„∪An )=P(A1 )+P(A2 )+„+P(An)
_ _
其中必有一个发生的两个互斥事件叫做对立事件, 记事件 A 的对立事件为A。对 A 和A两个事件来说,则有
_
P(A)=1-P(A)
法则 2 对于任意两个随机事件,它们和的概率为两个事件分别的概率之和减去两事件之交的概率。即 P(A∪B)=P(A)+P(B)-P(AnB)
3 .条件概率与独立事件
(1)条件概率
当某一事件 B 已经发生时,求事件 A 发生的概率,称这种概率为事件 B 发生条件下事件 A 发生的条件概率,
记为 P(A|B)。一般来说, P(A|B)≠P(A),只有当 A 与 B 独立时, P(A|B)=P(A)。 (2)乘法公式
条件概率 P(A|B)与概率 P(AB),P(B)的关系:
P(A|B)=P(AB)/P(B),P(B)>0
则概率的乘法公式为: P(AB)=P(B)P(A|B),或 P(AB)=P(A)P(B|A)。
(3)独立性
独立事件:若两个事件同时发生的概率等于它们各自发生的概率之积。即:
P(AB)=P(A) ·P(B),则称事件 A 和事件 B 相互独立。
两个事件相互独立可推广到多个事件相互独立,若 P(A1A2 „An )=P(A1 )P(A2 )„P(An) 则称 A1 ,A2 ,„,An 相互独立。
相依事件: 一个事件的发生与否会影响另一个事件的发生。
独立性与事件的互斥(互不相容) 事件的关系: 互斥概率大于 0 的事件一定是相互依赖(不独立) 的, 但相 互依赖的事件不一定是互斥的;不互斥事件可能是独立的,也可能是不独立的,然而独立事件不可能是互斥的。
4 .全概率公式与贝叶斯公式
(1)全概率公式
P(A) = P(ABi ) = P(Bi )P(A | Bi )
其中, B1 ,B2 ,„,Bn 是互不相容事件,且 B1 ∪B2 ∪„∪Bn =Ω ,P(Bi )>0 ,i=1 ,2 ,„,n (2)贝叶斯公式
P(Bi | A) =
P(Bi )P(A | Bi )
三、离散型随机变量及其分布
1 .随机变量的概念
(1)随机事件的数量化
为了把随机事件数量化,以便作数学上的处理,有必要把不采用数量标识表示化为采用数量标识表示。 (2)随机变量的定义
在相同条件下,如果每次试验可能出现不同的结果,把所有的结果都列举出来,即把 X 的所有可能值 x1 , x2 ,„,xn 都列举出来,且 X 的可能值具有确定概率 P(x1),P(x2), „,P(xn),其中 P(xi )=P(X =xi) 称为概率函数,则 X 称为 P(X)的随机变量, P(X)称为随机变量 X 的概率函数。
(3)两种类型的随机变量
①离散型随机变量
如果随机变量 X 只能取有限个或可数个值,则称 X 为离散型随机变量。
②连续型随机变量
如果随机变量 X 可以取一个或多个区间中的任何值,则称 X 为连续型随机变量。
2 .离散型随机变量的概率分布
(1)离散型随机变量的概率分布
离散型随机变量 X 只能取有限个可能的值 x1 ,x2 ,„,xn ,其相应的概率为 p1 ,p2 ,„,pn ,即 P(X =xi ) =pi(i=1 ,2 ,„,n)。用表格形式表示,即为离散型随机变量 X 的概率分布,如表 5- 1 所示。
表 5- 1 概率分布
X =xi | x1 | x2 | „ | xn |
P(X =xi )=pi | p1 | p2 | „ | pn |
其中, P(X =xi )=pi 是 X 的概率函数, 且有如下性质:
①pi ≥0;
②
pi = 1, i = 1, 2, …, n
(2)离散型随机变量的期望值和方差
①期望值
离散型随机变量 X 的数学期望是 X 所有可能取值 xi 与其对应概率 pi 的乘积之和, 记作 E(X)或 μ。它表示 随机变量本身的平均水平或集中程度。
a .若 X 取有限个数值: x1 ,x2 ,„,xn ,其对应的概率为 p1 ,p2 ,„,pn ,则期望值为:
n
E(X) = x1p1 + x2 p2 + xn pn = Σ xi pi
i=1
b .若 X 取无限个数值: x1 ,x2 ,„,xn ,„,其对应的概率为 p1 ,p2 ,„,pn ,„,则期望值为:
伪
E(X) = x1p1 + x2 p2 + xn pn = Σ xi pi
i=1
②方差与标准差
随机变量的方差反映了随机变量取值的离散程度,它是每一个随机变量取值与期望值的离差平方之期望值, 即 σ2 =D(X)=E[X-E(X)]2 =E(X2 )-[E(X)]2 。方差的平方根为标准差,即
σ =
由于标准差的单位与随机变量的单位相同,相对于方差更易于解释,所以对实际问题的分析常使用标准差。 若 X 的取值比较集中,则方差较小;若 X 的取值比较分散,则方差较大。如果方差为 0,则意味着随机变
量取值集中在期望值 E(X),即随机变量以概率 1 取值 E(X)。
③离散系数
离散系数可用来比较不同期望值的总体之间的离中趋势。计算公式为: V=σ/E(X)
④均值和方差在财务分析中的应用
在财务分析中,风险的概念十分重要。风险的高低有时可以单凭主观的感觉作出判断,也可以用方差或标准 差去测量,从而得出一个比较客观和科学的结果。
(3)几种常见的离散型概率分布
①0- 1 分布
贝努里试验的特点:
a .试验包含了 n 个相同的试验;
b .每次试验只有两个可能的结果: “成功 ”或“失败 ”;
c .出现“成功 ”的概率 p 对每一次试验是相同的, “失败 ”的概率 q 也不变,且 p+q =1; d .试验是互相独立的;
e .试验“成功 ”或“失败 ”可以计数,即试验结果对应于一个离散型随机变量。
若定义一次伯努利试验成功的次数为离散型随机变量 X,它的概率分布就是最简单的一个分布类型,即两点 分布,亦称伯努利分布。
如果随机变量 X 只可能取 0 和 1 两个值,它们的概率分布为
P(X =1)=p ,P(X =0)=1-p =q
或 P(X =x)=pxq1-x(0<p<1),(x =0 ,1)
则称 X 服从参数为 p 的 0- 1 分布,也称两点分布。
0- 1 分布的期望值和方差分别为: E(X)=p ,D(X)=pq。
若随机变量 X 表示 n 次重复独立试验中事件 A(成功)出现的次数,那么
P(X =x)=Cnxpxqn-x,x =0 ,1 ,2 ,„,n
则称随机变量 X 服从二项分布,参数为 n ,p,记做 X~B(n ,p)。
特别地,当 n =1 时,二项分布化为 0- 1 分布,即
P(X =x)=pxq1-x,x =0 ,1
二项分布的期望值和方差分别为: E(X)=np ,D(X)=npq。
③泊松分布
泊松分布是用来描述在一指定时间段或在一定空间区域或其他特定单位内某一事件出现的次数的分布,仅取 非负整数。
泊松分布的公式为:
P(X =x)=λxe-λ/(x!),x =0 ,1 ,2 ,„
式中, λ 为给定的时间间隔内事件出现的平均数。
泊松分布的期望值和方差分别为:
E(X)=λ
D(X)=λ
在 n 重贝努利试验中,当“成功 ”的概率很小(即 p→0),试验次数很大时, 二项分布可近似等于泊松分布, 即
Cnxpxqn-x≈λxe-λ/(x!)
在实际应用中,当 p≤0.25 ,n>20 ,np≤5 时,用泊松分布近似二项分布效果良好。
④超几何分布
设有 N 件产品,其中有 M 件次品,现从中任取 n 件(假定, n≤N),则在这 n 件中所含的次品件数 X 是一 个随机变量, X 的概率函数为:
P(X = m) = C
式中, m 为任取 n 件中次品的件数。 则称 x 服从参数为 n ,N ,M 的超几何分布。
对于抽样问题来说, 当原产品的批量相当大时, “无放回 ”可以当作“有放回 ”来处理,即此时可用二项分 布近似超几何分布。
四、连续型随机变量的概率分布
1 .概率密度与分布函数
若函数 f(x)满足: ①f(x) ≥0 ,②
∫一+伪伪 f (x)dx = 1
则称 f(x)为概率密度函数。
分布函数定义为:
F(x) = ∫一+伪伪 f (t)dt (一伪 < x < +伪)
注意, f(x)并不是一个概率,即 f(x) ≠P(X =x),因为在连续分布的条件下 P(X =x)为零。在连续 分布的情况下,以曲线下面的面积表示概率,如随机变量 X 在 a 和 b 之间的概率可以表示成:
P(a < X < b) = ∫ f (x)dx = F(b) 一 F(a)
b
a
连续型随机变量的概率密度是其分布函数的导数,即 f(x)=F′(X)。
连续型随机变量的期望值与方差分别定义为:
E(X) = 伪伪 xf (x)dx = μ
D(X) = 伪伪 [x
2.正态分布
(1)正态分布的定义及图形特点
如果随机变量 X 的概率密度为: f (x) =
则称 X 服从正态分布,记作 X~N(μ , σ2)。 变量 X 的标准差,它们是正态分布的两个参数。
– E(x)]2 f (x)dx = σ 2
1 – (x-μ)2
e 2σ , -伪 < x < +伪
σ 2π
其中-∞<μ<+∞ , σ>0 ,μ 为随机变量 X 的均值, σ 为随机
正态分布的概率密度 f(x)的性质:
①f(x) ≥0,即整个概率密度曲线都在 x 轴的上方。
②f(x)是关于 x = μ 对称的对称钟形曲线,且在 x = μ 处达到最大值,
③σ 为大于零的实数,它决定曲线的“ 陡峭 ”或“扁平 ”程度,σ 越大, ④当 x 趋于无穷时,曲线以 x 轴为其渐近线。
f (μ) = 1
/2πσ
曲线越平缓; σ 越小,曲线越陡峭。
⑤正态随机变量在特定区间上的取值概率由 f(x)下的面积给出,而且其曲线下的总面积等于 1。 (2)标准正态分布
对于正态分布,如果 μ = 0 ,σ =1 时,则有
1 – 1 x2
f (x) = e 2 , – 伪 < x < +伪
/2π
相应的正态分布 N(0 ,1)称为标准正态分布。对标准正态分布,通常用 φ(x)表示概率密度函数,用 Φ (x)表示分布函数。
任何一个一般的正态分布都可以通过线性变换转化为标准正态分布, 即若 X~N(μ , σ2),那么 Z=(X-μ) /σ~N(0 ,1)。
(3)正态分布表
只要将一般正态分布转化为标准正态分布,通过查表,就可解决正态分布的概率计算问题。对于负的 x 值, 可由 Φ(-x)=1-Φ(x)得到。
(4)正态分布在质量管理中的应用
若 X~N(μ , σ2 )时,有
P(|X-μ|≤σ)=0.6826
P(|X-μ|≤2σ)=0.9545
P(|X-μ|≤3σ)=0.9973
可以认为 X 的值几乎一定落在区间(μ-3σ , μ+3σ)内, 这在全面质量管理中称作“3σ 准则 ”。
当今风靡全球的六西格玛管理质量标准也是在正态分布原理基础上建立的。当上下公差不变时, 6σ 的质量 水准就意味着产品合格率达到 99.9999998%,即 P(|X-μ|≤6σ)=0.999999998,其特性值落在(μ-6σ , μ+6σ) 外的概率仅为十亿分之二。
(5)二项分布的正态近似
设随机变量 X~B(n ,p), 由中心极限定理, 当样本量 n 越来越大时, 则对任意 x,有
〈 < x = ∫ x伪 e- dt
即当 n 很大,而 0<p<1 是一个定值时,服从二项分布的随机变量 X 近似服从正态分布 N(np,np(1-p))。
第 ‘ 章 统计量及其抽样分布
一、统计量
1 .统计量的概念
设 X1,X2 ,„,Xn 是来自总体 X 的容量为 n 的一个样本, 如果由此样本构造一个不依赖任何未知参数的函 数 T(X1 ,X2 ,„,Xn),则称函数 T(X1 ,X2 ,„,Xn )是一个统计量或样本统计量,其概率分布就称为抽样 分布,可用样本统计量来估计总体参数。
2 .常用统计量
(1)样本均值
– 1 n
X = Σ Xi
n i =1
(2)样本方差和样本标准差
2 1 n 2
S X X
n– 1 i 1 i
S =
_
(3)样本变异系数 V=S/X ,其中总体变异系数定义为
C = / E(X)
变异系数消除了均值不同对不同总体的离散程度的影响,常用来刻画均值不同时不同总体的离散程度。 (4)样本 k 阶原点矩
mk = 1 Xik
n i =1
特别的,当 k =1 时, 样本一阶原点矩就是样本均值(平均数)。
(5)样本 k 阶中心矩
v X X
1 n k
k n 1 i 1 i
特别的,当 k =2 时, 样本二阶中心矩就是样本方差。
(6)样本偏度
a3 = (Xi – X)3 (Xi – X )2 3/2
偏度反映了随机变量密度函数曲线在众数(密度函数在这一点达到最大值)两边的对称偏斜性。 如果 X~N (μ ,σ2),则 α3 =0。
(7)样本峰度
– X )4 (X – X )2 2 – 3
a4 = (n – 1) (Xi
峰度反映了密度函数曲线在众数附近的
|L( i=1 i ) 」|
方和
X
“峰 ”的尖峭程度。 对于 X~N(μ ,σ2),α4 =0。
二、 由正态分布导出的几个重要分布
1 .抽样分布
统计推断的三个中心内容:抽样分布、参数估计和假设检验。
在总体 X 的分布类型已知时,若对任一自然数 n,都能导出统计量 T=T(X1 ,X2 ,„,Xn )的分布的数学 表达式,这种分布称为精确的抽样分布。
2 .χ2 分布
(1)定义
设随机变量 X1 ,X2 ,„,Xn 相互独立,且 Xi(i=1 ,2 ,„,n)服从标准正态分布 N(0,1),则它们的平
2
i
服从自由度为 n 的 χ2 分布,其自由度为独立变量的个数或二次型的秩,它决定了分布的形状。
(2)χ2 分布的性质
①χ2 分布的期望和方差: E(χ2 )=n,方差 D(χ2 )=2n;
②χ2 分布的可加性:若 χ12~χ2(n1),χ22~χ2(n2),且相互独立,则 χ12+χ22~χ2(n1+n2);
③χ2 分布是一种非对称分布,且一般为正偏分布,当自由度 n → ∞时, χ2 分布的极限分布是正态分布;
④当自由度 n 很大时, 近似服从 N( ,1) ,当自由度 n>45 时
xp (n) ~ 2 (μp + )
2 1 2
其中, μp 为标准正态分布的 p 分位数, χp2(n)为 χ2(n)的 p 分位数。
3 .t 分布
(1)定义
设随机变量 X~N(0 ,1),Y~χ2(n),且 X 与 Y 独立,则 t = X 的分布称为 t 分布,记为 t(n),
其中 n 为其自由度。
(2)t 分布的性质
①t 分布的密度函数是一偶函数,关于 y 轴对称,且存在 n-1 阶矩。当 n≥2 时, t 分布的数学期望 E(t) =0;当 n≥3 时, t 分布的方差 D(t)=n/(n-2)。
②自由度为 1 的 t 分布称为柯西分布,随着自由度 n 的增加, t 分布的密度函数愈来愈接近标准正态分布的 密度函数。实际应用中, 一般当 n≥30 时,t 分布与标准正态分布就非常接近。
③t 分布是一个分布族,对于不同的样本容量都对应着不同的分布,且其均值都为 0。 ④与标准正态分布相比, t 分布的中心部分较低,两个尾部较高。
⑤变量 t 的取值范围在-∞与+∞之间。
(3)与 t 分布有关的抽样分布
①设 X1 ,X2 ,„,Xn 是来自正态分布 N(μ ,σ2 )的一个样本,
1
X =
n
Xi
2 1 n 2
S = n – 1 (Xi – X)
则 t(n – 1) 称为服从自由度为 n-1 的 t 分布。
②设 X 和 Y 是两个相互独立的总体,X~N(μ1 ,σ2),Y~N(μ2 ,σ2),X1 ,X2 ,„,Xn 是来自 X 的一个 样本,Y1 ,Y2 ,„,Ym 是来自 Y 的一个样本,记
S2
x
S2
y
S2 =
xy
则
Xi
X =
1
n
Y = |
1
m |
Yi |
1 n 2
= n – 1 (Xi – X)
1 m 2
= m– 1 (Yi – Y)
(n – 1)S + (m – 1)S
n + m – 2
(X – Y) – (μ1 – μ2 )
Sxy
mn
m + n
t(n + m – 2)
4 .F 分布
(1)定义
设随机变量 Y 与 Z 相互独立,且 Y 和 Z 分别服从自由度为 m 和 n 的 χ2 分布,随机变量 X 有如下表达式:
Y / m nY
X = =
Z / n mZ
则称 X 服从第一自由度为 m,第二自由度为 n 的 F 分布,简记为 X~F(m ,n)。
(2)F 分布的性质
①服从 F(m ,n)分布的随机变量 X 的数学期望和方差分别为:E(X)=n/(n-2),n>2
2n2 (m + n 2)
D(X) = , n > 4
m(n 2)(n 4)
②F 分布的 p 分位数 Fp(v1 ,v2 )可查 F 分布表获得,且 Fp(v1 ,v2 )=1/F1-p(v2 ,v1)。这说明在 F 分布 中,两个自由度的位置不可互换。
③F 分布与 t 分布的关系:如果随机变量 X 服从 t(n)分布,则 X2 服从 F(1 ,n)的 F 分布。此性质常用 于回归分析的回归系数显著性检验中。
四、 样本均值的分布与中心极限定理
1 .样本均值的分布
__ __
(1)对于任意均值为 μ,方差为 σ2 的总体,有 E(X)=μ , D(X)=σ2/n。
__
(2)当总体分布为正态分布 N(μ , σ2 )时, 那么, X的抽样分布服从 N(μ , σ2/n)。
__
(3)对于任意总体,当 n 较大时,那么, X近似服从 N(μ , σ2/n)。
2 .中心极限定理
(1)内容
__
设从均值为 μ , 方差为 σ2 (有限)的任意一个总体中抽取样本量为 n 的样本, 当 n 充分大时,样本均值X的
抽样分布近似服从均值为 μ 、方差为 σ2/n 的正态分布。
(2)作用
一般认为 n≥30 为大样本, n<30 为小样本,中心极限定理说明了不仅从正态分布的总体中抽取样本时, 样 本平均数这一统计量服从正态分布, 即使是从非正态的总体进行抽样, 只要样本容量 n 足够大, 样本平均数也趋 向服从正态分布。
第 7 章 参数估计
一、参数估计的基本原理
1 .估计量与估计值
参数估计:用样本统计量去估计总体的参数。
估计量:在参数估计中,用来估计总体参数的统计量。
估计值:用来估计总体参数时根据一个具体的样本计算出来的估计量的具体数值。
2 .点估计与区间估计
(1)点估计
∧
定义: 点估计是用样本统计量θ的某个取值直接作为总体参数 θ 的估计值。
局限性: 一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计 的可靠性的度量,因此不能完全依赖于一个点估计值,而应围绕点估计值构造总体参数的一个区间。
(2)区间估计
区间估计的基本思想: 在点估计的基础上, 给出总体参数估计的一个区间范围, 该区间通常由样本统计量加 减估计误差得到。进行区间估计时, 根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一 个概率度量。
置信区间: 在区间估计中,由样本统计量所构造的总体参数的估计区间。
置信下限:置信区间的最小值。
置信上限:置信区间的最大值。
置信水平(也称为置信度或置信系数):将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的 次数所占的比例。
∧ ∧
区间估计的数学定义:若用两个统计量θ1(x1 ,x2 ,„,xn )和θ2(x1 ,x2 ,„,xn)
∧ ∧ ∧ ∧
来估计总体参数 θ 的下限和上限,使总体参数 θ 包括在区间[θ1 ,θ2 ]内的概率为 P(θ1<θ<θ2 )=1-α,则称估
∧ ∧
计区间[θ1 ,θ2 ]为参数 θ 的置信水平为 1-α 的置信区间。
对置信区间的理解,需要注意:
①如果用某种方法构造的所有区间中有 95%的区间包含总体参数的真值, 5%的区间不包含总体参数的真值, 那么,用该方法构造的区间称为置信水平为 95%的置信区间。
②总体参数的真值是固定的、未知的, 置信区间是一个随机区间, 它会因样本的不同而不同, 而且不是所有 的区间都包含总体参数的真值。 1-α 不是用来描述某个特定的区间包含总体参数真值可能性的, 一个特定的区 间“总是包含 ”或“绝对不包含 ”参数的真值, 不存在“可能包含 ”或“可能不包含 ”的问题。
③在实际问题中,进行估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如 95%)下的置信区间。由于用该样本所构造的区间是一个特定的区间,而不再是随机区间,所以无法知道这个样 本所产生的区间是否包含总体参数的真值。
④置信区间表示区间估计的准确性(或精确性),置信度表示区间估计的可靠性,而显著性水平表示区间估 计的不可靠概率。置信度愈大(即估计的可靠性愈大),则置信区间相应也愈大(即估计准确性愈小)。
3 .评价估计量的标准
(1)无偏性
指估计量抽样分布的数学期望等于被估计的总体参数。
∧ ∧ ∧
设总体参数为 θ ,所选择的估计量为θ,若有 E(θ)=θ,则称θ为 θ 的无偏估计量。
(2)有效性
指对同一总体参数的两个无偏估计量,有更小方差的估计量更有效。
∧ ∧ ∧ ∧ ∧ ∧
设总体参数为 θ , θ 1 和θ2 是 θ 的两个无偏估计量, 若它们的抽样分布方差有 D(θ1 )<D(θ2),则称θ1 是比θ
2 更有效的一个估计量。在无偏估计的条件下,估计量的方差越小,估计就越有效。
(3)一致性
指随着样本量 n 的增大,估计量的值越来越接近总体参数的真值。估计量的一致性是从极限意义上讲的, 它 适用于大样本的情况,即一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。
二、 一个总体参数的区间估计
1 .总体均值的区间估计
(1)正态总体、方差已知,或非正态总体、大样本
__
①当总体服从正态分布且 σ2 已知时, 或者总体不是正态分布但为大样本时,样本均值x的抽样分布均为正态
分布,其数学期望为总体均值 μ,方差为 σ2/n。而样本均值标准化后得到的随机向量服从标准正态分布,即
z = x – μ – N(0,1)
σ / n
则可得到总体均值 μ 所在 1-α 置信水平下的置信区间为:
x 土
zc/2 σ
其中, zα/2 是标准正态分布上侧面积为 α/2 时的 z 值;zc/2 是估计总体均值时的边际误差, 也称为估计
误差或误差范围。
②当总体服从正态分布但 σ2 未知,或总体并不服从正态分布,只要是在大样本条件下, 就用样本方差 s2 代 替总体方差 σ2 ,这时总体均值 μ 在 1-α 置信水平下的置信区间为:
x 土
(2)正态总体、方差未知、小样本
zc/2 s
如果总体服从正态分布, 且总体方差 σ2 未知, 则在小样本情况下,需要用样本方差 s2 代替 σ2 ,而样本均值 经过标准化以后的随机变量则服从自由度为(n-1)的 t 分布,即
t = x – μ –t(n – 1)
s / n
根据 t 分布建立的总体均值 μ 在 1-α 置信水平下的置信区间为:
x 土 tc/2 s
n
式中, tα/2 是自由度为 n-1 时, t 分布中右侧面积为 α/2 时的 t 值。
将总体均值的区间估计进行总结,整理可得下表:
表 7- 1 不同情况下总体均值的区间估计
总体分布 | 样本量 | σ 已知 | σ 未知 |
正态分布 | 大样本(n≥30) | x 土 zα /2 σ
|
x 土 zα /2 s
|
小样本(n<30) | x 土 zα /2 σ
|
x 土 tα/2 s
|
|
非正态分布 | 大样本(n≥30) | x 土 zα /2 σ
|
x 土 zα /2 s
|
2 .总体比例的区间估计
在大样本情况下,设总体比例为 π,则当样本量足够大时, 样本比例 p 的抽样分布可用正态分布近似,p 的 数学期望为 E(p)=π , p 的方差为
σ = π(1 π)
则样本比例经标准化后的随机变量服从标准正态分布,即
z = p 一 π N(0,1)
π(1一 π) / n
①当总体比例 π 已知时,总体比例 π 在 1-α 置信水平下的置信区间为:
π(1一 π)
p 土 zC/2 n
②当总体比例 π 未知时, 用样本比例 p 代替 π , 这时,总体比例的置信区间为:
p 土 zC/2 p(1 p)
其中, zC/2 p(1 p) 是估计总体比例时的边际误差。
3 .总体方差的区间估计
当总体分布为正态分布时,根据样本方差的抽样分布,可构造总体方差 σ2 在 1-α 置信水平下的置信区间为:
(n 一 1)s2 2 (n 一 1)s2
2 < σ < 2
XC/ 2 X1一C/ 2
三、 两个总体参数的区间估计
1 .两个总体均值之差的区间估计
(1)两个总体均值之差的估计:独立样本
①大样本的估计(n1 ≥30 和 n2 ≥30)
独立样本: 如果两个样本是从两个总体中独立抽取的, 即一个样本中的元素与另一个样本中的元素相互独立, 则称为独立样本。
n1 n2
__ __
a.当两个总体的方差 σ12 和 σ22 都已知时,两个样本均值之差(x1-x2)的抽样分布服从期望值为(μ1 -μ2)、
方差为 | 1 + 2 | 的正态分布,则两个总体均值之差(μ1 -μ2 )在 1-α 置信水平下的置信区间为: (n1 n2 )
(σ2 σ2 )
σ σ
(x1 – x2 ) 士 za/ 2 n1 + n2
b .当两个总体的方差 σ12 和 σ22 未知时, 可用两个样本方差 s12 和 s22 来代替 σ12 和 σ22 ,这时,两个总体均值 之差(μ1 -μ2 )在 1-α 置信水平下的置信区间为:
(x1 – x2 ) 士 za/ 2
n1 n2
②小样本的估计
当两个样本都为小样本的情况下,为估计两个总体的均值之差,需要作出以下假定:
假定 1:两个总体都服从正态分布;
假定 2:两个随机样本独立地分别抽自两个总体。
在上述假定下,无论样本量的大小,两个样本均值之差都服从正态分布。
a .当两个总体方差 σ12 和 σ22 已知时,两个总体均值之差(μ1 -μ2 )在 1-α 置信水平下的置信区间为:
σ σ
(x1 – x2 ) 士 za/ 2 n1 + n2
b .当两个总体的方差 σ12 和 σ22 未知但相等时,即 σ12 = σ22 ,需要用两个样本的方差 s12 和 s22 来估计, 则需 要求出它们共同方差的 σ2 的一个估计值 sp2 。通常我们计算它们的加权平均数,权数就是它们的自由度,即:
s =
这时,两个样本均值之差经标准化后服从自由度为(n1+n2-2)的 t 分布,即
t = 1 1 t(n1 + n2 – 2)
(x1 – x2 ) – (μ1 – μ2 )
sp +
因此,两个总体均值之差 μ1 -μ2 在 1-α 置信水平下的置信区间为:
(x1 – x2 ) 士 ta/ 2 (n1 + n2 – 2) sp ( n1 + n2 )
2 1 1
c .当两个总体的方差 σ12 和 σ22 未知且不相等时,即 σ12 ≠σ22 ,只要两个总体都服从正态分布, 且两个样本 的样本量相等,即 n1 =n2 =n,则两个总体均值之差在 1-α 置信水平下的置信区间为:
v =
(x1 – x2 ) 士 ta/ 2 (n1 + n2 – 2) s + s
n1 n2
d .当两个总体的方差 σ12 和 σ22 未知且不相等时, 而且两个样本的样本量也不相等, 即 n1 ≠n2 时, 两个样本 均值之差经标准化后近似服从自由度为 v 的 t 分布,自由度 v 的计算公式为:
( s s )2
| (n1 n2 ) |
(s / n1 )2 (s / n2 )2
n1 – 1 n2 – 1 |
则两个总体均值之差在 1-α 置信水平下的置信区间为:
(x1 – x2 ) 士 ta/ 2 (v) +
n1 n2
s s
(2)两个总体均值之差的估计:匹配样本
匹配样本:即一个样本中的数据与另一个样本中的数据相对应。
①在大样本条件下,两个总体均值之差 μd = μ 1 -μ2 在 1-α 置信水平下的置信区间为:
d 士 za/2
__
式中,d 表示两个匹配样本对应数据的差值; d表示各差值的均值; σd 表示各差值的标准差。
说明: 当总体的 σd 未知时,可用样本差值的标准差 sd 来代替。
②在小样本情况下, 假定两个总体各观察值的配对差服从正态分布,则两个总体均值之差 μd = μ 1 -μ2 在 1-
α 置信水平下的置信区间为:
d 士 ta/2 (n – 1)
2 .两个总体比例之差的区间估计(大样本)
当两个样本量 n1 和 n2 都很大,而且总体比率不太接近 0 或 1 时,两个总体比例之差(π1 -π2 )在 1-α 置信 水平下的置信区间为:
(p1 – p2 ) 士 za/ 2 n1 + n2
p1 (1 – p1 ) p2 (1 – p2 )
3 .两个总体方差比的区间估计
两个总体方差比 σ12/σ22 在 1-α 置信水平下的置信区间为:
s / s σ s / s
< 2 < =
Fa/ 2 (n1 – 1, n2 – 1) σ2 F1-a/ 2 (n1 – 1, n2 – 1)
s / s
1/ Fa/ 2 (n2 – 1, n1 – 1)
式中, Fα/2 和 F1- α/2 是分子样本自由度为(n1-1)和分母样本自由度为(n2-1)的 F 分布的上侧面积为 α/2 和 1-α/2 的分位数。
四、 样本量的确定
1 .估计总体均值时样本量的确定
在重复抽样或无限总体抽样条件下, 令
E = zα /2 σ
n
代表所希望达到的边际误差,则所需样本量为:
n =
在实际应用中,如果 σ 的值不知道,可以用以前相同或类似的样本的标准差来代替; 也可以用试验调查的办 法,选择一个初始样本,以该样本的样本标准差作为 σ 的估计值。
样本量与置信水平、总体方差、 估计误差的关系:样本量与置信水平成正比, 在其他条件不变的情况下, 置 信水平越大, 所需的样本量也就越大;样本量与总体方差成正比, 总体的差异越大, 所要求的样本量也越大;样 本量与估计误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量就越小。
样本量的圆整法则: 利用公式计算出的样本量不一定是整数, 通常是将样本量取成较大的整数, 即将小数点 后面的数值一律进位成整数。
2 .估计总体比例时样本量的确定
在重复抽样或无限总体抽样条件下,令
E = zα /2 n
π(1 π)
代表所希望达到的边际误差,所需样本量为:
n = (zα/2)2 π(1 π)
E2
大多数情况下, 一般取 E 的值小于 0.10;在实际应用中,如果 π 的值不知道,可以用类似的样本比例来代 替; 也可以用试验调查的办法, 选择一个初始样本,以该样本的比例作为 π 的估计值;当 π 的值无法知道时,通 常取使 π(1-π)最大时的 0.5。
第 8 章 假设检验
一、假设检验的基本问题
假设检验就是利用样本信息检验假设是否成立的过程, 它先对总体参数提出某种假设, 然后利用样本信息检 验这个假设是否成立。
1 .假设的基本概念
(1)原假设与备择假设
在假设检验中,需要提出两种假设,即原假设和备择假设。
原假设:通常是研究者想收集证据予以反对的假设,也称零假设,用 H0 表示。
备择假设:通常是研究者想收集证据予以支持的假设,也称研究假设,用 H1 表示。
(2)关于建立假设的认识:
①原假设和备择假设是一个完备事件组, 且相互对立。这意味着, 在一项假设检验中, 原假设和备择假设必 有一个成立,而且只有一个成立。
②在建立假设时,通常先确定备择假设, 再确定原假设。因为备择假设是人们所关心的, 是想予以支持或证 实的,因而比较清楚、容易确定,而由于原假设和备择假设是对立的, 只要确定了备择假设, 原假设就很容易确 定出来。
③在假设检验中,等号“ = ”总是放在原假设上。
④原假设与备择假设互斥, 肯定原假设, 意味着放弃备择假设; 否定原假设, 意味着接受备择假设。拒绝原 假设是充分的,但接受备择假设不是充分的。
(3)单侧检验和双侧检验
双侧检验的拒绝域在抽样分布的两侧, 其目的是观察在规定的显著性水平下所抽取的样本统计量是否显著地 高于或者低于假设的总体参数。单侧检验又可分为左侧检验(下限检验)和右侧检验(上限检验),它们都只有 一个拒绝区域,分别位于抽样分布的左侧和右侧。
表 8- 1 假设检验的基本形式
假设 | 双侧检验 | 单侧检验 | |
左侧检验 | 右侧检验 | ||
原假设 备择假设 | H0 :μ = μ0
H1 :μ≠μ0 |
H0 :μ≥μ0
H1 :μ<μ0 |
H0 :μ≤μ0
H1 :μ>μ0 |
2 .两类错误与显著性水平
(1)两类错误
当原假设为真时拒绝原假设,所犯的错误称为第Ⅰ类错误,又称弃真错误或 α 错误。犯第Ⅰ类错误的概率通 常记为 α。
当原假设为伪时没有拒绝原假设,所犯的错误称为第Ⅱ类错误,又称取伪错误或 β 错误。犯第Ⅱ类错误的概 率通常记为 β 。正确决策和犯错误的概率,如表 8-2 所示。
表 8-2 假设检验中各种可能结果的概率
项目 | 没有拒绝H0 | 拒绝H0 |
H0为真 H0为伪 | 1-α(正确决策)
β(取伪错误) |
α(弃真错误) 1-β(正确决策) |
如果减小 α 错误,就会增大犯 β 错误的机会; 若减小 β 错误,也会增大犯 α 错误的机会。若要使 α 和 β 同时 变小,只能增大样本量。
在假设检验中, 一般事先规定允许犯第Ⅰ类错误的概率 α,然后尽量减少犯第Ⅱ类错误的概率 β。
(2)显著性水平
发生第Ⅰ类错误的概率常被用于检验结论的可靠性度量,假设检验中犯第Ⅰ类错误的概率称为显著性水平, 记为 α。
显著性水平是指当原假设实际上是正确的时, 检验统计量落在拒绝域的概率。它是人们事先指定的犯第Ⅰ类 错误的概率 α 的最大允许值。显著性水平 α 越小,犯第Ⅰ类错误的可能性自然就越小,但犯第Ⅱ类错误的可能性 则随之增大。通常选择显著性水平为 0.05 或比 0.05 更小的概率。常用的显著性水平有 α =0.01、α =0.05、α =0. 1 等。
3 .假设检验的流程
(1)根据实际问题的需要提出合适的原假设 H0 和备选假设 H1;
(2)构造适当的检验统计量,在 H0 为真的假定条件下确定该统计量的抽样分布;
(3)根据显著性水平 α 和检验统计量的抽样分布求出相应的临界值, 从而划分出原假设的拒绝域和接受域;
(4)根据样本数据计算检验统计量的观测值是属于拒绝域还是非拒绝域,从而对原假设做出拒绝或不拒绝 的决策。
4 .利用 P 值进行决策
(1)P 值的概念和利用 P 值进行决策的原理
P 值是当原假设为真时样本观察结果或更极端结果出现的概率。
如果 P 值很小, 说明这种情况发生的概率很小, 而如果这种情况出现了, 根据小概率原理, 就有理由拒绝原 假设。P 值越小,拒绝原假设的理由就越充分。
(2)P 值大小的三个决定因素
①样本数据与原假设之间的差异;
②样本量;
③被假设参数的总体分布。
(3)P 值决策的准则
P 值是反映实际观测到的数据与原假设 H0 之间不一致程度的一个概率值。P 值越小,说明实际观测到的数据 与 H0 之间不一致的程度就越大,检验的结果也就越显著。 不论是单侧检验还是双侧检验,用 P 值进行决策的准 则都是:
如果 P 值<α,拒绝 H0 ;如果 P 值>α,不拒绝 H0。
二、 一个总体参数的检验
1 .检验统计量的确定
根据假设检验的不同内容和进行检验的不同条件,需要采用不同的检验统计量。 在一个总体参数的检验中, 用到的检验统计量主要有三个: Z 统计量,t 统计量, χ2 统计量。Z 统计量和 t 统计量常常用于均值和比例的检验, χ2 统计量则用于方差的检验。
选择统计量进行检验需要考虑的因素:
(1)样本量
在大样本条件下, 若总体为正态分布, 则样本统计量服从正态分布; 若总体为非正态分布, 则样本统计量渐 近服从正态分布。
检验统计量
Z = x – μ0
σ /
服从标准正态分布。实践中,当总体标准差 σ 未知时,可以用样本标准差 s 代替,即:
Z = x – μ0
s /
仍服从标准正态分布。
(2)总体标准差 σ 是否已知
①在小样本情况下,如果总体标准差 σ 已知,样本统计量将服从正态分布,这时可以采用 Z 统计量;
②如果总体标准差 σ 未知,检验统计量t = 服从自由度为 n-1 的 t 分布。
当 n<30 时,如果 σ 未知,必须使用 t 统计量;在 n>30 的条件下,选择 t 分布还是 z 分布可以根据使用者 的偏好。
2 .总体均值的检验(如表 8-3 所示)
表 8-3 总体均值的检验
类型 | 条件 | 检验统计量 | H0 、H1 | 拒绝域 | |||||
I | 小样本
σ2 已知 |
z | x – 0
/ |
H0: H1: | μ= μ0
μ μ0 |
| z | z /2 | |||
H0: H1: | μ μ0
0 |
z z α | |||||||
H0: H1: | μ μ0
μ μ0 |
z z α | |||||||
II | 小样本
σ2 未知 |
t = | x – 0
s / |
H0: H1: | μ= μ0
μ μ0 |
> ta/2
| t | |
|||
H0: H1: | μ μ0
μ μ0 |
t t | |||||||
H0: H1: | 0
0 |
t t a | |||||||
III | 大样本
σ2 已知或未知 |
z =
z = |
x – 0 | H0: H1: | μ= μ0
μ μ0 |
| z | z /2 | |||
x |
/
μ0 _________ |
H0: H1: | μ μ0
μ μ0 |
a z z |
|||||
s / | H0: H1: | μ μ0
0 |
z z α |
通常把 α 称为显著性水平。在假设检验中, 它的含义是当原假设正确时却被拒绝的概率或风险, 即为假设检 验中犯弃真错误的概率。
3 .总体比例的检验
在大样本情况下,若 np>5 ,n(1-p)>5,则可以把二项分布问题变换为正态分布问题近似地去求解。 在总体比例的检验中,通常采用 Z 统计量。在比例问题的检验中,统计量 Z 的计算公式为:
Z = p 一 π0
π0 (1一 π0 )
n
式中, p 为样本比例; π0 为总体比例 π 的假设值。
4 .总体方差的检验
对单个正态总体方差的检验所使用的是 χ2 统计量: χ2 =(n-1)s2/σ2 ,其中,
s2 = Σ (xi – x )2
n – 1
若进行双侧检验,拒绝域分布在 χ2 统计量分布曲线的两边;若是单侧检验,拒绝域分布在 χ2 统计量分布曲 线的一边。具体是在左边还是右边,需要根据原假设和备择假设的情况而定。
三、两个总体参数的检验
1 .检验统计量的确定(如图 8- 1 所示)
图 8- 1 检验统计量的确定
2 .两个总体均值之差的检验
(1)两个正态总体且方差已知,检验统计量为
Z = (x1 – x2 ) – (μ1 – μ2 )
σ12 σ22
+ n1 n2
服从标准正态分布。
(2)两个正态总体方差未知且不等,抽取小样本检验统计量为
t =
近似服从自由度为 f 的 t 分布。其中
(x1 – x2 ) – (μ1 – μ2 ) |
s s
n1 n2 + |
f =
( s s )2
| (n1 n2 ) |
(s / n1 )2 (s / n2 )2
n1 – 1 n2 – 1 |
3 .两个总体比例之差的检验
(1)检验两个总体比例相等的假设
在大样本条件下,检验统计量为
p1 – p2
Z =
1 1 p(1-p)( + )
n1 n2
其中, p1 和 p2 代表样本比例, p=(p1n1+p2n2 )/(n1+n2)。
(2)检验两个总体比例之差不为零的假设
检验统计量为
Z =
(p1 –p2 ) – (石1 – 石2 )
=
p1 (1-p1 )
p2 (1-p2 ) n2
+
n1
(p1 –p2 ) – d0
+
p1 (1-p1 ) n1
p2 (1-p2 ) n2
4 .两个总体方差比的检验
两个正态总体方差比的假设检验,检验统计量为 F =s 12/s22 ,服从 F(n1-1 ,n2-1)分布,其中 s12 和 s22 为 两个样本的方差。
5 .检验中的匹配样本
如果是从一个总体抽取两个样本, 则是匹配样本, 若是从两个总体抽取分别各抽取一个样本, 那么这两个样 本是相互独立的。在两个总体参数的检验问题中, 根据可能的情况采用匹配样本的设计, 可以有效地提高检验的 效率。
四、 检验问题的进一步说明
从假设检验的原理看, 不拒绝原假设意味着我们所构造的与原假设相矛盾的小概率事件没有发生, 但可能还 有许多其他的与原假设矛盾的小概率事件, 我们没有也无法证实所有的这些小概率事件不会发生, 因此, 我们把 假设检验中出现接受 H0 的结果解释为“没有发现充足的证据反对 H0 ”,或更严格地解释为“在显著性水平 “ 下 没有发现充足的证据反对 H0 ”,而不用 “接受原假设 H0 ”,因为我们无法证明原假设是真的。
注意: 接受备择假设一定意味着原假设错误;没有拒绝原假设并不能表明备择假设一定是错的。
第 9 章 分类数据分析
一、分类数据与 χ2 统计量
1 .分类数据
按照所采用的计量尺度不同, 可以将统计数据分为分类数据、顺序数据和数值型数据。分类数据和顺序数据 都是只能归于某一类别的非数字型数据,它们是对事物进行分类的结果,其结果均表现为类别,用文字来表述, 不过顺序数据的类别是有序的;数值型数据是按数字尺度测量的观测值,其结果表现为具体的数值。
分类数据是对事物进行分类的结果, 其特征是, 调查结果虽然用数值表示, 但不同数值描述了调查对象的不 同特征。数值型数据可以转化为分类数据。
分类数据的结果是频数, χ2 检验是对分类数据的频数进行分析的统计方法。
2 . χ2 统计量
χ2 统计量可以对分类数据做拟合优度检验和独立性检验,可以用于测定两个分类变量之间的相关程度。 若用 fo 表示观察值频数,用 fe 表示期望值频数,则 χ2 统计量可以写为:
X2 = Σ (fo –fe )2
fe
χ2 检验:χ2 检验是利用随机样本对总体分布与某种特定分布拟合程度的检验, 也就是检验观察值与理论值之 间的紧密程度。 χ2 检验主要用于拟合优度检验和独立性检验。
(1)χ2 统计量的特征
①χ2 ≥0,因为它是对平方值结果的汇总;
②χ2 统计量的分布与自由度有关;
③χ2 统计量描述了观察值与期望值的接近程度。两者越接近,即 fo-fe 的绝对值越小,计算出的 χ2 值越小; 反之, fo-fe 的绝对值越大,计算出的 χ2 值也越大。χ2 检验正是通过对 χ2 的计算结果与 χ2 分布中的临界值进行比 较,做出是否拒绝原假设的统计决策。
(2)χ2 分布与自由度的密切关系
自由度越小,χ2 的分布就越向左边倾斜;随着自由度的增加, χ2 分布的偏斜程度趋于缓解, 逐渐显露出对称 性,随着自由度的继续增大, χ2 分布将趋近于对称的正态分布。
(3)应用 χ2 检验统计量的注意事项
①各组的理论频数 fe 不得小于总频数 n;
②总频数应较大,至少大于 50;
③如果某组理论频数小于 5,可将相邻的若干组合并,直至理论频数大于 5 为止;
④倘若有两个以上的单元,如果 20%的单元期望频数 fe 小于 5,则不能应用 χ2 检验。
二、拟合优度检验
拟合优度检验是利用样本信息对总体分布作出推断, 检验总体是否服从理论分布(如均匀分布或二项分布)。 其方法是把样本分成 K 个互斥的类,然后根据要检验的理论分布算出每一类的期望频数,与实际的观察频数进 行比较,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。
拟合优度检验的步骤为:
(1)确定原假设与备择假设,原假设 H0 表示总体服从设定的分布;备择假设 H1 ,表示总体不服从设定的 分布。同时,确定显著性水平 α;
(2)从要研究的总体中,随机抽取一个观察值样本;
(3)按照“原假设为真 ”这一假定,导出一组期望频数或理论频数。通常这就是假定某概率分布适合于所 研究的总体;
(4)对观察频数与理论频数进行比较,如果它们之间的差异很大,以致在确定的显著性水平下不能把它归 之于随机波动, 则拒绝原假设。
三、列联分析:独立性检验
拟合优度检验是对一个分类变量的检验, 对于两个分类变量的分析, 称为独立性检验, 分析过程可以通过列 联表的方式呈现,故又可称为列联分析。
1 .列联表
列联表是由两个以上的变量进行交叉分类的频数分布表。
表中的行是态度变量, 表中的列是单位变量。将横向变量(行)的划分类别视为 R,纵向变量(列) 的划分 类别视为 C,则可以把每一个具体的列联表称为 R×C 列联表。
2 .独立性检验
独立性检验就是分析列联表中行变量和列变量是否相互独立。也就是检验行变量与列变量之间是否存在依赖 关系。 独立性检验的特点在于其理论频数不是预先确定的,而需要从样本资料中获得。
四、 列联表中的相关测量
可以用相关系数测定两个变量之间的相关程度,列联表中的变量通常是类别变量, 它们表现研究对象的不同 品质类别,这种分类数据之间的相关称为品质相关。
经常用到的品质相关系数有:φ 相关系数、列联相关系数、 V 相关系数。
1 . φ 相关系数
(1)概念
φ 相关系数是描述 2×2 列联表数据相关程度最常用的一种相关系数,其计算公式为:
Q =
2
式中,
X2 = Σ
n 为列联表中的总频数,也即样本量。
(2)特点
①φ 系数适合 2×2 列联表, 这是因为对于 2×2 列联表中的数据,φ 系数取值为 0~1。 ②当 φ =0 ,表明两变量相互独立;当 φ = 1 ,表明两变量完全相关。
注意: 当列联表 R×C 中的行数 R 或列数 C 大于 2 时, φ 系数将随着 R 或 C 的变大而增大,且 φ 值没有上 限。这时用 φ 系数测定两个变量的相关程度就不够清晰,可以采用列联相关系数。
2 .列联相关系数
(1)概念
列联相关系数又称列联系数,简称 c 系数,主要用于列联表大于 2×2 的情况,其计算公式为:
c =
当列联表中的两个变量相互独立时,系数 c =0,但它不可能大于 1。
(2)特点
列联系数可能的最大值依赖于列联表的行数和列数,且随着 R 和 C 的增大而增大。 计算简便,且对总体的 分布没有任何要求,列联系数是一种适应性较广的测度值。
(3)局限性
根据不同的行和列计算的列联系数不便于比较,除非两个列联表中行数和列数一致。
3 .V 相关系数
(1)概念
V 相关系数的计算公式为:
2
X
V =
n min[(R 1), (C 1)]
式中 min[(R-1),(C-1)]表示取(R-1),(C-1)中较小的一个。
(2)特点
当两个变量相互独立时,V=0;当两个变量完全相关时, V=1 ,所以 V 的取值在 0~1 之间。如果列联表 中有一维为 2 ,即 min[(R-1),(C-1)] =1,则 V 值就等于 φ 值。
4 .数值分析
对于同一个数据,系数 φ , c ,V 的结果不同。对于不同的列联表,行数和列数的差异也会影响系数值。因 此, 在对不同列联表变量之间的相关程度进行比较时, 不同列联表中行与行、列与列的个数要相同, 并且采用同 一种系数,这样的系数值才具有可比性。
五、 列联分析中应注意的问题
(1)一般来说,在列联表中变量的位置是任意的,既可以把变量 X 放在列的位置,也可以放在行的位置;
(2)如果变量 X 与 Y 存在因果关系,令 X 为自变量(原因),Y 为因变量(结果),一般自变量 X 放在列 的位置, 条件百分表多按自变量的方向计算, 这样可以更好地表现原因对结果的影响。但如果因变量在样本内的 分布不能代表其在总体内的分布, 例如, 为了满足分析的需要, 抽样时扩大了因变量某项内容的样本量, 这时仍 以自变量的方向计算百分表就会歪曲实际情况。在这种情况下,可以把计算百分表的方向变换一下,改为按因变 量方向计算,这样就能得到自变量对因变量比较真实的反映。
第 10 章 方差分析
一、方差分析引论
相比于假设检验, 方差分析不仅可以提高检验的效率, 同时由于它将所有的样本信息结合在一起, 因此增加 了分析的可靠性。
1 .方差分析及其有关术语
方差分析:是检验多个总体的均值是否相等的一种统计方法。本质上是通过检验各总体的均值是否存在显著 差异,来判断分类变量对数值变量的影响程度。
因素(或因子):在方差分析中,所要检验的对象称为因素或因子。
水平(或处理):因素的不同表现称为水平或处理。
观测值: 每个因子水平下得到的样本数据称为观测值。
当方差分析只涉及一个分类变量时,就称为单因素方差分析;若涉及两个分类变量,就称为双因素方差分析。 每一个分类变量都称为一个因素。
2 .方差分析的基本思想和原理
在方差分析中,数据的误差是用平方和来表示的。
组内误差:来自水平内部的数据误差。它反映了一个样本内部数据的离散程度, 组内误差只含有随机误差。
组间误差:来自不同水平之间的数据误差。这种差异可能是由于抽样本身形成的随机误差, 也可能是由于行 业本身的系统性因素造成的系统误差。因此,组间误差是随机误差和系统误差的总和,它反映了不同样本之间数 据的离散程度。
总平方和(SST):反映全部数据误差大小的平方和,它反映了全部观测值的离散状况。
组内平方和(SSE):反映组内误差大小的平方和,也称为误差平方和或残差平方和,它反映了每个样本内 各观测值的离散状况。
组间平方和(SSR):反映组间误差大小的平方和,也称为因素平方和,它反映了样本均值之间的差异程度。 (1)方差分析中的三个基本假定
①每个总体都应服从正态分布。 即对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。 ②各个总体的方差 σ2 必须相同。 即对于各组观察数据,是从具有相同方差的正态总体中抽取的。
③观测值是独立的。
在上述假定成立的前提下,要分析自变量对因变量是否有影响,形式上也就转化为检验自变量的各个水平(总 体)的均值是否相等。
(2)方差分析的检验问题
设因素有 k 个水平,每个水平的均值分别用 μ1,μ2,„,μk 表示,要检验 k 个水平(总体) 的均值是否相等, 需要提出如下假设:
H0 :μ 1 =μ2 =„ =μk ,自变量对因变量没有显著影响
H1 :μ 1 ,μ2 ,„,μk 不全相等,自变量对因变量有显著影响
二、 单因素方差分析
单因素方差分析:方差分析中只涉及一个分类型自变量,其研究的是一个分类型自变量对一个数值型因变量 的影响。
1 .数据结构
进行单因素方差分析时,需要得到如表 10- 1 所示的数据结构。
表 10- 1 单因素方差分析的数据结构
观测值 (j) | 因素(i) | |||
A1 | A2 | „ | Ak | |
1 | x11 | x21 | „ | xk1 |
2 | x12 | x22 | „ | xk2 |
n | x1n | x2n | „ | xkn |
其中, A 表示因素,因素的 k 个水平(总体) 分别用 A1,A2 ,„,Ak 表示,每个观测值用 xij(i=1,2 ,„, k;j=1 ,2 ,„,n)表示,即 xij 表示第 i 个水平(总体)的第 j 个观测值。其中,从不同水平中所抽取的样本 量可以相等,也可以不相等。
2 .分析步骤
(1)提出假设
检验因素的 k 个水平(总体)的均值是否相等,需要提出假设为:
H0 :μ 1 =μ2 =„ =μi =„ =μk ,自变量对因变量没有显著影响
H1 :μi(i=1 ,2 ,„,k)不全相等,自变量对因变量有显著影响
如果拒绝原假设 H0 ,则意味着自变量对因变量有显著影响,也就是自变量与因变量之间有显著关系;如果 不拒绝原假设 H0 ,则没有证据表明自变量对因变量有显著影响,也就是说,不能认为自变量与因变量之间有显 著关系。
(2)构造检验的统计量
为检验 H0 是否成立,需要确定检验的统计量。
①计算各样本的均值
_
假定从第 i 个总体中抽取一个容量为 ni 的简单随机样本,令xi 为第 i 个总体的样本均值,则有:
xij
xi = (i = 1, 2, , k)
其中,ni 为第 i 个总体的样本量; xij 为第 i 个总体的第 j 个观测值。
②计算全部观测值的总均值
它是全部观测值的总和除以观测值的总个数的结果,令总均值为x ,则有:
nixi
x =
式中, n =n1+n2+„+nk。
③计算各误差平方和
a .总平方和(SST)
它是全部观测值 xij 与总平均值x 的误差平方和, 反映了全部观测值与这些观测值平均数之间的差异, 其计 算公式为:
SST = (xij –x )2
b .组间平方和(SSA)
_
它是各组平均值xi(i=1 ,2 ,„,k)与总平均值x 的误差平方和,反映各样本均值之间的差异程度,因此
又称为因素平方和。 其计算公式为:
SSA = ni (xi – x )2
c .组内平方和(SSE)
它是每个水平或组的各样本数据与其组平均值的误差平方和, 反映了每个样本各观测值的离散状况, 因此又 称为组内平方和或残差平方和。该平方和反映了随机误差的大小,其计算公式为:
SSE = (xij –xi )2
三个平方和之间的关系为:
总平方和(SST)=组间平方和(SSA)+组内平方和(SSE)
SSA 是对随机误差和系统误差大小的度量,它反映了自变量对因变量的影响,也称为自变量效应或因子效应; SSE 是对随机误差的大小的度量,它反映了除自变量对因变量的影响之外,其他因素对因变量的总影响,因此 SSE 也被称为残差变量,它所引起的误差也称为残差效应;SST 是全部数据总误差程度的度量, 它反映了自变量 和残差变量的共同影响,因此它等于自变量效应加残差效应。
④计算统计量
均方(方差): 由于各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影 响,需要将其平均,也就是用各平方和除以它们所对应的自由度,这一结果称为均方,也称为方差。
三个平方和所对应的自由度分别为:
SST 的自由度为 n-1,其中 n 为全部观测值的个数;
SSA 的自由度为 k-1,其中 k 为因素水平(总体)的个数;
SSE 的自由度为 n-k。
SSA 的均方也称为组间均方或组间方差,记为 MSA,其计算公式为:
MSA=组间平方和/自由度=SSA/(k-1)
SSE 的均方也称为组内均方或组内方差,记为 MSE,其计算公式为:
MSE=组内平方和/自由度=SSE/(n-k)
将 MSA 和 MSE 进行对比,即得到所需要的检验统计量 F。当 H0 为真时, 分子、分母的数学期望都等于 σ2, 二者的比值服从分子自由度为 k-1、分母自由度为 n-k 的 F 分布,即
F =MSA/MSE~F(k-1 ,n-k)
(3)作出统计决策
如果原假设 H0:μ1 =μ2 =„=μi =„=μk 成立,则表明没有系统误差, 组间方差 MSA 与组内方差 MSE 的比 值差异就不会太大; 如果组间方差显著大于组内方差, 说明各水平(总体) 之间的差异显然不仅有随机误差, 还 有系统误差。因此,判断因素的水平是否对其观测值有显著影响, 实际上也就是比较组间方差与组内方差之间差 异的大小。
根据给定的显著性水平 α,在 F 分布表中查找与分子自由度 df1 =k-1、分母自由度 df2 =n-k 相应的临界值 Fα(k-1 ,n-k)。
若 F>Fα ,则拒绝原假设 H0 :μ 1=μ2 =„ =μi =„ =μk ,表明 μi(i=1,2 ,„,k)之间的差异是显著的,即 所检验的因素对观测值有显著影响。
若 F<Fα ,则不拒绝原假设 H0 ,没有证据表明 μi(i=1 ,2 ,„,k)之间有显著差异, 即这时还不能认为所 检验的因素对观测值有显著影响。
(4)方差分析表
为使计算过程更加清晰, 通常将方差分析的计算步骤和过程的内容列在一张表内, 这就是方差分析表。其一 般形式如表 10-2 所示。
表 10-2 单因素方差分析表的一般形式
误差来源 | 平方和 SS | 自由度 df | 均方 MS | F 值 | P 值 |
组间(因素影响) | SSA | k-1 | MSA | F MSA
= MSE |
|
组内(误差) | SSE | n-k | MSE | ||
总和 | SST | n-1 |
在进行决策时,可以直接利用方差分析表中的 P 值与显著性水平 α 的值进行比较。若 P<α,则拒绝 H0 ;若 P>α,则不拒绝 H0。
3 .关系强度的测量
可以用组间平方和(SSA)占总平方和(SST)的比例大小来反映两个变量之间的关系强度,这一比例记为 R2 ,即
R2 =SSA(组间 SS)/SST (总 SS)
可以给出分类变量 A 与数值变量 X 相关系数 r 的计算公式:
r =
根据定义 r 满足不等式: 0≤r≤1。
4 .方差分析中的多重比较
当拒绝原假设时, 表明 μi(i=1,2 ,„,k)之间的差异是显著的,但 μ1 与 μ2、μ 1 与 μ3 、„、μ 1 与 μk 、„、 μk- 1 与 μk 之间究竟是哪两个均值不同,还需要做进一步的分析,所使用的方法就是多重比较方法(例如最小显 著差异方法),它是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。
最小显著差异方法(LSD)是由费希尔提出的,其进行检验的具体步骤为:
(1)提出假设: H0 :μi =μj ;H0 :μi ≠μj;
_ _
(2)计算检验统计量: xi-xj;
(3)计算 LSD,其公式为:
LSD = tC/2 (n k) MSE( + )
1 1
ni nj
式中, k 是因素中水平的个数; MSE 为组内方差; ni 和 nj 分别是第 i 个样本和第 j 个样本的样本量。
_ _ _ _
(4)根据显著性水平 α 作出决策。如果|xi-xj |>LSD ,则拒绝 H0 ;如果|xi-xj |<LSD,则不拒绝 H0。
三、 双因素方差分析
1 .双因素方差分析及其类型
当方差分析中涉及两个分类型自变量时,称为双因素方差分析。
(1)无交互作用的双因素方差分析(又称为无重复双因素分析):两个因素对因变量的影响是相互独立的;
(2)有交互作用的双因素方差分析(又称为可重复双因素分析):两个因素搭配在一起会对因变量产生一种 新的效应。
2 .无交互作用的双因素方差分析
(1)数据结构(如表 10-3 所示)
表 10-3 双因素方差分析的数据结构
列因素(j) | 平均值xi | |||||
列 1 | 列 2 | „ | 列 r | |||
行
因 素 (i ) |
行 1 | x11 | x12 | „ | x1r | x1· |
行 2 | x21 | x22 | „ | x2r | x2· | |
行 k | xk1 | xk2 | „ | xkr | x k | |
平均值 x j | x 1 | x 2 | „ | x r | x |
表 10-3 中,行因素共有 k 个水平,列因素共有 r 个水平。每一个观察值上 xij(i=1,2 ,„,k;j=1,2 ,„, r)看做由行因素的 k 个水平和列因素的 r 个水平所组合成的 k×r 个总体中抽取的样本量为 1 的独立随机样本。 这 k×r 个总体中的每一个总体都服从正态分布,且有相同的方差。
_
表 10-3 中, xi•是行因素的第 i 个水平下各观察值的平均值,其计算公式为:
xi = (i = 1, 2, , k)
_
x•j 是列因素的第 j 个水平下的各观察值的均值,其计算公式为:
k
x j = (j = 1, 2, , r)
x 是全部 kr 个样本数据的总平均值,其计算公式为:
xij
x = i=1 j =1
kr
(2)分析步骤
①提出假设
对行因素提出的假设为:
H0 :μ 1 =μ2 =„ =μi =„ =μk ,行因素(自变量)对因变量没有显著影响
H1 :μi(i=1 ,2 ,„,k)不全相等,行因素(自变量)对因变量有显著影响
式中, μi 为行因素的第 i 个水平的均值。
对列因素提出的假设为:
H0 :μ 1 =μ2 =„ =μj =„ =μr ,列因素(自变量)对因变量没有显著影响
H1 :μj(j=1 ,2 ,„,r)不全相等,列因素(自变量)对因变量有显著影响
式中, μj 为列因素的第 j 个水平的均值。
②构造检验的统计量
总平方和(SST)是全部样本观察 xij(i=1 ,2 ,„,k;j=1 ,2 ,„,r)与总的样本平均值x 的误差平方 和,即
k r
SST = Σ Σ(xij – x )2
i=1 j =1
k r k r k r
= Σ Σ(xi – x )2 + Σ Σ(x j – x )2 + Σ Σ(xij – xi – x j + x )2 i=1 j =1 i=1 j =1 i=1 j =1
其中,分解后的等式右边的第一项是行因素所产生的误差平方和,记为 SSR,即
k r
SSR = Σ Σ(xi – x )2
i=1 j =1
第二项是列因素所产生的误差平方和,记为 SSC,即
k r
SSC = Σ Σ(x j – x )2
i=1 j =1
第三项是除行因素和列因素之外的剩余因素影响产生的误差平方和,称为随机误差平方和,记为 SSE,即
k r
SSE = Σ Σ(xij – xi – x j + x )2
i=1 j =1
三者之间的关系为: SST =SSR+SSC+SSE。
a .与各误差平方和相对应的自由度分别为:
总平方和 SST 的自由度为 kr-1;
行因素的误差平方和 SSR 的自由度为 k-1;
列因素的误差平方和 SSC 的自由度为 r-1;
随机误差平方和 SSE 的自由度为(k-1) ×(r-1)。
b .均方是各平方和除以相应的自由度,所以各因素的均方分别为:
行因素的均方 MSR =SSR/(k-1);列因素的均方 MSC =SSC/(r-1);随机误差项的均方 MSE =SSE/[(k -1)(r-1)]。
c .检验各因素对因变量的影响是否显著采用的统计量分别为:
检验行因素对因变量的影响是否显著,采用的统计量:
FR =MSR/MSE~F(k-1,(k-1)(r-1))
检验列因素对因变量的影响是否显著,采用的统计量:
FC =MSC/MSE~F(r-1,(k-1)(r-1))
③统计决策
若 FR>Fα ,则拒绝原假设 H0 :μ 1 =μ2 =„ =μi =„ =μk,表明 μi(i=1 ,2 ,„,k)之间的差异是显著的, 即所检验的行因素对观测值有显著影响。
若 FC>Fα ,则拒绝原假设 H0 :μ 1 =μ2 =„ =μj =„ =μr ,表明 μj(j=1 ,2 ,„,r)之间的差异是显著的, 即所检验的列因素对观测值有显著影响。
(3)关系强度的测量
行平方和列平方和加在一起度量了两个自变量对因变量的联合效应,联合效应与总平方和的比值定义为 R2, 其平方根 R 则反映了这两个自变量合起来与因变量之间的关系强度。即
R2 =联合效应/总效应=(SSR+SSC)/SST
(4)方差分析表
为使计算过程更加清晰, 通常将方差分析的计算步骤和过程的内容列在一张表内, 这就是方差分析表。其一 般形式如表 10-4 所示。
表 10-4 无交互作用的双因素方差分析表的一般形式
误差来源 | 误差平方和 SS | 自由度 df | 均方 MS | F 值 | P 值 |
行因素 | SSR | k-1 | MSR | FR | |
列因素 | SSC | r-1 | MSC | FC | |
误差 | SSE | (k-1)×(r-1) | MSE | ||
总和 | SST | kr-1 |
3 .有交互作用的双因素方差分析
有交互作用的双因素方差分析需要提出假设、检验的统计量、统计决策等步骤。提出假设时, 需要对行变量、 列变量和交互作用变量分别提出假设,其余分析过程与无交互作用的双因素方差分析步骤一致。
(1)平方和的分解
_
设: xijl 为对应于行因素的第 i 个水平和列因素的第 j 个水平的第 l 行的观察值; xi•为行因素的第 i 个水平的
_ _
样本均值; x•j 为列因素的第 j 个水平的样本均值; xij 为对应于行因素的第 i 个水平和列因素的第 j 个水平组合的
样本均值; x 为全部 n 个观察值的总均值。
平方和之间的关系为: SSR+SSC+SSRC+SSE=SST。
其中,总平方和
k r m
SST = Σ Σ Σ(xijl – x )2
i=1 j =1 l=1
行变量平方和
k
SSR = rm Σ(xi –x )2
i=1
列变量平方和
r
SSC = km Σ(x j –x )2
j =1
交互作用平方和
k r
SSRC = m Σ Σ(xij –xi –x j + x )2
i=1 j =1
误差项平方和(SSE):SSE=SST-SSR-SSC-SSRC
(2)分析步骤
①提出假设
对行因素提出的假设为:
H0 :μ 1 =μ2 =„ =μi =„ =μk ,行因素(自变量)对因变量没有显著影响
H1 :μi(i=1 ,2 ,„,k)不完全相等,行因素(自变量)对因变量有显著影响
对列因素提出的假设为:
H0 :μ 1 =μ2 =„ =μj =„ =μr ,列因素(自变量)对因变量没有显著影响
H1 :μj(j=1 ,2 ,„,r)不完全相等,列因素(自变量)对因变量有显著影响
对交互作用提出的假设为:
H0 :μ 1 =μ2 =„ =μt =„ =μm,交互作用对因变量没有显著影响
H1 :μt(t =1 ,2 ,„,m)不完全相等,交互作用对因变量有显著影响
②构造检验的统计量
检验行因素对因变量的影响是否显著,采用的统计量:
FR =行因素的均方 MSR/误差的均方 MSE~F(k-1 ,kr(m-1))
检验列因素对因变量的影响是否显著,采用的统计量:
FC =列因素的均方 MSC/误差的均方 MSE~F(r-1 ,kr(m-1))
检验交互作用对因变量的影响是否显著,采用的统计量:
FRC =交互作用的均方 MSC/误差的均方 MSE~F((k-1)(r-1),kr(m-1))
③统计决策
若 FR>Fα ,则拒绝原假设 H0 :μ 1 =μ2 =„ =μi =„ =μk,表明 μi(i=1 ,2 ,„,k)之间的差异是显著的, 即所检验的行因素对观测值有显著影响。
若 FC>Fα ,则拒绝原假设 H0 :μ 1 =μ2 =„ =μj =„ =μr ,表明 μj(j=1 ,2 ,„,r)之间的差异是显著的, 即所检验的列因素对观测值有显著影响。
若 FRC>Fα ,则拒绝原假设 H0:μ 1 =μ2 =„ =μt =„ =μm,表明 μt(t =1,2 ,„,m)之间的差异是显著的, 即所检验的交互作用对观测值有显著影响。
(3)方差分析表
为使计算过程更加清晰, 通常将方差分析的计算步骤和过程的内容列在一张表内, 这就是方差分析表。其一 般形式如表 10-5 所示,利用表中的 F 统计量,就可以对原假设进行检验。
表 10-5 有交互作用的双因素方差分析表的一般形式
误差来源 | 误差平方和 SS | 自由度 df | 均方 MS | F 值 | P 值 |
行因素 | SSR | k-1 | MSR = SSR
k 1 |
FR = | |
列因素 | SSC | r-1 | MSR = SSC
r 1 |
FC = | |
交互作用 | SSRC | (k-1)×(r-1) | MSR = SSRC
(k 1)(r 1) |
FRC = | |
误差 | SSE | kr(m-1) | MSR = SSE
kr(m 1) |
||
总和 | SST | n-1 |
第 11 章 一元线性回归
一、变量间关系的度量
1 .变量间的关系
变量之间的关系可分为两种类型, 函数关系和相关关系。函数关系是指变量之间存在着严格确定的依存关系, 相关关系是指变量之间存在一定的相依关系,但又不是确定的和严格依存的。
(1)函数关系
①概念: 设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时, y 按 照确定的关系取相应的值,则称 y 是 x 的函数,记为 y =f(x),其中 x 称为自变量, y 称为因变量。
②函数关系的特点: 函数关系是一一对应的确定关系。
(2)相关关系
①概念: 由于影响一个变量的因素非常多,造成了变量之间关系的不确定性。这种变量之间存在的不确定的 数量关系,称为相关关系。
②相关关系的特点: 一个变量的取值不能由另一个变量唯一确定, 当变量 x 取某个值时, 变量 y 的取值可能 有多个。对这种关系不确定的变量不能用函数关系进行描述,但也不是无任何规律可循,许多变量之间存在着一 定的客观规律。
(3)函数关系和相关关系的联系
变量之间的函数关系和相关关系并不存在严格的界限,由于有测量误差等原因, 函数关系在实际中往往通过 相关关系表现出来; 反之,当对现象之间的内在联系和规律性了解得更清楚深刻的时候,相关关系也可能转化为 函数关系。因此,相关关系通常可以用一定的函数关系表达式近似地描述。
2 .相关关系的描述与测度
(1)相关分析对总体的两个假定
①两个变量之间是线性关系;
②两个变量都是随机变量。
(2)散点图
①概念: 对于两个变量 x 和 y,通过观察或试验得到若干组数据,记为(xi ,yi)(i=1 ,2 ,„,n)。用坐标 的横轴代表变量 x,纵轴代表因变量 y,每组数据(xi ,yi )在坐标系中用一个点表示, n 组数据在坐标系中形成 的 n 个点称为散点, 由坐标及其散点形成的二维数据图称为散点图。
②散点图的作用: 散点图是描述变量之间关系的一种直观方法, 从中可以大体上看出变量之间的关系形态及 关系强度。
(3)相关关系的分类
相关关系的表现形态大体上可分为线性相关、非线性相关、完全相关和不相关等几种,可以按不同的标准加 以划分。
①完全相关、不完全相关和不相关
按相关关系的程度划分, 可分为完全相关、不完全相关和不相关三种形式。当一种现象的数量变化完全由另 一个现象的数量变化所确定时, 称这两种现象之间的关系为完全相关。如图(c)和(d)所示。当两个现象彼此 互不影响,其数量变化各自独立时,称这两个现象之间的关系为不相关或零相关。 如图(f)所示。 若两个现象 之间的关系介于完全相关和不相关之间, 就称为不完全相关, 一般的相关现象都是指这种不完全相关, 这是相关 分析的研究对象。
②线性相关和非线性相关
按相关形式划分, 可以分为线性相关和非线性相关两种形式。当一个变量发生变动, 另一个变量随之发生大 致均等的变动(增加或减少),从图形上看,其观测点的分布近似地表现为直线形式,就是线性相关。而当一个 变量发生变动,另一个变量也随之发生变动(增加或减少),但是这种变动不是均等的,从图形上看,其观察点 的分布表现为各种不同的曲线形式,这种相关关系称为非线性相关。 如图(e)所示。
③正相关和负相关
按相关的方向划分, 可分为正相关和负相关两种形式。对于两个相关现象,当一个变量的数值增加(或减少) 时, 另一个变量的数值也随之增加(或减少),这种相关称为正相关。如图(a)所示。当一个变量的数值增加(或
减少)时,而另一个变量的数值相反的呈减少(或增加)趋势变化,称为负相关。 如图(b)所示。
图 11- 1 不同形态的散点图
(4)相关系数
通过散点图可以判断两个变量之间有无相关关系, 并对变量间的关系形态作出大致的描述, 但不能准确反映 变量之间的关系强度。需要计算相关系数来准确度量两个变量之间的关系强度。
①相关系数的概念
相关系数:根据样本数据计算的度量两个变量之间线性关系强度的统计量。
总体相关系数: 是反映变量之间线性相关程度的一种特征值,表现为一个常数。 记为 ρ;
样本相关系数:相关系数是根据样本数据计算的,抽取的样本不同, 其具体的数值也会有所差异。样本相关 系数是总体相关系数的一致估计量。样本相关系数记为 r,其计算公式为:
r =
n Σ xy 一 Σ x Σ y
n Σ x2 一 (Σ x)2 . n Σ y2 一 (Σ y)2
按照上述计算公式计算的相关系数也称为线性相关系数,或 Pearson 相关系数。
②相关系数的性质
a.r 的取值范围在-1~+1 之间,即-1≤r≤1。若 0<r≤1,表明 x 与 y 之间存在正线性相关关系; 若-1≤r <0,表明 x 与 y 之间存在负线性相关关系; 若 r=+1,表明 x 与 y 之间为完全正线性相关关系; 若 r =- 1,表 明 x 与 y 之间为完全负线性相关关系。可见当|r| =1 时,y 的取值完全依赖于 x,二者之间即为函数关系;当 r =0 时,说明 y 的取值与 x 无关,即二者之间不存在线性相关关系。 |r|→ 1 说明两个变量之间的线性关系越强;|r|→0 说明两个变量之间的线性关系越弱。
b .r 具有对称性。 x 与 r 之间的相关系数 rxy 和 y 与 x 之间的相关系数 ryx 相等,即 rxy =ryx。
c .r 数值大小与 x 和 y 的原点及尺度无关。 改变 x 和 y 的数据原点及计量尺度,并不改变 r 的数值大小。
d .r 仅仅是 x 与 y 之间线性关系的一个度量,它不能用于描述非线性关系。 这意味着, r =0 只表示两个变 量之间不存在线性相关关系, 并不说明变量之间没有任何关系, 它们之间可能存在非线性相关关系。变量之间的 非线性相关程度较大时,就可能导致 r =0。因此,当 r =0 或很小时,不能轻易得出两个变量之间不存在相关关 系的结论,而应结合散点图作出合理的解释。
e .r 虽然是两个变量之间线性关系的一个度量,却不一定意味着 x 与 y 一定有因果关系。
f.对于一个具体的 r 取值,根据经验可将相关程度分为以下几种情况:当|r|≥0.8 时,可视为高度相关;0.5≤|r| <0.8 时, 可视为中度相关; 0.3≤|r|<0.5 时, 视为低度相关;当|r|<0.3 时, 说明两个变量之间的相关程度极弱, 可视为不相关。但这种解释必须建立在对相关系数的显著性进行检验的基础之上。
3 .相关关系的显著性检验
将样本相关系数 r 作为总体相关系数 ρ 的近似估计值,由于 r 是根据样本数据计算出来的, 因而带有一定的 随机性,样本容量越小,其可信程度就越差,因此需要进行检验。
(1)r 的抽样分布
当总体相关系数 ρ 为较大的正值时, r 呈现左偏分布;当 ρ 为较大的负值时, r 呈现右偏分布。只有当 ρ 接 近于 0,而样本量 n 很大时,才能认为 r 是接近于正态分布的随机变量。
(2)r 的显著性检验
如果对 r 服从正态分布的假设成立,可以应用正态分布来检验。在通常情况下采用 t 分布检验,该检验可以 用于小样本,也可以用于大样本。检验的具体步骤如下:
①提出假设
H0 :ρ =0;H1 :ρ≠0;
②计算检验的统计量
t = r t(n – 2)
③进行决策
根据给定的显著性水平 α 和自由度 df=n-2,查 t 分布表,查出 tα/2(n-2)的临界值。若|t|>tα/2 ,则拒绝 原假设 H0 ,表明总体的两个变量之间存在显著的线性关系。
二、 一元线性回归
1 .一元线性回归模型
(1)回归模型
因变量:在回归分析中被预测或被解释的变量,用 y 表示。
自变量:在回归分析中用来预测或解释因变量的一个或多个变量,用 x 表示。
回归模型:对于具有线性关系的两个变量, 可以用一个线性方程来表示它们之间的关系。描述因变量 y 如何 依赖于自变量 x 和误差项 ε 的方程。
对于只涉及一个自变量的一元线性回归模型可表示为:
y = β0 +β1x+ε
对这一模型,有以下几个主要假定:
①因变量 y 与自变量 x 之间具有线性关系;
②在重复抽样中,自变量 x 的取值是固定的,即假定 x 是非随机的,与随机误差项线性无关;
③误差项 ε 是一个期望值为 0 的随机变量,即 E(ε) =0;
④对于所有的 x 值, ε 的方差 σ2 都相同;
⑤误差项 ε 是一个服从正态分布的随机变量,且独立,即 ε~N(0 ,σ2)。
在以上假定下, E(y)的值随着 x 的不同而变化,但无论 x 怎样变化, ε 和 y 的概率分布都是正态分布,并 且具有相同的方差。
(2)回归方程
回归方程:描述因变量 y 的期望值如何依赖于自变量 x 的方程。 一元线性回归方程的形式为:
E(y)=β0 +β1x
(3)估计的回归方程
由于回归方程中的参数 β0 和 β1 是未知的,需用样本数据进行估计,当用样本统计量
∧ ∧
β0 和β1 去估计回归方程中的未知参数 β0 和 β1 时,就可以得到估计的回归方程, 对于一元线性回归,估计的
回归方程形式为:
∧ ∧ ∧
y = β0 +β1x
∧ ∧
式中, β0 是估计的回归直线在 y 轴上的截距; β1 是直线的斜率,表示 x 每变动一个单位时, y 的平均变动值。
2 .参数的最小二乘估计
(1)最小二乘法(最小平方法)
∧
它是使因变量的观察值 yi 与估计值yi 之间的离差平方和达到最小来估计 β0 和 β1 的方法。
(2)用最小二乘法拟合的直线具有的优良性质
①根据最小二乘法得到的回归直线能使离差平方和达到最小,这是一条与数据拟合良好的直线应有的性质; ②由最小二乘法求得的回归直线可知 β0 和 β1 的估计量的抽样分布;
③在某些条件下 β0 和 β1 的最小二乘估计量同其他估计量相比,其抽样分布具有较小的标准差。
∧ ∧
(3)回归系数β0 、β1
根据最小二乘法得:
( n n n
1 = n iyi – xi yi
〈| n x – ( xi )2
|l0 = y – 1x
__ __
注意: 回归直线过点(x ,y),这是回归直线的重要特征之一。
3 .回归直线的拟合优度
回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。
(1)判定系数
判定系数是对估计的回归方程拟合优度的度量。 判定系数是建立在对总离差平方和进行分解的基础之上的 (如图 11-2 所示)。
图 11-2 离差分解图
①判定系数的计算公式
总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)
__
总平方和:指 n 次观察值的总变差可由这些离差的平方和来表示,即 SST = Σ(yi-y)2。
回归平方和:反映了 y 的总变差中由于 x 与 y 之间的线性关系引起的 y 的变化部分, 是可以由回归直线来解
∧ __
释的 yi 变差部分,即 SSR = Σ(yi-y)2。
残差平方和或误差平方和: 除了 x 对 y 的线性影响之外的其他因素引起的 y 的变化部分,是不能由回归直线
∧
来解释的 yi 变差部分,即 SSE = Σ(yi-yi )2。
判定系数:回归平方和占总平方和的比例,记为 R2 ,其计算公式为:
R = =
2 SSR
SST
②判定系数的性质
R2 的取值范围是[0 ,1]。R2 越接近于
Σ (i –y )2 = 1- Σ (yi – i )2
Σ (yi –y)2 Σ (yi –y)2
1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接
近, 用 x 的变化来解释 y 值变差的部分就越多, 回归直线的拟合程度就越好; 反之, R2 越接近于 0,回归直线的 拟合程度就越差。
判定系数是样本观测值的函数,它是一个统计量。
在一元线性回归中,相关系数 r 实际上是判定系数的平方根。
∧
注意: 相关系数 r 与回归系数β1 的正负号是相同的。
(2)估计标准误差
①概念: 估计标准误差是度量各实际观测点在直线周围的散布状况的一个统计量, 它是均方残差(MSE)的 平方根,用 se 来表示,其计算公式为:
s = = =
e n – 2 n – 2
②估计标准误差的作用
a .估计标准误差是对误差项 ε 的标准差 σ 的估计,它可以看作在排除了 x 对 y 的线性影响后, y 随机波动 大小的一个估计量。
b .从估计标准误差的实际意义看,它反映了用估计的回归方程预测因变量 y 时预测误差的大小。各观测点 越靠近直线, se 越小, 表明实际观测点与所拟合的样本回归线的离差程度越小, 即回归线具有较强的代表性。反 之, se 越大,表明实际观测点与所拟合的样本回归线的离差程度越大,即回归线的代表性较差。se =0 ,则各观测 点全部落在样本回归线上,此时用自变量来预测因变量是没有误差的。可见 se 从另一个角度说明了回归直线的 拟合优度。
4 .显著性检验
回归分析的主要目的是根据所建立的估计方程用自变量 x 来估计或预测因变量 y 的取值。回归分析中的显著 性检验主要包括两方面内容: 一是线性关系检验;二是回归系数检验。
(1)线性关系的检验
线性关系检验是检验自变量 x 和因变量 y 之间的线性关系是否显著,具体步骤如下:
①提出假设
H0 :β1 =0(两个变量之间的线性关系不显著)
H1 :β1 ≠0(两个变量之间的线性关系显著)
②计算检验统计量 F
SSR /1 MSR
F = =
SSE / (n – 2) MSE
③作出决策
确定显著性水平 α,并根据分子自由度 df1 =1 和分母自由度 df2 =n-2 查 F 分布表,找到相应的临界值 Fα。 若 F>Fα , 拒绝 H0 ,表明两个变量之间的线性关系是显著的; 若 F<Fα , 不拒绝 H0 ,没有证据表明两个变量之间 的线性关系显著。
(2)回归系数的检验
回归系数的显著性检验是要检验自变量对因变量的影响是否显著,具体步骤如下:
①提出检验
H0 :β1 =0;H1 :β1 ≠0
②计算检验的统计量 t
s ˆ = se
t =
s
其中,
β1 2 1 2
Σ xi – n (Σ xi )
③作出决策
确定显著性水平 α,并根据自由度 df=n-2 查 t 分布表,找到相应的临界值 tα/2 。若|t|>tα/2 ,拒绝 H0 ,回归 系数等于 0 的可能性小于 α, 表明自变量 x 对因变量 y 的影响是显著的; 若|t|<tα/2 ,则不拒绝 H0 ,没有证据表明 x 对 y 的影响显著,或者说,二者之间尚不存在显著的线性关系。
5 .回归分析结果的评价
∧
(1)所估计的回归系数β1 的符号是否与理论或事先预期相一致;
(2)如果理论上认为 y 与 x 之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该 如此;
(3)可以用判定系数 R2 来回答回归模型在多大程度上解释了因变量 y 取值的差异;
(4)考察关于误差项 ε 的正态性假定是否成立。
三、利用回归方程进行预测
回归分析的目的之一是对因变量作合理的预测,预测是指通过自变量 x 的取值来预测因变量 y 的取值。
1 .点估计
利用估计的回归方程, 对于 x 的一个特定值 x0,求出 y 的一个估计值就是点估计。点估计可分为两种: 一是 平均值的点估计;二是个别值的点估计。
(1)平均值的点估计是利用估计的回归方程,对于 x 的一个特定值 x0,求出 y 的平均值的一个估计值 E(y0)。
∧
(2)个别值的点估计是利用估计的回归方程,对于 x 的一个特定值 x0 ,求出 y 的一个个别值的估计值y0。
(3)在点估计条件下,对于同一个 x0 ,平均值的点估计和个别值的点估计的结果是一样的,但在区间估计 中则有所不同。
2 .预测误差
在实际的回归模型预测中,发生预测误差的原因可以概括为以下几点:
(1)模型本身中的误差因素所造成的误差。
(2)由于回归系数的估计值同其真值不一致所造成的误差。
(3)由于自变量 x 的设定值同其实际值的偏离所造成的误差。
(4)由于未来时期总体回归系数发生变化所造成的误差。
3 .区间估计
利用估计的回归方程, 对于 x 的一个特定值 x0,求出 y 的一个估计值的区间就是区间估计。区间估计也有两 种类型:
一是置信区间估计,它是对 x 的一个给定值 x0 ,求出 y 的平均值的估计区间,这一区间称为置信区间;
二是预测区间估计,它是对 x 的一个给定值 x0 ,求出 y 的一个个别值的估计区间,这一区间称为预测区间。 (1)y 的平均值的置信区间估计
(x0 – x )2
(xi – x )2
+
n
1
sind = se
对于给定的 x0 ,用 s0 表示0 标准差的估计量,
其计算公式为:
s0 = se
对于给定的 x0 ,E(y0 )在 1-C 置信水平下的置信区间可表示为:
0 土 t“/2se +
__ __
当 x0=x时,估计是最准确的。x0 偏离x越远, y 的平均值的置信区间就变得越宽,估计的效果也就越不好。
(2)y 的个别值的预测区间估计
对于给定的 x0 ,用 Sind 表示 y 的一个个别估计值 y0 的标准差的估计量,其计算公式为:
(x0 – x )2
(xi – x )2
1
1+ +
n
对于给定的 x0 ,y 的一个个别值 y0 在 1-C 置信水平下的预测区间可表示为:
0
土 tc 2 se
(x0 – x )2
(xi – x )2
1
1+ +
n
(3)区别: 对同一个 x0 ,这两个区间的宽度不一样,预测区间要比置信区间宽一些。
注意: 在利用回归方程进行估计或预测时,不要用样本数据之外的 x 值去预测相对应的 y 值。
四、残差分析
1 .残差与残差图
(1)残差
∧
残差是因变量的观测值 yi 与根据估计的回归方程求出的预测值yi 之差,用 e 表示。它反映了用估计的回归方
∧
程去预测 yi 而引起的误差。第 i 个观察值的残差可以写为: ei =yi-yi 。
(2)残差图
为判断误差项 ε 的假定是否成立,可以通过对残差图的分析来完成。常用的残差图有关于 x 的残差图、关于
∧
y的残差图、标准化残差图等。
∧
关于 x 的残差图是用横轴表示自变量 x 的值,用纵轴表示对应的残差 ei =yi-yi ,每个 x 的值与对应的残差
用图上的一个点来表示。
图 11-3(a) 满意的模式
图 11-3(b) 非常数方差
图 11-3(c) 模型形式不合适
若对所有的 x 值, ε 的方差都相同,而且假定描述变量 x 和 y 之间关系的回归模型是合理的,那么残差图中 的所有点都应落在一条水平带中间,如图 11-3(a)所示。但如果对所有的值, ε 的方差是不同的,例如,对于 较大的 x 值,相应的残差也较大,如图 11-3(b)所示,这就意味着违背了 ε 方差相等的假设。如果残差图如图 11-3(c)所示的那样,表明所选择的回归模型不合理,这时应考虑曲线回归或多元回归模型。
2 .标准化残差
标准化残差是残差除以它的标准差后得到的数值,也称为 Pearson 残差或半学生化残差, 用 ze 表示。第 i 个
观察值的标准化残差可以表示为:
式中, se 是残差的标准差的估计。
zei =
如果误差项 ε 服从正态分布这一假定成立,
ei = yi – i
se se
那么标准化残差的分布也应服从正态分布。因此, 在标准化残差
图中,大约有 95%的标准化残差在-2~+2 之间。
3 .残差分析在回归分析中的作用
(1)用于判断有关模型的假定是否成立;
(2)用于分析回归中的异常值和对模型有影响的观测值。
第 12 章 多元线性回归
一、多元线性回归模型
1 .多元回归模型与回归方程
设因变量为 y ,k 个自变量分别为 x1 ,x2 ,„,xk ,描述因变量 y 如何依赖于自变量 x1 ,x2 ,„,xk 和误差 项 ε 的方程称为多元回归模型。其一般形式可表示为:
y =β0+β1×1+β2×2+„+βkxk+ε
式中, β0 ,β1 ,β2 ,„,βk 是模型的参数, ε 为误差项。
在多元线性回归模型中,对误差项 ε 有三个基本的假定:
(1)误差项 ε 是一个期望值为 0 的随机变量,即 E(ε)=0。
(2)对于自变量 x1 ,x2 ,„,xk 的所有值, ε 的方差 σ2 都相同。
(3)误差项 ε 是一个服从正态分布的随机变量,且相互独立,即 ε~N(0 ,σ2)。
(4)回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数 的个数,即 n>k。
E(y)=β0+β1×1+β2×2+„+βkxk 为多元回归方程,它描述了因变量 y 的期望值与自变量 x1 ,x2 ,„,xk 之间的关系。
2 .估计的多元回归方程
∧ ∧ ∧
由于回归方程中的参数 β0 ,β1 ,β2 ,„,βk 未知,需用样本数据进行估计,当用样本统计量β0,β1 ,β2 ,„,
∧
βk 去估计回归方程中的未知参数 β0 ,β1 ,β2 ,„,βk 时,就可以得到估计的多元回归方程,其一般形式为:
∧ ∧ ∧ ∧ ∧
y =β0+β1×1+β2×2+„+βkxk
∧ ∧ ∧ ∧ ∧
式中, β0 ,β1 ,β2 ,„,βk 称为偏回归系数。 βj 表示在其他自变量保持不变的情况下,自变量 xj 变动一个单
位引起的因变量 y 的平均变动量。
3 .参数的最小二乘估计
∧ ∧ ∧ ∧
根据最小二乘法求得回归方程中的β0 ,β1 ,β2 ,„,βk 。也就是使残差平方和
∧ ∧ ∧ ∧ ∧ ∧
Q =∑(yi-yi )2 =∑(yi =β0-β1×1-β2×2-„-βkxk )2
∧ ∧ ∧ ∧
达到最小。 由此可以得到求解β0 ,β1 ,β2 ,„,βk 的标准方程组为:
= 0
|
( δQ
β0 =0
|δβ0 〈
| δQ
δβi
= 0,
βi =i
i = 1, 2, , k
类似于简单线性回归, 在模型假定成立的情况下, 可以证明多元线性回归模型参数的最小二乘估计也是因变 量观测值 yi 的线性组合,并具有无偏性与有效性。因此多元线性回归的最小二乘估计是最佳线性无偏估计。
二、回归方程的拟合优度
1 .多重判定系数
(1)多重判定系数
类似于一元回归模型,多元线性回归有如下离差平方和分解式
_ ∧ ∧ _
∑(yi-y)2 =∑(yi-yi )2 +∑(yi-y)2
SST =SSR+SSE
自由度:(n-1)=(k-1)+(n-k)
式中,总离差平方和 SST 反映了因变量观测值总离差的大小;回归平方和 SSR 反映了因变量回归估计值说 明的总离差的大小,它是因变量观测值总离差中由自变量解释的那部分离差;残差平方和 SSE 反映了因变量观 测值与估计值之间的总离差,是因变量观测值总离差中未被自变量解释的那部分。
①概念: 多重判定系数是多元回归中的回归平方和占总平方和的比例,即 R2 =SSR/SST =1-SSE/SST。
②作用:它是度量多元回归方程拟合程度的一个统计量,反映了因变量 y 的变差中被估计的回归方程所解释 的比例, 介于 0 和 1 之间, R2 越接近 1,模型对数据的拟合程度就越好。
(2)调整的多重判定系数
①概念: 调整的多重判定系数
R = 1- (1- R2 )
②调整的多重判定系数与多重判定系数的不同
R2 会随着自变量的增加而增大, 但由于 Ra2 同时考虑了样本量(n)和模型中自变量的个数(k)的影响,所 以 Ra2 的值永远小于 R2 ,而且 Ra2 的值不会由于模型中自变量个数的增加而越来越接近 1。因此,在多元回归分 析中,通常用调整的多重判定系数。
(3)多重相关系数(复相关系数)
R2 的平方根称为多重相关系数,也称为复相关系数,它度量了因变量同 k 个自变量的相关程度。
2 .估计标准误差
(1)概念: 多元回归中的估计标准误差是对误差项 ε 的方差 σ2 的一个估计值,计算公式为:
se = = =
n –k – 1 n –k – 1
式中, k 为自变量的个数。
(2)作用:它是对 y 的观测值与估计值之间的离差的一种度量,在衡量多元回归方程的拟合优度方面起着 重要作用,同时也是计算置信区间的基础指标。
(3)解释:由于 se 所估计的是预测误差的标准差,其含义是根据自变量 x1 ,x2 ,„,xk 来预测因变量 y 时 的平均预测误差。
三、显著性检验
1 .线性关系检验
线性关系检验是检验因变量 y 与 k 个自变量之间的关系是否显著, 也称为总体显著性检验。检验的具体步骤 如下:
(1)提出假设
H0 :β1 =β2 =„ =βk =0
H1 :β1 ,β2 ,„,βk 至少有一个不等于 0
(2)计算检验的统计量 F
F = F (k, n – k – 1)
(3)作出统计决策
①给定显著性水平 α,根据分子自由度等于 k,分母自由度等于 n-k-1 ,查 F 分布表得 Fα 。若 F>Fα ,则 拒绝原假设;若 F<Fα ,则不拒绝原假设。
②直接利用 P 值作出决策:若 P<α,则拒绝原假设;若 P>α,则不拒绝原假设。
2 .回归系数检验和推断
回归方程通过线性关系检验后,就可以对各个回归系数 βi 有选择地进行一次或多次检验,具体步骤如下: (1)提出假设
对于任意参数 βi(i=1 ,2 ,„,k),有
H0 :βi =0;H1 :βi ≠0
(2)计算检验的统计量 t
t = ~ t(n – k – 1)
式中, s 是回归系数 i 的抽样分布的标准差,即
s =
(3)作出统计决策
给定显著性水平 α,根据自由度等于 n-k-1 查 t 分布表,得 tα/2 的值。若|t|>tα/2,则拒绝原假设;若|t|<tα/2, 则不拒绝原假设。
3 .F 检验与 t 检验的关系:
在一元线性回归中,线性关系检验(F 检验)与回归系数检验(t 检验)是等价的。但在多元回归中,这两 种检验不再等价。
线性关系检验主要是检验因变量与多个自变量的线性关系是否显著, 在 k 个自变量中, 只要有一个自变量与 因变量的线性关系显著, F 检验就能通过,但这不一定意味着每个自变量与因变量的关系都显著。回归系数检验 则是对每个回归系数分别进行单独的检验, 它主要用于检验每个自变量对因变量的影响是否显著。如果某个自变 量没有通过检验,就意味着这个自变量对因变量的影响不显著,此时就没有必要将这个自变量放进回归模型中。
四、多重共线性
1 .多重共线性及其所产生的问题
当回归模型中存在两个或两个以上的自变量彼此相关时, 则称回归模型中存在多重共线性。在回归分析中存 在多重共线性时将会产生的问题有:
(1)变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;
(2)多重共线性可能对参数估计值的正负号产生影响,特别是 βi 的正负号有可能同预期的正负号相反,此 时对回归系数的解释是危险的。
2 .多重共线性的判别
检测多重共线性中最简单的一种办法是计算模型中各对自变量之间的相关系数, 并对各相关系数进行显著性 检验。如果有一个或多个相关系数是显著的,就表示模型中所使用的自变量之间相关,因而存在多重共线性问题。
具体来说,如果出现下列情况,暗示存在多重共线性:
(1)模型中各对自变量之间显著相关;
(2)当模型的线性关系检验(F 检验)显著时,几乎所有回归系数 βi 的 t 检验却不显著; (3)回归系数的正负号与预期的相反;
(4)根据容忍度与方差扩大因子(VIF)进行判断。某个自变量的容忍度等于 1 减去该自变量为因变量而 其他 k-1 个自变量为预测变量时所得到的线性回归模型的判定系数,即 1-Ri2 。容忍度越小,多重共线性越严 重。通常认为容忍度小于 0.1 时,存在严重的多重共线性。方差扩大因子等于容忍度的倒数,即 VIF =1/(1-Ri2)。 显然, VIF 越大,多重共线性越严重。 一般认为 VIF 大于 10 时,存在严重的多重共线性。
3 .多重共线性问题的处理
根据多重共线性的严重程度,选择不同的解决办法:
(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关;
(2)如果要在模型中保留所有的自变量, 则需:
①避免根据 t 统计量对单个参数 β 进行检验;
②对因变量 y 值的推断(估计或预测)限定在自变量样本值的范围内。
五、变量选择与逐步回归
在建立模型之前对所收集到的自变量进行一定的筛选, 去掉那些不必要的自变量, 不仅会使建立模型变得容 易,而且使模型更具有可操作性,也更容易解释。
1 .变量选择过程
(1)选择自变量的原则
选择自变量的原则通常是对统计量进行显著性检验, 检验的根据是: 将一个或一个以上的自变量引入到回归 模型中时,是否使得残差平方和(SSE)显著减少。如果增加一个自变量使残差平方和(SSE)显著减少, 则说 明有必要将这个自变量引入回归模型,否则就没必要将这个自变量引入回归模型。
判断模型中引入自变量 xi 是否使残差平方和(SSE)显著减少, 通常使用 F 统计量的值作为标准。 (2)变量选择的方法
变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等。
2 .向前选择
(1)向前选择法是从模型中没有自变量开始,然后按下面的步骤选择自变量来拟合模型:
①对 k 个自变量(x1 ,x2 ,„,xk )分别拟合与因变量 y 的一元线性回归模型, 共有 k 个, 找出其中 F 统计 量的值最大的模型,并将其对应的自变量 xi 首先引入模型。(如果所有模型均无统计上的显著性,则运算过程终 止,没有模型被拟合。)
②在已经引入 xi 的模型的基础上,再分别拟合引入模型外的 k-1 个自变量(x1 ,„,xi- 1 ,xi+ 1 ,„,xk ) 的线性回归模型,即变量组合为 xi+x1 ,„,xi+xi- 1 ,xi+xi+ 1 ,„,xi+xk 的 k-1 个线性回归模型。然后分别 考察这 k-1 个线性模型, 挑选出 F 统计量的值最大的模型, 将其中新引入的自变量 xj 加入模型。如果除 xi 之外 的 k-1 个自变量中没有一个是统计上显著的,则运算过程终止。如此反复进行,直至模型外的自变量均无统计 显著性为止。
(2)向前选择方法的特点:只要将某个自变量增加到模型中,这个变量就一定会保留在模型中。
3 .向后剔除
向前选择法是先将所有自变量引入模型,然后按下面的步骤选择自变量来拟合模型:
(1)先对因变量拟合包括所有 k 个自变量的线性回归模型。然后考察 p(p<k)个去掉一个自变量的模型 (这些模型中的每一个都有 k-1 个自变量),挑选出使模型的 SSE 值减小最少的自变量,将其从模型中剔除。
(2)考察 p-1 个再去掉一个自变量的模型(这些模型中的每一个都有 k-2 个自变量),挑选出使模型的 SSE 值减小最少的自变量,将其从模型中剔除。如此反复进行,直至剔除一个自变量不会使 SSE 显著减小为止。 这时,模型中所剩的自变量都是显著的。上述过程可以通过 F 检验的 P 值来判断。
4 .逐步回归
逐步回归是将向前选择和向后剔除结合起来筛选自变量的方法。
(1)逐步回归法的步骤
①对 k 个自变量(x1,x2 ,„,xk )分别拟合与因变量 y 的一元线性回归模型, 共有 k 个, 找出其中 F 统计 量的值最大的模型,并将其对应的自变量 xi 首先引入模型。(如果所有模型均无统计上的显著性,则运算过程终 止,没有模型被拟合。)
②增加了一个自变量后, 对模型中所有的变量进行考察, 看看有没有可能剔除某个自变量。如果在增加了一 个自变量后, 前面增加的某个自变量对模型的贡献变得不显著, 这个变量就会被剔除。逐步回归按此方法不断地 增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致 SSE 显著减少, 增加或剔除过程可 通过 F 统计量来检验。
(2)逐步回归法的特点: 逐步回归法在前面步骤中增加的自变量有可能在后面的步骤中被剔除,而在前面 步骤中剔除的自变量也可能在后面的步骤中重新进入到模型中。
第 13 章 时间序列分析和预测
一、时间序列及其分解
1 .时间序列
(1)概念: 时间序列是同一现象在不同时间上的相继观察值排列而成的序列,也称动态数列或时间数列。 (2)时间序列的两要素
任何一个时间序列都具有两个基本要素: 一是统计指标所属的时间, 也称为时间变量; 二是统计指标在特定 时间的具体指标值。
(3)研究时间序列的目的
①在编制时间序列的基础上,可以计算平均发展水平,进行动态水平分析;
②可以计算各种速度指标,进行速度分析;
③利用相关的数学模型,对现象的变动进行趋势分析。
2 .时间序列的类型
(1)平稳序列
它是基本上不存在趋势的序列。这类序列中的各观察值基本上都在某个固定的水平上波动, 虽然在不同的时 间段波动的程度不同,但并不存在某种规律,其波动可以看成是随机的。
(2)非平稳序列
它是包含趋势、季节性或周期性的序列,它可能只含有其中的一种成分, 也可能含有几种成分,因此非平稳 序列可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。
3 .时间序列的 4 种成分
(1)趋势(T)
也称长期趋势,它是时间序列在长时期内呈现出来的某种持续上升或持续下降的变动。时间序列中的趋势可 以是线性的,也可以是非线性的。
(2)季节性(S)
也称季节变动,它是时间序列在一年内重复出现的周期性波动。季节性中的“季节 ”一词是广义的,它不仅 仅是指一年中的四季,其实是指任何一种周期性的变化。
(3)周期性(C)
也称循环波动,它是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动。 (4)随机性(I)
也称不规则波动,它是时间序列中除去趋势、周期性和季节性之后的偶然性波动。
4 .时间序列的分解模型
将时间序列分解成长期趋势、季节变动、周期变动和随机变动四个因素后,可以认为时间序列 Yt 是这四个 因素的函数,即 Yt =f(Tt ,St ,Ct ,It),其中较常用的是加法模型和乘法模型,其表现形式为:
加法模型: Yt =Tt+St+Ct+It
乘法模型: Yt =Tt ×St ×Ct ×It
注意: 时间序列组合模型中包含了四种因素, 这是时间序列的完备模式, 但是并不是在每个时间序列中这四 种因素都同时存在。一般情况下, 时间序列中长期趋势是经常存在的, 季节变动因素和周期变动因素则不一定存 在。
二、时间序列的描述性分析
1 .图形描述
在对时间序列进行分析时, 可以先作一个图形,通过图形观察数据随时间变化的模式及趋势。作图是观察时 间序列形态的一种有效方法,它对进一步分析和预测有很大帮助,为选择预测模型提供基本依据。
2 .增长率分析
(1)增长率
1=
–
Y Y Y
n 1 2 n
Y0 Y1
Y
n-1
Y
n n
0
Y
也称增长速度,它是时间序列中报告期观察值与基期观察值之比减 1 后的结果,用百分比表示。根据对比的 基期不同,增长率可分为:
①环比增长率:报告期观察值与前一时期观察值之比减 1,说明现象逐期增长变化的程度;
②定基增长率:报告期观察值与某一固定时期观察值之比减 1,说明现象在整个观察期内总的增长变化程度。
设增长率为 G,则环比增长率和定基增长率可表示为:
环比增长率: Gi =(Yi-Yi- 1)/Yi- 1 =Yi/Yi- 1-1(i=1,„, n)
定基增长率: Gi =(Yi-Y0 )/Y0 =Yi/Y0-1(i=1,„, n)
式中, Y0 表示用于对比的固定基期的观察值。
(2)平均增长率
也称平均增长速度, 它是时间序列中逐期环比值(也称环比发展速度) 的几何平均数减 1 后的结果,计算公 式为:
G=
– 1
_
式中, G表示平均增长率; n 为环比值的个数。
(3)增长率分析中应注意的问题
①当时间序列中的观察值出现 0 或负数时,不宜计算增长率,此时直接用绝对数进行分析; ②在有些情况下,不能单纯就增长率论增长率,要注意结合增长率与绝对水平进行分析。
增长 1%的绝对值:表示增长率每增长一个百分点而增加的绝对数量,其计算公式为:
增长 1%的绝对值=前期水平/100
三、时间序列预测的程序
1 .确定时间序列的成分
(1)确定趋势成分
确定趋势成分是否存在, 可以绘制时间序列的线图, 观察时间序列中是否存在趋势, 以及所存在的趋势是线 性的还是非线性的;也可以利用回归分析拟合一条趋势线,然后对回归系数进行显著性检验,如果回归系数显著, 就可以得出线性趋势显著的结论。
(2)确定季节成分
确定季节成分是否存在,至少需要两年的数据,而且数据需要是按季度、月份、周或天等来记录的。
确定季节成分也可以绘制时间序列的线图, 但需要年度折叠时间序列图。绘制该图时, 需要将每年的数据分 开画在图上, 即横轴只有一年的长度,每年的数据分别对应纵轴。
如果时间序列只存在季节成分, 年度折叠时间序列图中的折线将会有交叉; 如果时间序列既含有季节成分又 含有趋势,那么年度折叠时间序列图中的折线将不会有交叉, 而且如果趋势是上升的,后面年度的折线将会高于 前面年度的折线;如果趋势是下降的,后面年度的折线将低于前面年度的折线。
2 .选择预测方法
对于不含趋势和季节成分的时间序列, 即平稳时间序列, 由于这类数列只含随机成分, 通过平滑就可以消除 随机波动,因此采用平滑预测法。
对于只含有趋势成分的时间序列,可以利用趋势预测法。
对于既含有趋势又含有季节成分的时间序列,则采用季节性预测法。 具体如图 13- 1 所示。
图 13- 1 时间序列的类型和预测方法的选择
3 .预测方法的评估
预测值与实际值的差值称为预测误差,最优的预测方法就是使预测误差达到最小的方法。预测误差的计算方 法包括:平均误差、均方误差、平均绝对误差、平均百分比误差和平均绝对百分比误差等。
(1)平均误差
设时间序列的第 i 个观测值为 Yi ,预测值为 Fi ,则所有预测误差(Yi-Fi )的平均数就是平均误差,用 ME
表示,其计算公式为:
(Yi – Fi )
ME = i=1
n
式中, n 为预测值的个数。
由于预测误差的数值可能有正有负,求和的结果就会相互抵消,在这种情况下,平均误差可能会低估误差。 (2)平均绝对误差
平均绝对误差是将预测误差取绝对值后计算的平均误差,用 MAD 表示,其计算公式为:
| Yi – Fi |
MAD = i=1
n
平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。 (3)均方误差
均方误差是通过平方消去误差的正负号后计算的平均误差,用 MSE 表示,其计算公式为:
(Yi – Fi )2
MSE = i=1
n
(4)平均百分比误差和平均绝对百分比误差
ME,MAD 和 MSE 的大小受时间序列数据的水平和计量单位的影响,有时并不能真正反映预测模型的好坏, 它们只有在比较不同模型对同一数据的预测时才有意义。而平均百分比误差和平均绝对百分比误差, 消除了时间 序列数据的水平和计量单位的影响,是反映误差大小的相对值。
平均百分比误差用 MPE 表示,其计算公式为:
n ( Y – F )
MPE = i Yin i 根100
平均绝对百分比误差用 MAPE 表示,其计算公式为:
MAPE = 根100
四、平稳序列的预测
平稳时间序列通常只含有随机成分, 其预测方法主要有简单平均法、移动平均法和指数平滑法等, 这些方法 主要是通过对时间序列进行平滑以消除其随机波动, 因而也称为平滑法。平滑法既可用于对平稳时间序列进行短 期预测,也可以用于对非平稳时间序列进行平滑以描述序列的趋势(包括线性趋势和非线性趋势)。
1 .简单平均法
简单平均法是根据已有的 t 期观察值通过简单平均来预测下一期的数值,达到反映样本信息最新动态变化的 目的。 设时间序列已有的 t 期观察值为 Y1 ,Y2 ,„,Yt ,则 t+1 期的预测值 Ft+ 1 为:
1
=
F
t
t +1
(Y1 + Y2 + + Yt ) =
Yi
当到了 t+1 期后,有了 t+1 期的实际值,便可计算出 t+1 期的预测误差 et+ 1 为:
et+ 1 =Yt+ 1-Ft+ 1
于是, tt+2 期的预测值为:
1 1 t +1
Ft +2 = t +1(Y1 + Y2 + + Yt + Yt +1) = t +1 Yi
„„
注意: 简单平均法适合对较为平稳的时间序列进行预测, 即当时间序列没有趋势时, 用该方法比较好。但如 果时间序列有趋势或季节成分, 该方法的预测则不够准确。此外, 简单平均法将远期的数值和近期的数值看作对 未来同等重要。但从预测角度看, 近期的数值要比远期的数值对未来有更大的作用, 因此简单平均法预测的结果 不够准确。
2 .移动平均法
移动平均法是通过对时间序列逐期递移求得平均数作为预测值的一种预测方法, 包括简单移动平均法和加权 移动平均法。
简单移动平均是将最近的 k 期数据加以平均,作为下一期的预测值。设移动间隔为 k(1<k<t),则 t 期的 移动平均值为:
_
Yt =(Yt-k+ 1+Yt-k+2+„+Yt- 1+Yt )/k
对于 t+1 期的简单移动平均预测值为:
_
Ft+ 1 =Yt =(Yt-k+ 1+Yt-k+2+„+Yt- 1+Yt )/k
同样, t+2 期的预测值为:
_
Ft+2 =Yt+ 1=(Yt-k+2+Yt-k+3+„+Yt+Yt+ 1)/k
„„
移动平均法只使用最近 k 期的数据,在每次计算移动平均值时, 移动的间隔都为 k。该方法主要适合对较为 平稳的时间序列进行预测。应用的关键是确定合理的移动间隔长度 k。对于同一个时间序列, 采用不同的移动间 隔, 其预测的准确性是不同的。可通过试验选择一个使均方误差达到最小的移动间隔。此外, 简单移动平均和加 权移动平均都只有一期的预测能力, 若要进行多期预测, 则要对预测值再计算移动平均, 但这样可能会产生预测 误差积累,使预测准确度降低。
3 .指数平滑法
指数平滑法是统计预测中广泛使用的一种方法,它可以直接用于预测,也可以用于估计模型参数。
指数平滑法也称指数修匀预测法, 是对通过对过去的观察值加权平均得到预测值的一种方法, 该方法使得第 t+1 期的预测值等于 t 期的实际观察值与 t 期预测值的加权平均值。
指数平滑法是加权平均的一种特殊形式, 观察值的时间越远,其权数越小,且呈现指数下降,因而称为指数 平滑。指数平滑法包括一次指数平滑、二次指数平滑、三次指数平滑等。 下面讨论的是一次指数平滑法。
一次指数平滑法(单一指数平滑法):它只有一个平滑系数,而且当观察值离预测时期越久远时,权数变得 越小。 一次指数平滑是以一段时期的预测值与观察值的线性组合作为 t+1 的预测值,其预测模型为:
Ft+ 1 =uYt +(1-u)Ft
式中, Yt 为 t 期的实际观察值; Ft 为 t 期的预测值; u 为平滑系数(0<u<1)。
对指数平滑法的预测精度, 同样用误差均方来衡量, 由于 Ft+ 1 =uYt+(1-u)Ft =uYt+Ft-uFt = Ft+u(Yt -Ft),即 Ft+ 1 是 t 期的预测值 Ft 加上用 u 调整的 t 期的预测误差(Yt-Ft)。
确定平滑系数 u 的方法: 一般而言,当时间序列有较大的随机波动时,宜选较大的 u,以便尽快跟上近期的 变化;当时间序列比较平稳时,宜选较小的 u。实际应用时,还应考虑预测误差(这里仍用均方误差来衡量预测 误差的大小),确定 u 时,可选择几个 u 进行预测,然后找出预测误差最小的作为最后的 u 值。
一次指数平滑法也可以用于对时间序列进行修匀,以消除随机波动,找出序列的变化趋势。
五、趋势型序列的预测
时间序列的趋势可以分为线性趋势和非线性趋势两大类, 如果这种趋势能够延续到未来, 就可以利用趋势进 行外推预测。有趋势序列的预测方法主要有线性趋势预测、非线性趋势预测和自回归模型预测等。
1 .线性趋势预测
线性趋势:指现象随着时间的推移呈现出稳定增长或下降的线性变化规律。
∧
当现象的发展按线性趋势发展变化时,可以用下列线性趋势方程来描述: Yt =b0+b1t
∧
式中, Yt 代表时间序列 Yt 的预测值; t 代表时间; b0 代表趋势线在 Y 轴上的截距,是当 t =0 时 Yt 的数值;
b1 是趋势线的斜率,表示时间 t 变动一个单位,观察值的平均变动数量。
趋势方程中的两个待定系数 b0 和 b1 通常按回归中的最小二乘法求得:
( nΣ tY – Σ t Σ Y
|b1 = 2
〈| nΣ t2 – ( Σt )
|lb0 = Y –b1 t
通过趋势方程可以计算出各期的预测值, 并通过这些预测值来分析序列的变化趋势及其模式。此外, 也可以 利用趋势方程进行外推预测。趋势预测的误差可用线性回归中的估计标准误差来衡量,其计算公式为:
se =
(Yi – )2
n – m
式中, n 为观测值的个数,m 为趋势方程中待确定的未知参数的个数。对于直线趋势方程, m =2。
2 .非线性趋势预测
序列中的趋势通常认为是由于某种固定的因素作用于同一方向所形成的。若这些因素随着时间的推移呈现线 性变化,则可以对时间序列拟合趋势直线;若呈现出某种非线性趋势,则需要拟合适当的趋势曲线。
(1)指数曲线
∧
指数曲线用于描述以几何级数递增或递减的现象, 即时间序列的观察值Yt 按指数规律变化, 或者说时间序列
的逐期观察值按一定的比率增长或衰减。指数曲线的趋势方程为:
Yt =b0b1t
∧
式中, b0 ,b1 为待定系数。
若 b1>1 ,则增长率随着时间 t 的增加而增加;若 b1<1 ,则增长率随着时间 t 的增加而降低;若 b0>0 ,b1
∧
<1 ,则预测值Yt 逐渐降低到以 0 为极限。
采取“线性化 ”手段确定 lgb0 和 lgb1:
〈(|Σ lgY = nlgb0 + lg b1 Σ t 2
|lΣ tlgY = lg b0 Σ t + lg b1 Σ t
求出 lgb0 和 lgb1 后,再取其反对数,即得到 b0 和 b1。
(2)多阶曲线
有些现象的变化形态比较复杂, 有升有降, 在变化过程中可能有几个拐点。这时就需要拟合多项式函数。当 只有一个拐点时,可以拟合二阶曲线,即抛物线;当有两个拐点时,需要拟合三阶曲线;当有 k-1 个拐点时, 需要拟合 k 阶曲线。 k 阶曲线函数的一般形式为:
Yt =b0+b1t+b2t2+„+bktk
∧
将此曲线线性化后,按多元回归分析中的最小二乘法可求得系数 b0 ,b1 ,b2 ,„ ,bk。
六、复合型序列的分解预测
复合型序列是指含有趋势性、季节性、周期性和随机成分的序列。
对这类序列预测方法通常是将时间序列的各个因素依次分解出来,然后再进行预测,采用的分解模型为:
Yt =Tt ×St ×It,这一模型表示该时间序列中含有趋势成分、季节成分和随机成分。对这类序列的预测方法主要有 季节性多元回归模型、季节自回归模型和时间序列分解法预测等。
1 .确定并分离季节成分
季节性因素分析是通过季节指数来表示各年的季节成分,以此来描述各年的季节变动模式。 (1)计算季节指数
季节指数刻画了序列在一个年度内各月或各季度的典型季节特征。在乘法模型中, 季节指数是以其平均数等 于 100%为条件构成的,它反映了某一月份或季度的数值占全年平均数值的大小。如果现象的发展没有季节变动, 则各期的季节指数应等于 100%;如果某一月份或季度有明显的季节变化,则各期的季节指数应大于或小于 100%。
移动平均趋势剔除法计算季节指数的基本步骤:
①计算移动平均值(如果是季度数据,采用 4 项移动平均,月份数据则采用 12 项移动平均),将结果进行“ 中 心化 ”处理,即将移动平均的结果再进行一次 2 项移动平均,得出“ 中心化移动平均值 ”(CMA)。
②计算移动平均的比值,也称为季节比率, 即将序列的各观察值除以相应的中心化移动平均值,然后再计算 出各比值的季度(或月份)平均值。
③季节指数调整。由于各季节指数的平均数应等于 1 或 100%,若根据第 2 步计算的季节比率的平均值不等 于 1,则需要进行调整。具体方法是:将第 2 步计算的每个季节比率的平均值除以它们的总平均值。
(2)分离季节性成分
计算出季节指数后, 可将各实际观察值分别除以相应的季节指数, 将季节性成分从时间序列中分离出去。用 公式表示为: Y/S=(T×S×I)/S =T×I ,结果即为季节成分分离后的序列,它反映了在没有季节因素影响的情 况下时间序列的变化形态。
2 .建立预测模型并进行预测
观察剔除季节成分后的时间序列图, 建立适当的预测模型, 并根据这一模型进行预测。用预测值乘以相应的 季节指数,得到最终的预测值。
第 14 章 指 数
一、基本问题
1 .指数概念
指数,或称统计指数, 是一种对比性的分析指标, 是分析社会经济现象数量变化的一种重要统计方法。 (1)指数的涵义
指数的涵义有广义和狭义两种: 广义指数是指一切说明社会经济现象数量变动的相对数; 狭义的指数是一种 特殊的相对数,即用来说明不能直接相加的复杂社会经济现象综合变动程度的相对数。
指数是测定多项内容数量综合变动的相对数, 通常表现为百分数。它包含两个要点: 一是指数的实质是测定 多项内容;二是其表现形式为动态相对数。
(2)指数的基本性质
①指数具有相对数的表现形式;
②指数具有综合的性质,它综合地反映了复杂现象总体的数量变化关系;
③指数具有平均的性质,它反映复杂现象总体中各个单位变动的平均水平。
2 .指数分类
分类依据 | 分类结果 | 含义 | 说明 |
按照考察范围和 计算方法不同 | 个体指数 | 反映总体中个别现象或个别项目数量对比 关系的指数,是计算总指数的基础 | 个体指数和总指数的区
别: 考查范围不同,计算 方法也不同 |
总指数 | 反映整个总体现象的数量对比关系的指数 | ||
按照对比指标的 性质不同 | 数量指标指数 | 反映数量指标变动程度的相对数,通常采 用实物计量单位 | 数量指标和质量指标的 划分具有相对性 |
质量指标指数 | 反映品质指标变动程度的相对数,通常采 用货币计量单位 | ||
按照总指数的具 体编制方式不同 | 简单指数 | 把计入指数的各个项目的重要性视为相同 | 加权指数可以分为综合
形式和平均形式 加权综合指数:采用综合 形式编制的加权指数 加权平均指数:采用平均 形式编制的加权指数 |
加权指数 | 对计入指数的各个项目依据重要程度不 同,赋予不同的权数再计算 |
3 .指数的作用
(1)运用指数可以分析复杂经济现象总体的变动方向和程度;
(2)运用指数可以分析复杂经济现象总体变动中各个因素的变动, 以及它们的变动对总体变动的影响程度;
(3)运用指数可以分析复杂现象平均水平的变动中各个因素的变动,以及它们的变动对总平均水平变动的 影响程度;
(4)运用指数可以分析复杂经济现象总体的长期变化趋势;
(5)运用指数可以对多指标复杂社会经济现象进行综合评价和测定。
4 .指数编制中的问题
指数编制过程中,需要解决的问题包括选择项目、确定权数以及指数计算方法等。
(1)选择项目
理论上讲,指数是反映总体数量变动的相对数,而实际中将总体全部项目都计算在内往往不可能,也不必要, 因此通常选择一些代表规格品进行计算。这些代表规格品需要具有良好的数量变动趋势代表性, 且数量要有保证, 品种不能过少,还要注意不断更新。
(2)确定权数
指数是对代表项目进行加权得到的结果, 确定合理的权数是编制指数时必须解决的问题。确定权数的途径大
体有两种:①利用已有的信息构造权数;②主观权数,常见于社会现象的指数编制。
(3)计算方法
总指数的计算方法有多种, 测定的研究对象不同, 数据的来源不同, 计算方法也会有所不同。主要有简单综 合指数、简单平均指数、 加权综合指数和加权平均指数等。
二、总指数的编制方法
总指数是对个体指数的综合, 将个体指数综合有两个途径: 一是简单指数, 即对个体指数进行简单汇总, 不 考虑权数;二是加权指数,即编制总指数时考虑权数的作用,根据计算方式不同,可分为加权综合指数和加权平 均指数。
1 .简单指数
(1)简单综合指数
①概念:是将报告期的指标总和与基期的指标总和相对比的指数,其特点是“先综合,后对比 ”,计算公式 为:
Ip = ∑p1/∑p0 ,Iq = ∑q1/∑q0
式中, p 代表质量指标; q 代表数量指标; Ip 代表质量指标指数; Iq 代表数量指标指数; 下标 1 表示报告期; 下标 0 表示基期。
②优点:方法简单,操作容易,对数据要求少。
③缺点: 计算结果受计量单位的影响。商品的计量单位变化时, 商品的价格发生变化, 计算的指数值产生差 异; 只能用于指标值相差不大的商品, 在商品价格差异大, 且变动幅度差异大的情况下, 这种方法不能反映实际 变动水平; 不同商品的数量和价格直接加总,经济意义不明确。
(2)简单平均指数
①概念:是将个体指数进行简单平均得到的总指数,其特点是“先对比,后综合 ”,计算公式为:
Ip =
I = Σ
, q n
②优点:消除了不同商品价格水平的影响,可以反映各种商品的价格变动情况。
③缺点: 不同商品对市场价格总水平的影响不同, 而简单平均指数平等看待各种商品; 将使用价值不同的产 品个体指数或价格(指标值)相加,既缺乏实际意义,又缺少理论依据。
2 .加权指数
(1)加权综合指数
编制加权综合指数首先必须明确两个概念: 一是“指数化指标 ”,二是“ 同度量因素 ”。指数化指标是编制 综合指数要测定的因素; 同度量因素是媒介因素, 借助媒介因素, 把不能直接加总的因素过渡到可以加总, 所以 称其为同度量因素。
①拉氏指数
拉氏指数在计算综合指数时将作为权数的同度量因素固定在基期, 因此也称基期综合指数。相应的计算公式 为:
拉氏数量指标指数 Iq = ∑q1p0/∑q0p0
拉氏质量指标指数 Ip = ∑q0p1/∑q0p0
式中, Iq 表示数量指标指数; Ip 表示质量指标指数; p0 和 p1 分别表示基期和报告期的质量指标值; q0 和 q1 分别表示基期和报告期的数量指标值。
帕氏指数在计算综合指数时将作为权数的同度量因素固定在报告期, 因此也称报告期综合指数。相应的计算 公式为:
帕氏数量指标指数 Iq = ∑q1p1/∑q0p1
拉氏质量指标指数 Ip = ∑q1p1/∑q1p0
权数时期的选择主要取决于编制指数的目的,取决于指数要说明的问题。
③拉氏指数和帕氏指数的比较
a.拉氏指数将同度量因素固定在基期水平上(即以基期数值为权数),在定基指数数列中,各期指数不受权 数结构变动影响,可比性更强。帕氏指数将同度量因素固定在报告期水平上(即以报告期数值为权数),无论是 在定基指数数列中还是在环比指数数列中,权数结构都会随报告期而改变,会使各期指数的可比性受到影响;
b .两种方法的计算结果都可表示指数化指标的综合变动程度,但两者的具体经济意义有一定差别;
c .由于权数不同,依据同一资料计算的拉氏指数和帕氏指数的计算结果通常会存在差异, 一般情况下,拉 氏指数大于帕氏指数。
d .如果总体中所有的指数化指标都按相同比例变化(即所有个体指数都相等)或总体中所有的同度量因素 都按相同比例变化时,拉氏指数与帕氏指数会恰巧一致。
(2)加权平均指数
是以个体指数为基础, 通过对个体指数进行加权平均来编制的指数。即先计算所研究对象各个项目的个体指 数,然后将所给的价值量指标(产值或销售额)作为权数对个体指数进行加权平均。计算公式为:
①加权算术平均指数:
Σ p1 qp
A = p0
p Σ qp
A = Σ qp
q Σ qp
如果用基期权数 q0p0 ,则
Ap = Σ q0p0 = Σ q0p1 (与拉氏质量指标指数相同)
Σ q0p0 Σ q0p0
Σ q0p0 Σ q0p0
Aq = Σ q0 p0 = Σ q1p0 (与拉氏数量指标指数相同)
②加权调和平均指数:
H = Σ qp
Σ p qp
p p0
Σ p1 q1p1
H = Σ q1p1 p p0
如果用报告期权数 q1p1 ,则
H = Σ qp
q Σ qp
= (与帕氏质量指标指数相同)
Hq = 1 = (与帕氏数量指标指数相同)
注意: 以上所说的加权综合指数与加权平均指数相同, 只是指形式上的相同, 本质上还是有区别的, 主要表 现在计算所依据的是全面资料还是样本资料。如果是全面资料, 可以采用加权综合指数; 而计算价格指数时, 由 于通常无法得到全面资料, 因此只能采取选样方法, 挑选代表规格品, 在这种情况下, 若采用加权综合指数, 其 结果就仅仅计算了代表规格品的价格变化。
三、指数体系
在经济分析中, 一个指数通常只能说明某一方面的问题,而实践中往往需要将多个指数结合起来加以运用, 这就要求建立相应的“指数体系 ”。
1 .总量指标体系分析
指数体系: 指数体系有两种不同的含义。广义的指数体系泛指由若干个内容上相互关联的统计指数所结成的 体系; 狭义的指数体系仅指几个指数之间在一定的经济联系基础上所结成的较为严密的数量关系式。
指数体系的分析作用主要有两个方面: 一是进行“因素分析 ”,即分析现象的总变动中各有关因素的影响程 度;二是进行“指数推算 ”,即根据已知的指数推算未知的指数。
在加权综合指数体系中, 为使总量指数等于各因素指数的乘积, 两个因素指数中通常一个为数量指数, 另一 个为质量指数,而且各因素指数中的权数必须是不同时期的。
在实际分析中,常用的是基期权数加权的数量指数(拉氏指数)和报告期权数加权的质量指数(帕氏指数) 形成的指数体系。该指数体系可表示为:
Σ q1p1 = Σ q1p0 根 Σ q1p1
Σ q0p0 Σ q0p0 Σ q1p0
因素影响差额之间的关系为:
∑q1p1 – ∑q0p0 =( ∑q1p0 – ∑q0p0 )+( ∑q1p1 – ∑q1p0)
式中, ∑q1p1 为报告期总量指标; ∑q0p0 为基期总量指标; q,p 为因素指标, 其中 q 为数量指标, p 为质量指 标。
2 .平均数变动因素分解
(1)总平均水平指数
I = =
x1
xf x0
Σ x1f1 Σf1
Σ x0f0 Σf0
(2)组水平变动指数
I =
x1
=
x xn
(3)结构变动指数
I = xn
=
f x0
Σ x1f1 Σf1
Σ x0f1 Σf1
Σx0f1 Σf1
Σx0f0 Σf0
总平均水平指数=组水平变动指数×结构变动指数,即
= 根
Ixf=Ix ×If
总平均水平变动额=各组水平变动影响额+结构变动影响额,即
( ∑x1 f1/∑f1 – ∑x0 f0/∑f0 )=( ∑x1 f1/∑f1 – ∑x0f1/∑f1 )+( ∑x0 f1/∑f1 – ∑x0 f0/∑f0)
四、几种典型的指数
1 .居民消费价格指数(CPI)
是度量居民消费品和服务项目价格水平随时间变动的相对数, 反映居民家庭购买的消费品(包括货物和服务) 的价格水平的变动的相对数。
(1)指数编制过程的步骤
①消费品分类和选择代表规格品
代表规格品的选择是在商品分类基础上进行的,选择的原则是:
a .销售数量(金额)大;
b .价格变动趋势和变动程度有代表性,即中选规格品的价格变动与未中选商品的价格变动存在高度相关;
c .所选的代表规格品之间性质相隔要远,价格变动特征的相关性低;
d .选中的工业消费品必须是合格品,有注册商标、产地、规格等级等标识。
②选择调查市县和调查点
选择的方法是划类选点。地区的选择要考虑其代表性, 也要注意类型上的多样性以及地区分布上的合理性和 稳定性。
③价格的调查与计算
对代表规格品的采价原则是:
a .同一规格品的价格必须同质可比;
b .如果挂牌价与成交价不同,按成交价计;
c .与居民生活密切相关,且价格变动频繁的商品,至少每 5 天调查一次; 一般商品,每月调查 2~3 次。
④权数的确定
居民消费价格指数的权数由全国样本的 10 万多个城乡居民家庭消费支出构成确定。其中省(自治区、直辖 市)、城市和农村的权数, 分别根据全省(自治区、直辖市)城镇居民家庭生活消费支出和农村居民家庭生活消 费支出的现金支出资料整理计算。全国权数根据各省(自治区、直辖市) 的权数按各地人均消费支出金额和人口 数加权平均计算。大类、中类和小类依次分层计算。
⑤指数计算
总指数计算采用加权平均方法,计算公式为:
Ip = ∑iW/∑W
式中, i 为代表规格品个体指数或各层的类指数; W 为相对应的消费支出比重。
具体计算过程是: 先分别计算出各代表规格品基期和报告期的全社会综合平均价, 并计算出相应的价格指数,
然后分层逐级计算小类、中类、大类和总指数。
(2)居民消费价格指数的作用
①反映城乡居民所购买的生活消费品和服务项目价格的变动趋势和程度。
②反映通货膨胀状况
通货膨胀的严重程度是用通货膨胀率来反映的,它说明了一定时期内商品价格持续上升的幅度。通货膨胀率 一般以消费价格指数来表示,即
通货膨胀率=[(报告期居民消费价格指数-基期居民消费价格指数) /基期居民消费价格指数]×100% ③反映居民购买力水平
货币购买力是指单位货币能够购买到的消费品和服务的数量。居民消费价格指数上涨,货币购买力就会下降,
反之则上升,因此, 居民消费价格指数的倒数就是货币购买力指数,即
货币购买力指数=1/居民消费价格指数×100%
④测定职工实际工资水平
消费价格指数提高,说明实际工资减少,消费价格指数下降则说明实际工资提高了。因此,利用消费价格指 数可以将名义工资转化为实际工资。 即
实际工资=名义工资/居民消费价格指数
2 .股票价格指数
股票价格指数的编制方法有多种, 综合指数公式是其中的一种重要方法。我国的上证指数、美国标准普尔指 数、香港恒生股票指数等, 都是采用综合指数公式编制。此处仅以我国的上证指数为例。上证股价指数是由上海 证券交易所编制并发布的指数系列,包括上证综合指数、上证 180 指数、上证 50 指数、 上证 380 指数等。其中 编制最早也最典型的是上证综合指数,该指数自 1991 年 7 月 15 日起正式发布,以 1990 年 12 月 19 日为基日, 基日为 100 点,以现有所有上市股票(包括 A 股和 B 股)为样本,以报告期股票发行量为权数进行编制,计算 公式为:
今日股价指数=(今日市价总值/基日市价总值) ×100
市价总值为收盘价乘以发行股数,遇发行新股或扩股时,需要进行修正。
上证综合指数在编制上有几个特点:
(1)该指数包括挂牌上市的所有股票,其优点是能全面、准确地反映某个时点股票价格的全面变动情况, 能考虑到行业分布和不同公司的规模,具有广泛的代表性。其缺陷: 一是敏感性差,不能及时反映主要上市公司 股票价格对市场大势的影响; 二是只要有新股上市就要计入指数中, 使得指数内部结构变动频繁, 影响了结构的 稳定性和指数前后的可比性。
(2)该指数以发行量为权数,这也是国际上通行的做法,好处是比较全面,但我国股票发行中的法人股占 比重较大,且不能上市流通,因此指数所反映的只是流通市场的潜在能量,而不是现实市场股价的综合变动。
3 .消费者满意度指数
消费者满意度指数是社会学、心理学的研究成果在管理和营销领域应用的具体体现, 用指数方式描述人的主 观感受和心理活动是指数应用领域拓展的一个重要方向, 指数理论和其他统计方法相结合, 为指数的应用开拓了 更大的空间。
消费者满意度是一个经济心理学的概念, 各国满意度模型不尽相同, 但有着共同的基本框架。模型的前导变 量有两个:消费者对产品、服务的价值感知; 消费者对产品、服务的期望。满意度的结果变量是消费者投诉和消 费者忠诚度。忠诚度是模型中最终的因变量,可以作为消费者保留和企业利润的指示器。模型的框架如图 14- 1 所示。
图 14- 1 满意度模型框架图
=
五、综合评价指数
1 .综合评价与综合评价指数
综合评价是针对研究的对象, 建立一个进行测评的指标体系, 利用一定的方法或模型, 对搜集的资料进行分 析,对被评价的事物作出量化的总体判断。
综合评价指数的基础是单项指标, 由于不同的单项指标通常不能直接进行加减乘除的运算, 需要将数据处理 技术与指数分析方法结合起来。构建综合评价指数的具体方法有很多, 不同构建方法会带来不同的结果, 但构造 指数的原理是相同的。 其构建步骤为:
(1)建立综合评价指标体系: 应进行必要的定性研究,对所研究的问题进行深入的分析,尽量选择具有一 定综合意义的代表性指标。
(2)对评价指标作无量纲化处理:指标的性质不同,计量单位不同,具有不同的量纲,需要对各指标的实 际数据进行无量纲化处理,使之具有可比性,在此基础上才有可能进行综合。
(3)确定各项评价指标的权重: 可以利用主观确定权数和客观确定权数的方法。
(4)计算综合评价指数:选择适当的方法, 计算得到综合评价指数。
2 .综合评价指数的构建方法
指标的无量纲化处理,可以有不同处理方法。
(1)统计标准化
__ __
其转换公式为: zi =(xi-x)/s,式中x是 xi 的均值, s 是标准差。 这种标准化方法将变量的均值和标准差结
合在一起考虑,消除了变量分布不同的影响,最具有统计意义。
(2)相对标准化
这种方法是先对一个评价指标确定一个标准值,然后用实际值和标准值进行比较,实现指标的相对化处理, 公式表示为:
zi =xi/xs
式中, xs 为进行标准化确定的对比标准, 通常可以选择最优值或平均值作为对比标准。定的标准不同, 标准 值的含义也不同。 这种标准化方法可以体现评价者进行评价的目标性。
(3)功效系数法
是对多目标规划原理中的功效系数加以改进,把要评价的指标转化为可以度量的评判分数,公式为:
z = xi 一 min(xi )
i max(xi ) 一 min(xi )
式中, max(xi )和 min(xi )分别为指标 xi 的最大值和最小值。
将功效系数法进行一些拓展,得到改进的功效系数法,公式为:
z = xi 一 min(xi ) 会 40 + 60
i max(xi ) 一 min(xi )
这样得到的标准化分数在 60~100 之间。这种标准化方法可以减小极端数值对计算结果的视觉影响, 接近人 们对分数的一般看法。
有了各指标的无量纲标准化处理, 再结合各指标的权重, 就可以得到综合评价指数。通常采用加权平均的方
式进行处理,公式为:
I =
式中, 0≤wi ≤1,
zi wi
wi
wi = 1
请先
!