某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。这种调查方法属于(分层抽样)。
以下关于因变量与自变量的表述不正确的是(自变量的变化是以因变量的变化为前提 )。
为了解某地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。此处5000户是(样本 )。
某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。这种调查方法属于(系统抽样 )。
某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为( 5.5小时 )。
下表为某专业一年级学生平均每周上网时间的频率分布表,按照向上累积的方法计算第5组的累积频率是( 66.10% )。
以下关于条形图的表述,不正确的是( 条形图的矩形通常是紧密排列的 )。
等距分组和不等距分组有什么区别?请举例说明。
(1)在对数据进行分组时,如果各组组距相等,则称为等距分组。例如,分析某班同学期末统计课成绩时,假如最低分为73分,最高分为98分,以5分为组距进行分组,分为70-75分,75-80分,80-85分,85-90分,90-95分,95-100分。
(2)如果各组组距不相等,则称为不等距分组。例如,在分析人口时,往往将人口分为婴幼儿组(0-6岁),少年儿童组(7-17岁),中青年组(18-59岁),老年人组(60岁及以上),该分类中各组组距不相等,这就是不等距分组。
“某行业管理局所属40个企业2011年产品销售额数据如下所示。n
要求:n
(1)对2011年销售额按由低到高进行排序,求出众数、中位数和平均数。n
(2)如果按照规定,销售额在125万元以上的为先进企业,115万-125万之间的为良好企业,105万-115万之间的为一般企业,105万以下的为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。”
某大学有六门选修课,全校学生可以随意选择,不受任何限制。根据教务处最终选课结果发现,全校一年级2000名学生中,有200人选修“大学生心理分析”,有400人选修“影视欣赏”,有180人选修“古代中国文学鉴赏”,有350人选修“人格魅力的欣赏与培养”,有570人选修“社会统计方法及SPSS软件的应用”,有300人选修“当代中国外交分析”。按照教务处最终选课结果,其众数是(社会统计方法及SPSS软件的应用 )。
下表是某单位工作人员年龄分布表,该单位工作人员的平均年龄是(39 )。
依据上表,该单位工作人员的年龄众数出现在第( 第4 )组。
对于左偏分布,平均数、中位数和众数之间的关系是( 中位数>平均数>众数,众数>中位数>平均数 )。
某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。这种调查方法属于( 系统抽样 )。
甲、乙两人同时打靶,各打10靶,甲平均每靶为8环,标准差为2;乙平均每靶9环,标准差为3,以下关于甲、乙两人打靶的稳定性水平表述正确的是(甲的离散程度小,稳定性水平高)。
社会工作一班男生的平均体重为55千克,社会工作二班男生的平均体重为52千克,两个班级男生体重的标准差均为5千克,那么(二班学生体重的离散程度大)。
“甲单位人均月收入4500元,标准差1200元。乙单位月收入分布如下所示:n
要求:n
(1)计算乙单位员工月收入的均值和标准差。n
(2)比较甲单位和乙单位哪个单位员工月收入的离散程度更大?”
在标准正态分布中,σ值越小,则(离散趋势越小)。
某班级学生期末统计学考试平均成绩为82分,标准差为5分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在72-92之间的学生大约占全班学生的(95%)。
“一项关于大学生体重状况的研究发现,男生的平均体重为60千克,标准差为5千克;女生的平均体重为50千克,标准差为5千克。请问:n
(1)男生中有多少比重的人体重在55千克-65千克之间?n
(2)女生中有多少比重的人体重在40千克-60千克之间?n
备注:Φ(1)=0.8413,Φ(2)=0.9772”
(1)P(55<X<65)=ф[(65-60)/5]-ф[(55-60)/5]
=ф(1)-ф(-1)=ф(1)-[1-ф(-1)]
=2ф(1)-1
由题得,ф(1)=0.8413,所以2ф(1)-1=0.6826,即68%的男生体重在55千克-65千克之间。
(2)P(55<X<65)=Φ[(60-50)/5]-Φ[(40-50)/5]
=Φ(2)-Φ(-2)=Φ(2)-[1-Φ(-2)]
=2Φ(2)-1
由题得,Φ(2)=0.9772,所以2Φ(2)-1=0.9544,95%的女生体重在40千克-60千克之间。
随机现象
随机现象就是在同一组条件下,每次试验可能出现某一结果,也可能不出现,也就偶然现象。
总体与样本
一般地,把所研究对象的全体元素组成的集合称为总体(或称母体),而把组成总体的每个元素成为称为个体。为了了解总体X的分布规律或某些特征,必须对总体进行抽样观察,即从总体中,随机抽取个个体,,…,,记为,并称此为来自总体的容量为的样本。
参数与统计量
参数(parameter)是研究者想要了解的总体的某种特征值。统计量(statistic)是根据样本数据计算出来的一个量。
抽样分布
抽样分布是指样本统计量的概率分布,它是在重复选取容量为n的样本时,由每个样本计算出来的统计量数值的相对频数分布。
置信水平
置信水平(confidencelevel)就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。
置信区间
置信区间(confidenceinterval)是在区间估计中,由样本统计量所构造的总体参数的估计区间,它有估计量加减抽样误差构成,我们将区间的最小值称为置信下限,区间的最大值称为置信上限。
中心极限定理认为不论总体分布是否服从正态分布,从均值为μ、方差为σ2的总体中,抽取容量为n的随机样本,当n充分大时(通常要求n≥30),样本均值的抽样分布近似服从均值为(μ )、方差为( σ2/n )的正态分布。
在假设检验中,不拒绝虚无假设意味着( 没有证据证明虚无假设是错误的 )。
“为估计某地区每个家庭日均生活用水量为多少,抽取了450个家庭的简单随机样本,得到样本均值为200升,样本标准差为50升。n
(1)试用95%的置信水平,计算该地区家庭日均用水量的置信区间。n
(2)在所调查的450个家庭中,女性为户主的为180个。以95%的置信水平,计算女性为户主的家庭比例的置信区间。n
注:Z0.025=1.96”
下表是某高校大学生对学校食堂情况的满意度调查的二维表,请将以下二维表转换成含百分比的二维表:
对消费的回归分析中,学历、年龄、性别、收入都是自变量,其中收入的回归系数为2.8,这表明( 收入每增加1元,消费增加2.8元 )。
回归平方和(SSR)反映了y的总变差中( 由于x与y之间的线性关系引起的y的变化部分 )。
在回归方程中,若回归系数等于0,这表明( 自变量x对因变量y的影响是不显著的 )。
“某汽车生产商欲了解广告费用(万元)对销售量(辆)的影响。收集了过去12年的有关数据,通过分析得到:方程的截距为363,回归系数为1.42,回归平方和SSR=1600,残差平方和SSE=450。要求:n
(1)写出销售量y与广告费用x之间的线性回归方程。n
(2)假如明年计划投入广告费用为50万,根据回归方程估计明年汽车销售量。n
(3)计算判定系数R2,并解释它的意义。”
简要说明卡方的拟合优度检验和独立性检验的含义。
(1)X2检验用于分类变量之间关系的检验。当用于检验不同类别的目标量之间是否存在显著差异时,称为拟合优度检验。例如,不同职业的人群中对某项改革措施的支持率是否一致。
(2)X2检验还可用于判断两个分类变量之间是否存在联系。如果两个分类变量之间没有关系,则称为独立,我们用X2判断它们之间是否关联,这时称为独立性检验。例如,对性行为的态度是否与受教育程度有关。
“简要举例说明在分析双变量的关系时,t检验和卡方检验的主要区别。n
分析双变量关系时,t检验和卡方检验都是主要用于检验这两个变量之间是否存在显著关系。t检验主要用于对一个为数值型变量、另一个为分类变量且只有两个类别的变量的双变量关系的统计显著性检验。卡方检验主要用于对两个分类变量之间的相关性进行统计检验,判断变量之间是否存在显著关系。n
例如,我们想考察收入与性别是否存在关系,或者两性的收入是否存在显著差异,可以用两独立样本t检验。如果我们想考察职业与性别是否存在关系,而职业和性别都是分类变量,那么可以用卡方检验考察不同性别之间职业是否存在显著差异。”
X²检验用于分类变量之间关系的检验。当用于检验不同类别的目标量之间是否存在显 著差异时,称为拟合优度检验。例如,不同职业的人群中对某项改革措施的支持率是否一致。
X²检验还可用于判断两个分类变量之间是否存在联系。如果两个分类变量之间没有关 系,则称为独立,我们用扩判断它们之间是否关联,这时称为独立性检验。例如,对性行为的态度是否与受教育程度有关。
下列哪种情况不适合用方差分析(年龄对收入的影响)。
从两个总体中共选取了8个观察值,得到组间平方和为432,组内平方和为426,则组间均方和组内均方分别为(432,71)。
某农科院使用4种方法培育稻米,为确定哪种方法生产效率最高,随机划出40块试验田,并指定每块试验田使用其中的一种方法。通过对每块试验田的产量进行分析得到下面的方差分析表,请完成方差分析表。