第一章 单元测试
1、单选题:
大数据的英文描述是( )
选项:
A:Big data
B:Great data
C:Large data
D:Heavy data
答案: 【Big data】
2、单选题:
下面最大的储存单位是( )
选项:
A:PB
B:TB
C:KB
D:GB
答案: 【PB】
3、单选题:
大数据之父是( )
选项:
A:维克托·迈尔-舍恩伯格
B:詹姆斯·高斯林
C:姚期智
D:查尔斯·巴赫曼
答案: 【维克托·迈尔-舍恩伯格】
4、多选题:
大数据的特点包括( )
选项:
A:Value
B:Velocity
C:Volume
D:Variety
答案: 【Value;Velocity;Volume;Variety】
5、多选题:
第一次正式提出大数据概念和第一次用社会调查的方式分析大数据对人们生活影响的期刊是( )和( )
选项:
A:Science
B:Cell
C:Nature
D:PNAS
答案: 【Science;Nature】
6、判断题:
大数据是只和互联网相关的计算机技术。
选项:
A:对
B:错
答案: 【错】
7、判断题:
企业中大部分的数据都是非结构化数据。
选项:
A:错
B:对
答案: 【对】
8、判断题:
大数据技术的基础是由阿里巴巴首先提出的。
选项:
A:对
B:错
答案: 【错】
9、判断题:
大数据人才需要数学、统计学、数学分析、商业分析和自然语言处理的多方面的学习。
选项:
A:对
B:错
答案: 【对】
10、判断题:
大数据对网络安全没有威胁。
选项:
A:对
B:错
答案: 【错】
第二章 单元测试
1、单选题:
目前,企业的数据架构存在的最大比例问题是( )
选项:
A:运营成本高
B:拓展性差
C:资源利用率低
D:高耗能
答案: 【拓展性差】
2、判断题:
目前,企业数据分析处理面临的主要问题是缺少数据全方位分析方法。
选项:
A:错
B:对
答案: 【对】
3、单选题:
地图导航根据以往的行程记录,绘制了最优路程,标明了可能堵车的地点,这表现了大数据分析理念中的( )
选项:
A:注重相关性而不是因果性
B:注重相对性而不是绝对性
C:注重全体而不是局部
D:注重效率而不是准确
答案: 【注重相关性而不是因果性】
4、单选题:
最早提出大数据研发计划的国家是( )
选项:
A:日本
B:法国
C:中国
D:美国
答案: 【美国】
5、多选题:
大数据可能被运用的行业有( )
选项:
A:农业
B:医疗
C:教育
D:金融
答案: 【农业;医疗;教育;金融】
6、判断题:
2015年9月18日云南省启动我国首个大数据综合试验区的建设工作。
选项:
A:对
B:错
答案: 【错】
7、判断题:
大数据的价值密度很高。
选项:
A:对
B:错
答案: 【错】
8、判断题:
日本政府将IT产业,尤其是大数据及云计算作为促进经济增长,解决内部矛盾一个关键。
选项:
A:对
B:错
答案: 【对】
9、判断题:
非结构化数据对企业也富有价值。
选项:
A:对
B:错
答案: 【对】
10、判断题:
企业的日数据生成量可达到1TB。
选项:
A:错
B:对
答案: 【对】
第三章 单元测试
1、单选题:
HDFS中文件存储的基本节点是( )
选项:
A:WholeNode
B:NameNode
C:BaseNode
D:DataNode
答案: 【DataNode】
2、单选题:
下面不属于ETL的功能是( )
选项:
A:翻译
B:加载
C:转换
D:抽取
答案: 【翻译】
3、多选题:
自然语言处理的范畴包括( )
选项:
A:关联分析
B:中文自动分词
C:离群值检测
D:机器翻译
答案: 【中文自动分词;机器翻译】
4、多选题:
Apache Hadoop所涉及的核心技术包括( )
选项:
A:MapReduce
B:HDFS
C:EMC
D:Hbase
答案: 【MapReduce;HDFS;Hbase】
5、多选题:
HDFS的主要结构包括( )
选项:
A:Server
B:Client
C:DataNode
D:NameNode
答案: 【Client;DataNode;NameNode】
6、多选题:
下列算法中属于聚类算法的是( )
选项:
A:Apriori
B:K-means
C:k-distance
D:DBSCAN
答案: 【K-means;DBSCAN】
7、判断题:
Hadoop可以运行在任何普通的PC机上。
选项:
A:错
B:对
答案: 【对】
8、判断题:
Client是获取分布式文件的应用程序
选项:
A:对
B:错
答案: 【对】
9、判断题:
Hadoop是一种集中式存储和计算技术。
选项:
A:对
B:错
答案: 【错】
10、判断题:
聚类之前的样本没有类别
选项:
A:对
B:错
答案: 【对】
第四章 单元测试
1、单选题:
Modeler在2009年被( )收购后对产品的性能和功能进行了大幅度的改进和提升。
选项:
A:微软
B:苹果
C:谷歌
D:IBM
答案: 【IBM】
2、单选题:
Modeler数据挖掘功能将复杂的统计方法和( )技术结合到一起。
选项:
A:机器学习
B:软件工程
C:信息安全
D:大数据
答案: 【机器学习】
3、单选题:
Modeler可以将模型保存为( )的通用格式,支持对其进行二次开发。
选项:
A:PMML
B:PB
C:CKPT
D:PKL
答案: 【PMML】
4、多选题:
下面( )是基本数据流的节点。
选项:
A:变量文件节点
B:导出节点
C:选择节点
D:导入节点
答案: 【变量文件节点;导出节点;选择节点】
5、多选题:
Modeler中的常用节点选项面板包括:( )。
选项:
A:源
B:字段选项
C:建模选项
D:记录选项
E:图形选项
答案: 【源;字段选项;建模选项;记录选项;图形选项】
6、判断题:
Modeler和Statistics是相互独立的两个数据分析软件。
选项:
A:错
B:对
答案: 【错】
7、判断题:
Modeler可以对可变长度记录进行数据的处理。
选项:
A:对
B:错
答案: 【对】
8、判断题:
Modeler能通过第三方提供开放的ODBC与其他数据库连接。
选项:
A:错
B:对
答案: 【对】
9、判断题:
Modeler不支持生成散点图、分布图等来反映数据的特征。
选项:
A:对
B:错
答案: 【错】
10、判断题:
Modeler支持数据挖掘CRISP-DM的标准流程。
选项:
A:对
B:错
答案: 【对】
第五章 单元测试
1、单选题:
协方差分析中,如果两个变量的变化趋势一致,那么这两个变量之间的协方差就是( )。
选项:
A:负值
B:正值
C:不清楚
D:0
答案: 【正值】
2、单选题:
在抽样调查中,如果样本数量N为( )时,就称为大样本。
选项:
A:N>=50
B:N>=100
C:N>=20
D:N>=30
答案: 【N>=30】
3、单选题:
在统计调查中,( )误差是由观察、测量或计算等原因所造成的。
选项:
A:登记性误差
B:抽样误差
C:系统误差
D:随机性误差
答案: 【登记性误差】
4、多选题:
常见的数据变换操作包括( )。
选项:
A:聚集
B:规范化
C:平滑
D:属性构造
E:数据规约
答案: 【聚集;规范化;平滑;属性构造;数据规约】
5、多选题:
平滑处理在科学研究中广泛使用,常用方法有( )。
选项:
A:聚类法
B:单纯移动平均
C:滤波法
D:加权移动平均
答案: 【单纯移动平均;滤波法;加权移动平均】
6、多选题:
维数归约的主要方法有( )。
选项:
A:逐步向前删除
B:逐步向前选择
C:逐步向后删除
D:逐步向后选择
答案: 【逐步向前选择;逐步向后删除】
7、判断题:
抽样极限又称置信区间,是指一定概率下抽样误差的真实范围。
选项:
A:错
B:对
答案: 【错】
8、判断题:
数据规约是指在尽可能保持数据原貌的前提下,最大限度地精简属性数量。
选项:
A:对
B:错
答案: 【错】
9、判断题:
聚集也称为数据汇总,用来构建数据立方体。
选项:
A:错
B:对
答案: 【对】
10、判断题:
在概率论和统计学中,协方差用于衡量两个变量的平均误差。
选项:
A:对
B:错
答案: 【错】
第六章 单元测试
1、单选题:
在计算机领域,( )用来描述数据的起源或者出处。
选项:
A:缘由
B:溯源
C:源头
D:来源
答案: 【溯源】
2、单选题:
由于采集设备异常,造成接收的数据取值不合理,是属于( )类型的数据质量问题。
选项:
A:数据失效
B:缺少完整性约束
C:空值
D:噪声数据
答案: 【噪声数据】
3、单选题:
数据质量的相关技术中,( )被用来检查文件系统或者数据库中数据的过程。
选项:
A:数据集成
B:数据采集
C:数据剖析
D:数据清洁
答案: 【数据剖析】
4、单选题:
在四种数据集成技术中,( )技术可以实现对各个数据源数据的抽取、清洗、转换和复制。
选项:
A:联邦数据库系统结构
B:MPP 数据库存储与处理架构
C:基于中间件的数据集成模型
D:基于数据仓库的数据集成模型
答案: 【基于数据仓库的数据集成模型】
5、多选题:
数据剖析的分类是( )。
选项:
A:多源数据
B:结构化数据
C:单源数据
D:非结构化数据
答案: 【多源数据;单源数据】
6、多选题:
针对“空值”的数据清洁方法有( )。
选项:
A:概率统计值填充
B:均值填充
C:全局变量填充
D:人工填写
答案: 【概率统计值填充;均值填充;全局变量填充;人工填写】
7、判断题:
数据溯源追踪的主要方法有标注法和反向查询法。
选项:
A:对
B:错
答案: 【对】
8、判断题:
AHP质量评估方法一般是应用于质量指标权重值的确定。
选项:
A:对
B:错
答案: 【对】
9、判断题:
数据质量的定性评估主要依靠支持者的主观判断。
选项:
A:对
B:错
答案: 【错】
10、判断题:
综合评估方法结合了定性评估和定量评估的优点,适用范围更广泛。
选项:
A:对
B:错
答案: 【对】
第七章 单元测试
1、单选题:
使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的( )任务?
选项:
A:建模描述
B:寻找模式和规则
C:探索性数据分析
D:预测建模
答案: 【探索性数据分析】
2、单选题:
英文单词缩写KDD表示( )含义?
选项:
A:领域知识发现
B:文档知识发现
C:动态知识发现
D:数据挖掘与知识发现
答案: 【数据挖掘与知识发现】
3、单选题:
以下( )操作会降低Apriori算法的挖掘效率。
选项:
A:项数减少
B:支持度阈值增大
C:事务数减少
D:减小硬盘读写速率
答案: 【减小硬盘读写速率】
4、多选题:
寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示,这个过程包括了以下( )步骤?
选项:
A:决定如何量化和比较不同表示拟合数据的好坏
B:选择一个算法过程使评分函数最优
C:决定用什么样的数据管理原则以高效地实现算法
D:决定要使用的表示的特征和结构
答案: 【决定如何量化和比较不同表示拟合数据的好坏;选择一个算法过程使评分函数最优;决定用什么样的数据管理原则以高效地实现算法;决定要使用的表示的特征和结构】
5、多选题:
下面列出的条目中,( )是数据仓库的基本特征。
选项:
A:
数据仓库是面向事务的
B:
数据仓库的数据是相对稳定的
C:
数据仓库的数据是集成的
D:
数据仓库的数据是反映历史变化的
E:
数据仓库是面向主题的
答案: 【
数据仓库的数据是相对稳定的
;
数据仓库的数据是集成的
;
数据仓库的数据是反映历史变化的
;
数据仓库是面向主题的
】
6、判断题:
关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
选项:
A:对
B:错
答案: 【错】
7、判断题:
给定关联规则AàB,意味着:若A发生,B也会发生。
选项:
A:对
B:错
答案: 【错】
8、判断题:
Apriori算法产生的关联规则总是确定的
选项:
A:对
B:错
答案: 【对】
9、判断题:
对于项集来说,置信度没有意义。
选项:
A:对
B:错
答案: 【对】
10、判断题:
数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
选项:
A:对
B:错
答案: 【对】
第八章 单元测试
1、单选题:
关于相关系数,下面不正确的描述是
选项:
A:当r=0时,表示两变量间无相关
B:如果自变量增长引起因变量的相应增长,就形成正相关关系
C:两变量之间的相关关系是单相关
D:当0≤|r|≤1时,表示两变量不完全相关
答案: 【当r=0时,表示两变量间无相关】
2、单选题:
当x按一定数额增加时,y也近似地按一定数额随之增加,那么可以说x与y之间存在( )关系
选项:
A:直线正相关
B:曲线正相关
C:曲线负相关
D:直线负相关
答案: 【直线正相关】
3、单选题:
评价直线相关关系的密切程度,当r在0.5~0.8之间时,表示( )。
选项:
A:低度相关
B:高度相关
C:无相关
D:中等相关
答案: 【中等相关】
4、单选题:
身高和体重之间的关系是( )
选项:
A:无关系
B:共变关系
C:函数关系
D:严格的依存关系
答案: 【共变关系】
5、单选题:
下列关系中,属于正相关关系的是( )
选项:
A:产品与单位成本
B:商品的零售额和流通费率
C:身高与体重
D:正常商品的价格和需求量
答案: 【身高与体重】
6、单选题:
当所有的观察值y都落在直线 yc=a+bx上时,则x与y之间的相关系数为( )
选项:
A:-1<r<1
B:r=1
C:r=0
D:0<r<1
答案: 【r=1】
7、单选题:
两变量X和Y的相关系数为0.8,则其回归直线的判定系数为( )
选项:
A:0.5
B:0.8
C:0.9
D:0.64
答案: 【0.64】
8、单选题:
在完成了构造与评价一个回归模型后,我们可以( )
选项:
A:计算相关系数和判定系数
B:估计未来所需样本的容量
C:以给定的自变量的值估计因变量的值
D:以给定的因变量的值估计自变量的值
答案: 【以给定的自变量的值估计因变量的值】
9、单选题:
在回归分析中,两个变量( )
选项:
A:因变量是随机变量
B:自变量是随机变量
C:都是随机变量
D:都不是随机变量
答案: 【因变量是随机变量】
10、单选题:
以下指标恒为正的是( )
选项:
A:相关系数r
B:斜率b
C:截距a
D:复相关系数
答案: 【复相关系数】
第九章 单元测试
1、单选题:
科学可视化主要关注的是( )维现象的可视化。
选项:
A:二维
B:三维
C:一维
D:N维
答案: 【三维】
2、单选题:
不同用户对数据可视化的认知有所区别,设计人员认为可视化是( )。
选项:
A:表述想法的工具
B:信息编码方式
C:漂亮的视觉表现
D:用户情感的表示
答案: 【漂亮的视觉表现】
3、单选题:
作为电商企业,以下( )图可以有效地提供不同商品的销售和趋势情况。
选项:
A:热力图
B:平行坐标图
C:气泡图
D:条形图和线图的组合图
答案: 【条形图和线图的组合图】
4、多选题:
数据可视化分为( )与( )两个方向。
选项:
A:图像可视化
B:内容可视化
C:科学可视化
D:信息可视化
答案: 【科学可视化;信息可视化】
5、多选题:
下面属于数据类别的是( )。
选项:
A:位置
B:关系
C:序列
D:数量
答案: 【位置;关系;序列;数量】
6、判断题:
数据可视化是借助于图形化手段,清晰有效地传达与沟通信息。
选项:
A:对
B:错
答案: 【对】
7、判断题:
气泡图只能够表示3个变量之间的关系。
选项:
A:对
B:错
答案: 【错】
8、判断题:
平行坐标图是利用色块大小,颜色来传达信息的。
选项:
A:对
B:错
答案: 【对】
9、判断题:
热力图实现了同类型下以及不同类型下子集大小的比较。
选项:
A:错
B:对
答案: 【错】
10、判断题:
数据可视化的挖掘阶段是指应用统计或数据挖掘方法来辨析数据格式,或者是把数据置于一个数据的环境中。
选项:
A:错
B:对
答案: 【对】
评论0