1. 大数据预处理阶段不包括数据插补步骤。( )
A. √
B. ×
答案:×
2. 在大数据分析过程中,无论数据采集还是预处理都是不可或缺的环节,它们决定了分析结果的质量。( )
A. √
B. ×
答案:√
3. 缺失值的处理方法只有直接删除,没有其他的处理方法。( )
A. √
B. ×
答案:×
4. 特征选择是指选择对预测结果影响力较大的特征,以改善学习算法的性能和解释性。( )
A. √
B. ×
答案:√
5. 数据的收集过程中,数据采集的工具和方法对数据质量、全面性和后续处理没有影响。( )
A. √
B. ×
答案:×
6. 数据降维是一种能有效减少数据复杂度,简化模型计算的技术。( )
A. √
B. ×
答案:√
7. 在HDFS中,NameNode为主节点,负责元数据管理和块位置的索引。( )
A. √
B. ×
答案:√
8. SQL数据库在定义关系时不需要定义属性的大小,从而避免了存储空间的浪费。( )
A. √
B. ×
答案:×
9. 在分布式文件系统HDFS中,数据丢失的问题可以通过在多个数据节点上复制相同的数据块来解决。( )
A. √
B. ×
答案:√
10. 当数据的结构发生变化时,使用SQL数据库进行相应调整的成本相对较低。( )
A. √
B. ×
答案:×
11. 按照预先设定的搜索规则,编写程序自动浏览并下载目标网页信息的数据采集方法称作( )
A. 系统日志信息数据采集方法
B. ETL工具数据采集方法
C. 网络爬虫数据采集方法
D. 传感器数据采集方法
答案:网络爬虫数据采集方法
12. 下列关于数据预处理的描述中,错误的是( )
A. 数据预处理是数据挖掘过程中很重要的一步
B. 数据预处理可以提高后续数据分析的准确率
C. 数据预处理中,无论何时数据都需要降维处理
D. 数据预处理包括数据清洗、数据集成等步骤
答案:数据预处理中,无论何时数据都需要降维处理
13. 数据的整理是根据分析目的对数据格式、形态和结构进行处理,其中( )能够在不损失或损失较少数据本身价值的情况下压缩数据。
A. 数据的聚合
B. 数据的提取
C. 数据的连接
D. 数据的变换
答案:数据的聚合
14. 下列关于异常值的描述中,错误的是( )。
A. 可以使用箱线图检测异常值
B. 当异常值的数量不是很多时,可以直接将含有异常值的观测记录删除
C. 可以将异常值视为缺失值,按处理缺失值的方法处理异常值
D. 异常值的存在不属于数据质量问题,不会影响模型的预测能力
答案:异常值的存在不属于数据质量问题,不会影响模型的预测能力
15. 大数据预处理中,下列哪一项是用来处理噪声数据的?( )
A. 数据清洗
B. 数据转化
C. 数据归约
D. 数据抽样
答案:数据清洗
16. 数据预处理的主要目的是( )。
A. 确定数据的来源
B. 改变数据
答案:提高数据的质量和挖掘效率
17. 分位数分组的基本思想是将样本( ),各组所包含的样本个数相同。
A. 等分成若干份
B. 按属性值大小排序
C. 随机分组
D. 按序分组
答案:等分成若干份
18. 下列哪一项不是常用的数据预处理步骤( )。
A. 数据清洗
B. 数据集成
C. 数据归约
D. 数据可视化
答案:数据可视化
19. 以下哪种方法不适宜处理大数据中的异常值( )。
A. 直接删除异常值
B. 将异常值替换为平均值
C. 将异常值视为缺失值,用插值法处理
D. 直接将异常值赋值为极大值
答案:直接将异常值赋值为极大值
20. 下列哪一项不属于数据预处理的目标( )。
A. 提高数据质量
B. 提高数据安全性
C. 提高数据的可利用性
D. 减少数据处理的复杂性
答案:提高数据安全性
21. 下列关于缺失值的描述中,错误的是( )。
A. 缺失值是指数据集中有些变量的一个或多个取值无法获得
B. 数据缺失的现象大量存在
C. 回归插补的方法不会改变数据分布
D. 当缺失数据的记录所占比例在数据集中少于10%时,可以将缺失值直接删除
答案:回归插补的方法不会改变数据分布
22. 下列有关SQL数据库的局限性,描述错误的是( )。
A. 结构化数据建模
B. 已有数据结构的变化成本高
C. 空间利用率低
D. 无法保证事务处理的可靠性
答案:无法保证事务处理的可靠性
23. 数据仓库为什么可以帮助企业保持竞争力( )?
A. 提供数据分析功能以及数据可视化和演示功能
B. 数据仓库可以自动清理垃圾数据
C. 使用数据仓库可以节省存储空间
D. 数据仓库提供了大量质量低下的数据供企业使用
答案:提供数据分析功能以及数据可视化和演示功能
24. 下列数据库中,属于文档数据库的是( )。
A. Redis
B. Neo4j
C. HBase
D. MongoDB
答案:MongoDB
25. 下列各项属于数据仓库的特点的是( )。
A. 数据以主题为导向,提供决策支持
B. 数据源单一
C. 数据质量低
D. 不支持历史数据分析
答案:数据以主题为导向,提供决策支持
国开学习网电大《大数据技术概论》形考任务2答案
点点赞赏,手留余香
给TA打赏
随机题搜索:
评论0