试题列表
单选题
题型:单选题客观题分值1分难度:一般得分:1
1
下列传统并行计算框架,说法错误的是哪一项?
A
刀片服务器、高速网、SAN,价格贵,扩展性差
B
共享式(共享内存/共享存储),容错性好
C
编程难度高
D
实时、细粒度计算、计算密集型
正确答案:B
题型:单选题客观题分值1分难度:一般得分:1
2下列关于MapReduce模型的描述,错误的是哪一项?
AMapReduce采用“分而治之”策略
BMapReduce设计的一个理念就是“计算向数据靠拢”
CMapReduce框架采用了Master/Slave架构
DMapReduce应用程序只能用Java来写
正确答案:D
题型:单选题客观题分值1分难度:一般得分:1
3MapReduce1.0的体系结构中,JobTracker是主要任务是什么?
A负责资源监控和作业调度,监控所有TaskTracker与Job的健康状况
B使用“slot”等量划分本节点上的资源量(CPU、内存等)
C会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给TaskTracker
D会跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务(Task)
正确答案:A
题型:单选题客观题分值1分难度:一般得分:1
4下列关于MapReduce工作流程,哪个描述是正确的?
A所有的数据交换都是通过MapReduce框架自身去实现的
B不同的Map任务之间会进行通信
C不同的Reduce任务之间可以发生信息交换
D用户可以显式地从一台机器向另一台机器发送消息
正确答案:A
题型:单选题客观题分值1分难度:一般得分:1
5下列关于MapReduce的说法,哪个描述是错误的?
AMapReduce具有广泛的应用,比如关系代数运算、分组与聚合运算等
BMapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数
C编程人员在不会分布式并行编程的情况下,也可以很容易将自己的程序运行在分布式系统上,完成海量数据集的计算
D不同的Map任务之间可以进行通信
正确答案:D
题型:单选题客观题分值1分难度:一般得分:1
6下列关于Map和Reduce函数的描述,哪个是错误的?
AMap将小数据集进一步解析成一批对,输入Map函数中进行处理
BMap每一个输入的会输出一批。是计算的中间结果
CReduce输入的中间结果中的List(v2)表示是一批属于不同k2的value
DReduce输入的中间结果中的List(v2)表示是一批属于同一个k2的value
正确答案:C
题型:单选题客观题分值1分难度:一般得分:1
7关于MapReduce体系结构的描述,下列说法错误的是?
ATask 分为Map Task 和Reduce Task 两种,分别由JobTracker 和TaskTracker 启动
Bslot 分为Map slot 和Reduce slot 两种,分别供MapTask 和Reduce Task 使用
CTaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
DTaskTracker 会周期性接收JobTracker 发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)
正确答案:A
题型:单选题客观题分值1分难度:一般得分:1
8下面哪个选项不属于Hadoop1.0 的问题?
A单一名称节点,存在单点失效问题
B单一命名空间,无法实现资源隔离
C资源管理效率低
D很难上手
正确答案:D
题型:单选题客观题分值1分难度:一般得分:1
9在Hadoop生态系统中,Kafka主要解决Hadoop 中存在哪些的问题?
AHadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介
B不同的MapReduce任务之间存在重复操作,降低了效率
C延迟高,而且不适合执行迭代计算
D抽象层次低,需要手工编写大量代码
正确答案:A
题型:单选题客观题分值1分难度:一般得分:1
10关于HDFS Federation 的设计的描述,哪个是错误的?
A属于不同命名空间的块可以构成同一个“块池”
BHDFS Federation中,所有名称节点会共享底层的数据节点存储资源,数据节点向所有名称节点汇报
C设计了多个相互独立的名称节点
DHDFS的命名服务能够水平扩展
正确答案:A
题型:单选题客观题分值1分难度:一般得分:1
11下列哪个不属于YARN体系结构中ResourceManager的功能?
A处理客户端请求
B监控NodeManager
C资源分配与调度
D处理来自ApplicationMaster的命令
正确答案:D
题型:单选题客观题分值1分难度:一般得分:1
12下列哪个不属于YARN体系结构中ApplicationMaster的功能?
A任务调度、监控与容错
B处理来自ResourceManger的命令
C为应用程序申请资源
D将申请的资源分配给内部任务
正确答案:B
题型:单选题客观题分值1分难度:一般得分:1
13下列关于Spark的描述,错误的是哪一项?
A使用DAG执行引擎以支持循环数据流与内存计算
B可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中
C支持使用Scala、Java、Python和R语言进行编程,但是不可以通过Spark Shell进行交互式编程
D提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件
正确答案:C
题型:单选题客观题分值1分难度:一般得分:1
14下列关于Scala特性的描述,错误的是哪一项?
AScala语法复杂,但是能提供优雅的API
BScala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统
CScala兼容Java,运行速度快,且能融合到Hadoop生态圈中
DScala是Spark的主要编程语言
正确答案:A
题型:单选题客观题分值1分难度:一般得分:1
15下列说法哪项有误?
A相对于Spark来说,使用Hadoop进行迭代计算非常耗资源
BSpark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据
CHadoop的设计遵循“一个软件栈满足不同应用场景”的理念
DSpark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案
正确答案:C
题型:单选题客观题分值1分难度:一般得分:1
16在Spark生态系统组件的应用场景中,下列哪项说法是错误的?
ASpark应用在复杂的批量数据处理
BSpark SQL是基于历史数据的交互式查询
CSpark Streaming是基于历史数据的数据挖掘
DGraphX是图结构数据的处理
正确答案:C
题型:单选题客观题分值1分难度:一般得分:1
17关于Spark运行架构,下列说法错误的是?
ARDD是运行在工作节点(WorkerNode)的一个进程,负责运行Task
BApplication是用户编写的Spark应用程序
C一个Job包含多个RDD及作用于相应RDD上的各种操作
DDAG反映RDD之间的依赖关系
正确答案:A
题型:单选题客观题分值1分难度:一般得分:1
18下列关于Spark中RDD的说法,描述有误的是?
A一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合
B每个RDD可分成多个分区,每个分区就是一个数据集片段
CRDD是可以直接修改的
DRDD提供了一种高度受限的共享内存模型
正确答案:C
题型:单选题客观题分值1分难度:一般得分:1
19下列关于推荐系统的描述,哪一项是错误的?
A推荐系统是大数据在互联网领域的典型应用
B推荐系统是自动联系用户和物品的一种工具
C推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售
D推荐系统分为基于物品的协同过滤和基于商家的协同过滤
正确答案:D
题型:单选题客观题分值1分难度:一般得分:1
20下列关于推荐系统的描述,有误的是?
A专家推荐:人工推荐,由资深的专业人士来进行物品的筛选和推荐,需要较多的人力成本性
B基于统计的推荐:通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容
C协同过滤推荐:应用最早和最为成功的推荐方法之一
D混合推荐:结合多种推荐算法来提升推荐效果
正确答案:B
多选题
题型:多选题客观题分值2分难度:中等得分:2
1MapReduce相较于传统的并行计算框架有什么优势?
A非共享式,容错性好
B使用普通PC机,便宜,扩展性好
C编程简单,只要告诉MapReduce做什么即可
D批处理、非实时、数据密集型
正确答案:A;B;C;D
题型:多选题客观题分值2分难度:中等得分:2
2MapReduce体系结构主要由以下那几个部分构成?
AClient
BJobTracker
CTaskTracker
DTask
正确答案:A;B;C;D
题型:多选题客观题分值2分难度:中等得分:2
3下列关于MapReduce的体系结构的描述,说法正确的有?
A用户编写的MapReduce程序通过Client提交到JobTracker端
BJobTracker负责资源监控和作业调度
CTaskTracker监控所有TaskTracker与Job的健康状况
DTaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
正确答案:A;B;D
题型:多选题客观题分值2分难度:中等得分:2
4MapReduce的作业主要包括什么?
A从磁盘或从网络读取数据,即IO密集工作
B计算数据,即CPU密集工作
C针对不同的工作节点选择合适硬件类型
D负责协调集群中的数据存储
正确答案:A;B
题型:多选题客观题分值2分难度:中等得分:2
5下列关于MapReduce的Map 端的Shuffle的描述,哪些是正确的?
AMapReduce默认为每个Map任务分配1000MB缓存
B多个溢写文件归并成一个或多个大文件,文件中的键值对是排序的
C当数据很少时,不需要溢写到磁盘,直接在缓存中归并,然后输出给Reduce
D每个Map任务分配多个缓存,使得任务运行更有效率
正确答案:B;C
题型:多选题客观题分值2分难度:中等得分:2
6MapReduce的具体应用包括哪些?
A关系代数运算(选择、投影、并、交、差、连接)
B分组与聚合运算
C矩阵-向量乘法
D矩阵乘法
正确答案:A;B;C;D
题型:多选题客观题分值2分难度:中等得分:2
7MapReduce执行的全过程包括以下哪几个主要阶段?
A从分布式文件系统读入数据
B执行Map任务输出中间结果
C通过 Shuffle阶段把中间结果分区排序整理后发送给Reduce任务
D执行Reduce任务得到最终结果并写入分布式文件系统
正确答案:A;B;C;D
题型:多选题客观题分值2分难度:中等得分:2
8下列选项中,哪些属于Hadoop1.0的核心组件的不足之处?
A实时性差(适合批处理,不支持实时交互式)
B资源浪费(Map和Reduce分两阶段执行)
C执行迭代操作效率低
D难以看到程序整体逻辑
正确答案:A;B;C;D
题型:多选题客观题分值2分难度:中等得分:2
9下列哪些属于Hadoop2.0相对于Hadoop1.0的改进?
A设计了HDFS HA
B提供名称节点热备机制
C设计了HDFS Federation,管理多个命名空间
D设计了新的资源管理框架YARN
正确答案:A;B;C;D
题型:多选题客观题分值2分难度:中等得分:2
10下面哪个属于不断完善的Hadoop生态系统中的组件?
APig
BTez
CKafka
DDN8
正确答案:A;B;C
题型:多选题客观题分值2分难度:中等得分:2
11HDFS Federation 相对于HDFS1.0 的优势主要体现在哪里?
A能够解决单点故障问题
BHDFS 集群扩展性
C性能更高效
D良好的隔离性
正确答案:B;C;D
题型:多选题客观题分值2分难度:中等得分:2
12YARN体系结构主要包括哪三部分?
AResourceManager
BNodeManager
CDataManager
DApplicationMaster
正确答案:A;B;D
题型:多选题客观题分值2分难度:中等得分:2
13Spark具有以下哪几个主要特点?
A运行速度快
B容易使用
C通用性
D运行模式单一
正确答案:A;B;C
题型:多选题客观题分值2分难度:中等得分:2
14在实际应用中,大数据处理主要包括以下哪三个类型?
A复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间
B基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间
C基于实时数据流的数据处理:通常时间跨度在数十秒到数分钟之间
D基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间
正确答案:A;B;D
题型:多选题客观题分值2分难度:中等得分:2
15在实际大数据处理应用中,当采用多种计算架构来满足不同应用场景需求时,会带来哪些问题?
A不同场景之间输入输出数据无法做到无缝共享,通常需要进行数据格式的转换
B不同的软件需要不同的开发和维护团队
C需要较高的使用成本
D比较难以对同一个集群中的各个系统进行统一的资源协调和分配
正确答案:A;B;C;D
题型:多选题客观题分值2分难度:中等得分:2
16与Hadoop MapReduce计算框架相比,Spark所采用的Executor具有哪些优点?
A利用多线程来执行具体的任务,减少任务的启动开销
BExecutor中有一个BlockManager存储模块,有效减少IO开销
C提供了一种高度受限的共享内存模型
D不同场景之间输入输出数据能做到无缝共享
正确答案:A;B
题型:多选题客观题分值2分难度:中等得分:2
17Spark采用RDD以后能够实现高效计算的原因主要在于?
A高效的容错性
B中间结果持久化到内存,避免了不必要的读写磁盘开销
C存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化
D采用数据复制实现容错
正确答案:A;B;C
题型:多选题客观题分值2分难度:中等得分:2
18Spark支持哪三种不同类型的部署方式?
AStandalone
BSpark on Mesos
CSpark on YARN
DSpark on HDFS
正确答案:A;B;C
题型:多选题客观题分值2分难度:中等得分:2
19下列哪些属于大数据应用?
A推荐系统:为用户推荐相关商品
B物流:基于大数据和物联网技术的智能物流
C智能交通:利用交通大数据,实现交通实时监控
D汽车:无人驾驶汽车,实时采集车辆各种行驶数据和周围环境
正确答案:A;B;C;D
题型:多选题客观题分值2分难度:中等得分:2
20下列关于协同过滤算法的描述,哪些是正确的?
AItemCF算法是目前业界应用最多的算法
BItemCF算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品
CItemCF算法通过建立用户到物品倒排表(每个用户喜欢的物品的列表)来计算物品相似度
DUserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品
正确答案:A;B;C;D
简答题
题型:简答题主观题分值40分难度:较难得分:
1
本题是应用实践题,请到讨论区“破冰之旅(含资源下载)”中下载《实验5 MapReduce编程基础 指导书》和《实验5 MapReduce编程基础 实验报告》,阅读实验指导书,根据实验步骤进行实验,填写好实验报告,以附件形式提交到这里。




评论0