江苏开放大学数据采集与预处理060749第3单元测试

试题列表
单选题
题型：单选题客观题分值2分难度：一般得分：2
1我们既可以使用LinkExtractor类，也可以自定义符合特定需求的链接提取类。
A错
B对
学生答案：B
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
2Item Pipeline主要用于处理从Spiders中获取到的Item数据。
A对
B错
学生答案：A
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
3在settings.py文件中，ITEM_PIPELINES项的值默认为空。
A对
B错
学生答案：A
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
4若ITEM_PIPELINES设置项的数值越大，则优先级越高。
A错
B对
学生答案：A
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
5Rule规则只适用于链接，不适用于普通的文本。
A错
B对
学生答案：B
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
6如果包含了多个Rule对象，那么每个Rule会轮流处理Response。
A对
B错
学生答案：A
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
7如果要创建一个爬虫文件，那么只能通过使用命令的方式来完成。
A对
B错
学生答案：B
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
8如果Scrapy爬虫文件中规定了爬虫的约束区域，那么不在这个区域的URL会被忽略。
A错
B对
学生答案：B
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
9如果调用process_request方法时返回None，Scrapy将停止调用该方法。
A对
B错
学生答案：B
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
10在爬虫工作的过程中，LinkExtractor类需要被实例化很多次。
A错
B对
学生答案：A
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
11一个Scrapy爬虫项目中只能存在一个爬虫文件。
A对
B错
学生答案：B
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
12Scrapy的代理IP、Uesr-Agent的切换都是通过Item Pipeline进行控制的。
A对
B错
学生答案：B
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
13由于CrawlSpider使用parse方法来实现其逻辑，如果覆盖了parse方法，CrawlSpider将会运行失败。
A对
B错
学生答案：A
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
14Scrapy爬虫文件中，需要使用start_urls属性确定爬取的起始URL元组或列表。
A对
B错
学生答案：A
老师点评：
题型：单选题客观题分值2分难度：一般得分：2
15如果电脑上已经安装了IPython，那么Scrapy shell会优先使用IPython。
A错
B对
学生答案：B
老师点评：
填空题
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
1
Scrapy shell是一个交互式，可在不启动爬虫的条件下尝试及调试爬取代码。
学生答案：环境
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
2
Scrapy是用纯Python实现的一个开源，能够高效地爬取网站数据、提取结构性数据。
学生答案：网络爬虫框架
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：0
3
scrapy.spiders模块中提供了CrawlSpider类，专门用于爬取全站网页。
学生答案：全站爬取
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
4
CrawlSpider类使用属性来决定爬虫的爬取规则。
学生答案：rules
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
5
当Item数据被Spiders收集之后，会被传递到。
学生答案：Item Pipeline
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
6
在Scrapy项目中，文件用于定义项目的目标实体。
学生答案：items.py
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
7
Scrapy框架提供做为爬虫的基类，所有自定义的爬虫必须从这个类派生。
学生答案：Spider
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
8
rules属性是一个包含一个或多个Rule对象的。
学生答案：列表
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
9
每个Item Pipeline组件都是一个独立的Python类，该类中的方法必须实现。
学生答案：process_item
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
10
是Scrapy提供的爬虫基类，创建的爬虫类需要从该类继承。
学生答案：scrapy.Spider
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
11
下载中间件是处于引擎和之间的一层组件，多个下载中间件可以被同时加载运行。
学生答案：下载器
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
12
Scrapy使用来表示要爬取的数据。
学生答案：Item
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：0
13
LinkExtractor类的唯一目的就是从网页中提取需要爬取的链接。
学生答案：进一步
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
14
组件负责接收引擎递过来的请求，并按照某种方式整理排列和入列。
学生答案：Scheduler
题型：填空题主观题答案不允许乱序分值2分难度：一般得分：2
15
CrawlSpider爬虫运行时，通过方法对start_urls中的每一个url发起请求。
学生答案：start_requests
简答题
题型：简答题主观题分值8分难度：一般得分：8
1请简述如何改变自定义管道的执行顺序？