江苏开放大学数据采集与预处理060749第3单元测试

试题列表
单选题
题型:单选题客观题分值2分难度:一般得分:2
1我们既可以使用LinkExtractor类,也可以自定义符合特定需求的链接提取类。
A错
B对
学生答案:B
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
2Item Pipeline主要用于处理从Spiders中获取到的Item数据。
A对
B错
学生答案:A
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
3在settings.py文件中,ITEM_PIPELINES项的值默认为空。
A对
B错
学生答案:A
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
4若ITEM_PIPELINES设置项的数值越大,则优先级越高。
A错
B对
学生答案:A
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
5Rule规则只适用于链接,不适用于普通的文本。
A错
B对
学生答案:B
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
6如果包含了多个Rule对象,那么每个Rule会轮流处理Response。
A对
B错
学生答案:A
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
7如果要创建一个爬虫文件,那么只能通过使用命令的方式来完成。
A对
B错
学生答案:B
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
8如果Scrapy爬虫文件中规定了爬虫的约束区域,那么不在这个区域的URL会被忽略。
A错
B对
学生答案:B
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
9如果调用process_request方法时返回None,Scrapy将停止调用该方法。
A对
B错
学生答案:B
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
10在爬虫工作的过程中,LinkExtractor类需要被实例化很多次。
A错
B对
学生答案:A
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
11一个Scrapy爬虫项目中只能存在一个爬虫文件。
A对
B错
学生答案:B
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
12Scrapy的代理IP、Uesr-Agent的切换都是通过Item Pipeline进行控制的。
A对
B错
学生答案:B
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
13由于CrawlSpider使用parse方法来实现其逻辑,如果覆盖了parse方法,CrawlSpider将会运行失败。
A对
B错
学生答案:A
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
14Scrapy爬虫文件中,需要使用start_urls属性确定爬取的起始URL元组或列表。
A对
B错
学生答案:A
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
15如果电脑上已经安装了IPython,那么Scrapy shell会优先使用IPython。
A错
B对
学生答案:B
老师点评:
填空题
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
1
Scrapy shell是一个交互式,可在不启动爬虫的条件下尝试及调试爬取代码。
学生答案:环境
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
2
Scrapy是用纯Python实现的一个开源,能够高效地爬取网站数据、提取结构性数据。
学生答案:网络爬虫框架
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:0
3
scrapy.spiders模块中提供了CrawlSpider类,专门用于爬取全站网页。
学生答案:全站爬取
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
4
CrawlSpider类使用属性来决定爬虫的爬取规则。
学生答案:rules
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
5
当Item数据被Spiders收集之后,会被传递到。
学生答案:Item Pipeline
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
6
在Scrapy项目中,文件用于定义项目的目标实体。
学生答案:items.py
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
7
Scrapy框架提供做为爬虫的基类,所有自定义的爬虫必须从这个类派生。
学生答案:Spider
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
8
rules属性是一个包含一个或多个Rule对象的。
学生答案:列表
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
9
每个Item Pipeline组件都是一个独立的Python类,该类中的方法必须实现。
学生答案:process_item
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
10
是Scrapy提供的爬虫基类,创建的爬虫类需要从该类继承。
学生答案:scrapy.Spider
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
11
下载中间件是处于引擎和之间的一层组件,多个下载中间件可以被同时加载运行。
学生答案:下载器
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
12
Scrapy使用来表示要爬取的数据。
学生答案:Item
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:0
13
LinkExtractor类的唯一目的就是从网页中提取需要爬取的链接。
学生答案:进一步
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
14
组件负责接收引擎递过来的请求,并按照某种方式整理排列和入列。
学生答案:Scheduler
题型:填空题主观题答案不允许乱序分值2分难度:一般得分:2
15
CrawlSpider爬虫运行时,通过方法对start_urls中的每一个url发起请求。
学生答案:start_requests
简答题
题型:简答题主观题分值8分难度:一般得分:8
1请简述如何改变自定义管道的执行顺序?

答案


题型:简答题主观题分值8分难度:一般得分:8
2请简单描述一下Scrapy框架的运作流程。

答案


题型:简答题主观题分值8分难度:一般得分:6
3CrawlSpider类是如何获取rules的?

答案


题型:简答题主观题分值8分难度:一般得分:8
4什么是Scrapy?

答案


题型:简答题主观题分值8分难度:一般得分:8
5比较Spider和CrawlSpider类,阐述它们有什么异同。

答案

资源下载
下载价格10
客服QQ:1668639739
点点赞赏,手留余香 给TA打赏

评论0

请先
  • 游客 下载了资源 爱普生Epson L211 驱动
  • 游客 下载了资源 爱普生Epson L1800 驱动
  • 游客 下载了资源 2015年425公务员联考《申论》(海南卷)真题及参考答案
  • 游客 下载了资源 2009年黑龙江省申论(A卷)真题及参考答案
  • 游客 下载了资源 2009年黑龙江省申论(A卷)真题及参考答案
  • 游客 下载了资源 爱普生Epson L7188 驱动
  • 游客 下载了资源 2019年420联考《行测》真题(贵州卷)试卷答案及解析
  • 游客 下载了资源 爱普生Epson Stylus Pro 9000 驱动
  • 游客 下载了资源 2023年上半年教师资格证考试《高中数学》题解析
  • 游客 下载了资源 爱普生Epson PictureMate PM210 驱动
  • 游客 下载了资源 2021年北京公务员考试申论真题及答案(区级试卷)
  • 游客 下载了资源 2025年包钢集团招聘笔试参考题库含答案解析
  • u******* 开通了VIP
  • 游客 下载了资源 2019年420联考《申论》真题(黑龙江省直卷)及答案
  • 游客 下载了资源 2005年广东公务员考试《申论》真题卷及答案(上半年)
  • 游客 下载了资源 爱普生Epson L3267 驱动
点击浏览器地址栏的⭐图标收藏本页
需要托管,代写作业,论文扫码加微信
显示验证码

社交账号快速登录

微信扫一扫关注
扫码关注后会自动登录