第一章 单元测试
1、单选题:
下列不属于常见爬虫类型的是( )。
选项:
A:增量式网络爬虫
B:通用网络爬虫
C:浅层网络爬虫
D:聚焦网络爬虫
答案: 【浅层网络爬虫】
2、单选题:
下列不属于聚焦网络爬虫的常用策略的是( )。
选项:
A:基于内容评价的爬取策略
B:基于深度优先的爬取策略
C:基于链接结构评价的爬取策略
D:基于语境图的爬取策略
答案: 【基于深度优先的爬取策略】
3、单选题:
下列不属于常用反爬手段的是( )。
选项:
A:人工筛选
B:反爬频度
C:账号权限
D:验证码校验
答案: 【人工筛选】
4、单选题:
下列属于反爬虫目的的是( )。
选项:
A:限制用户访问权限
B:限制访问人数
C:防止网站信息被竞争对手随意获取
D:变换网页结构
答案: 【防止网站信息被竞争对手随意获取】
5、单选题:
下列属关于Python爬虫库的功能描述不正确的是( )。
选项:
A:HTML/XML解析器pycurl`
B:通用爬虫库urllib3
C:爬虫框架 Scrapy
D:通用爬虫库 Requests
答案: 【HTML/XML解析器pycurl`】
6、判断题:
搜索引擎使用了网络爬虫不停地从互联网抓取网站数据,并将网站镜像保存在本地。( )
选项:
A:错
B:对
答案: 【对】
7、判断题:
robots.txt文件中,User-agent后面跟的是爬虫的名称,Disallow后面跟着的是可以爬虫的网页。( )
选项:
A:错
B:对
答案: 【错】
8、判断题:
爬虫是手动请求万维网网站且提取网页数据的程序。( )
选项:
A:对
B:错
答案: 【错】
9、判断题:
每个网站都有robots.txt文件。( )
选项:
A:错
B:对
答案: 【错】
10、判断题:
爬虫爬取的是网站后台的数据。( )
选项:
A:对
B:错
答案: 【错】
第二章 单元测试
1、单选题:
吉多设计Python的灵感来源于( )。
选项:
A:Unix shell
B:C语言
C:ABC语言
D:Java语言
答案: 【ABC语言】
2、单选题:
下列关于Python语言的特点说法中,错误的是( )。
选项:
A:Python语言是非开源语言
B:ANSI C
C:Python语言是跨平台语言
D:Go
答案: 【Python语言是非开源语言】
3、单选题:
Python源代码文件的后缀名是( )
选项:
A:pdf
B:doc
C:py
D:png
答案: 【py】
4、单选题:
列表list=[1,2,3,4,5],下列选项中为空的是( )
选项:
A:list[1:]
B:ist[1:1]
C:list[1:-1]
D:list[:-2]
答案: 【ist[1:1]】
5、单选题:
Python语言中用来定义函数的关键字是( )
选项:
A:class
B:def
C:return
D:function
答案: 【def】
6、判断题:
在安装Python时,需要根据已有的系统来选择相应的安装程序。安装后,也需要配置环境变量。( )
选项:
A:错
B:对
答案: 【对】
7、判断题:
elif语句可以单独使用。( )
选项:
A:错
B:对
答案: 【错】
8、判断题:
元组的元素不能修改。( )
选项:
A:对
B:错
答案: 【对】
9、多选题:
下列选项中,不能创建元组的语句是( )。
选项:
A:tup=[1,2,3]
B:tup = (1,2,98)
C:tup=tuple([1,2,3])
D:tup=(2)
答案: 【tup=[1,2,3];
tup=(2)】
第三章 单元测试
1、单选题:
如果站点服务器支持安全套接层(SSL),那么连接到安全站点上的所有URL开头是( )。
选项:
A:SHTTP
B:HTTP
C:SSL
D:HTTPS
答案: 【HTTPS】
2、单选题:
body元素用于背景颜色的属性是( )。
选项:
A:background-color
B:alink
C:vlink
D:color
答案: 【background-color】
3、单选题:
为了标识一个HTML文件开始应该使用的HTML标记是 ( )。
选项:
A:<html>
B:<a>
C:<body>
D:<table>
答案: 【<html>】
4、单选题:
在HTML中,单元格的标记是( )。
选项:
A:<span>
B:<tr>
C:<td>
D:<body>
答案: 【<td>】
5、单选题:
CSS 中的选择器不包括包括( )
选项:
A:元素选择器
B:类选择器
C:ID选择器
D:超文本标记选择器
答案: 【超文本标记选择器】
6、单选题:
( )是网页与网页之间联系的纽带,也是网页的重要特色。
选项:
A:导航条
B:框架
C:超链接
D:表格
答案: 【超链接】
7、单选题:
在HTML中,下面是段落标签的是:( ) 。
选项:
A:<p></p>
B:<body></body>
C:<head></head>
D:<html></html>
答案: 【<p></p>】
8、单选题:
( )标签可以应用于〈head〉中。
选项:
A:<image>
B:<body>
C:<html>
D:<title>
答案: 【<title>】
9、单选题:
下列哪一项是css添加背景图片的正确语法构成?( )
选项:
A:background-position
B:background-image
C:background-color
D:background-size
答案: 【background-image】
10、单选题:
在HTML开发中,制作网站时首先需要考虑内容是( )
选项:
A:页面布局
B:文字字体第四章
C:页面内容
D:图片色彩
答案: 【页面布局】
第四章 单元测试
1、单选题:
HTTPError 是 URLError 的子类,专门用来处理 HTTP 请求错误,比如认证请求失败等。它有 3 个属性,下列选项哪一个不是它的属性( )。
选项:
A:headers
B:code
C:Response
D:reason
答案: 【Response】
2、单选题:
下列属于HTTP必须实现的请求方法的是( )。
选项:
A:OPTIONS和CONNECT
B:TRACE和OPTIONS
C:POST与DELE
D:GET与HEAD
答案: 【GET与HEAD】
3、单选题:
下列关于HTTP状态码类型描述错误的是( )。
选项:
A:3XX表示客户端的请求需采取进一步操作
B:1XX表示请求已被服务器接受,无须后续处理
C:5XX表示服务器可能发生错误
D:4XX表示客户端可能发生错误
答案: 【1XX表示请求已被服务器接受,无须后续处理】
4、单选题:
通过加入特定的____,可以将爬虫发出的请求伪装成浏览器。( )
选项:
A:User_Agent
B:Headers
C:Request
D:opener
答案: 【User_Agent】
5、判断题:
urlopen方法中的data 参数可以不是 bytes 类型。( )
选项:
A:对
B:错
答案: 【错】
6、判断题:
requests库中的requests.get(url)方法是请求目标网站,类型是一个HTTPresponse类型。( )
选项:
A:对
B:错
答案: 【对】
7、判断题:
如果访问某网站的频率太高,则这个网站可能会禁止访问。( )
选项:
A:对
B:错
答案: 【对】
8、判断题:
requests库中的requests.get(url)方法中包括两个(对象)请求,其中一个为Request请求,即向服务器请求资源的request对象,第二个是Response请求,即包含从服务器返回的所有资源。( )
选项:
A:错
B:对
答案: 【对】
9、判断题:
Response类用于动态地响应客户端的请求,控制发送给用户的信息,并且将动态地生成响应,包括状态码、网页的内容等。( )
选项:
A:对
B:错
答案: 【对】
第五章 单元测试
1、单选题:
下列不属于HTTP请求过程的是( )。
选项:
A:生成请求
B:搜索文档
C:超时设置
D:请求重定向
答案: 【搜索文档】
2、单选题:
下列关于 Chrome开发者工具描述错误的是( )
选项:
A:元素面板可查看元素在页面的对应位置
B:源代码面板可查看HTML源码
C:网络面板无法查看HTML源码
D:网络面板可查看HTTP头部信息
答案: 【网络面板无法查看HTML源码】
3、单选题:
下列关于Xpah中功能函数描述错误的是( )
选项:
A:text函数可提取节点文本内容
B:text函数可用于选取包含指定文本内容的节点
C:contains方法可用于选取以指定值开头的节点
D:and方法可用于选取同时包含两种指定值的节点
答案: 【contains方法可用于选取以指定值开头的节点】
4、单选题:
下列关于 Beautifulsoup中对象类型描述错误的是( )
选项:
A:attrs方法可获取Tag对象的HTML属性,返回值为列表形式
B:name方法可以获取及修改Tag对象名称
C:Navigable String对象无法被编辑,但可以进行替换
D:string方法可获取Tag对象中的文本字符串内容
答案: 【attrs方法可获取Tag对象的HTML属性,返回值为列表形式】
5、单选题:
下列选项中,属于非结构化数据的是:( )
选项:
A:图像
B:HTML
C:JSON
D:XML
答案: 【图像】
6、判断题:
对服务器端来说,它返回给客户端的数据格式可分为非结构化和结构化两种。( )
选项:
A:错
B:对
答案: 【对】
7、判断题:
网页中的非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便使用数据库二维逻辑来表现的数据,包括所有格式的办公文档、文本、图像等。( )
选项:
A:错
B:对
答案: 【对】
8、判断题:
结构化数据就是能够用数据或统一的结构加以表示,具有模式的数据,包括HTML、XML和JSON等。( )
选项:
A:对
B:错
答案: 【对】
9、判断题:
正则表达式、XPath和Beautiful Soup 都是基于HTML/XML文档的层次结构来确定到达指定节点的路径。( )
选项:
A:错
B:对
答案: 【错】
10、判断题:
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。( )
选项:
A:对
B:错
答案: 【对】
第六章 单元测试
1、单选题:
使用以下哪个函数可以打开一个已经存在的文件?( )
选项:
A:file
B:close
C:read
D:open
答案: 【open】
2、单选题:
文件访问的默认模式为( )。
选项:
A:w
B:a
C:ab
D:r
答案: 【r】
3、单选题:
以二进制格式打开一个文件用于追加的访问模式为 ( )。
选项:
A:ab
B:r
C:w
D:r+
答案: 【ab】
4、单选题:
改变文件目录所用的方法是( )。
选项:
A:remove( )
B:read( )
C:rename( )
D:chdir( )
答案: 【chdir( )】
5、单选题:
文件删除所用的方法是( )
选项:
A:rename( )
B:read( )
C:remove( )
D:readlines( )
答案: 【remove( )】
6、判断题:
使用 with as 语法。在 with 控制块结束时,文件会自动关闭( )。
选项:
A:错
B:对
答案: 【对】
7、判断题:
JSON也就是 JavaScript 对象标记( )。
选项:
A:对
B:错
答案: 【对】
8、判断题:
使调用 dumps() 方法将 JSON字符串转化为对象( )。
选项:
A:对
B:错
答案: 【错】
9、判断题:
使用readines()方法不可以把整个文件中的内容进行一次性读取( )。
选项:
A:错
B:对
答案: 【错】
10、判断题:
向文件中写入数据,需要使用write方法( ) 。
选项:
A:对
B:错
答案: 【对】
第七章 单元测试
1、单选题:
以下哪个技术不是Ajax技术体系的组成部分?( )
选项:
A:XMLHttpRequest
B:DHTML
C:CSS
D:DOM
答案: 【DHTML】
2、单选题:
下列哪些方法或属性是Web标准中规定的?( )
选项:
A:innerHTML
B:getElementsByTagName( )
C:all( )
D:innerText
答案: 【getElementsByTagName( )】
3、单选题:
下列selenium库的方法中,通过元素名称定位的是 ( )。
选项:
A:find_element_by_class_name
B:find_element_by_id
C:find_element_by_name
D:find_element_by_tag_name
答案: 【find_element_by_name】
4、单选题:
下面方法中,进行浏览器页面前进的方法是( )。
选项:
A:driver.refresh( )
B:driver.back( )
C:driver.forward ( )
D:driver.go( )
答案: 【driver.forward ( )】
5、单选题:
关闭当前页面的方法是( )
选项:
A:driver.back( )
B:driver.forward( )
C:driver.close( )
D:driver.quit( )
答案: 【driver.close( )】
6、判断题:
Ajax不能实现页面的交互( )。
选项:
A:对
B:错
答案: 【错】
7、判断题:
可以使用request向服务器发送请求,然后得到响应( ) 。
选项:
A:对
B:错
答案: 【对】
8、判断题:
使用driver.get( )方法可以得到网页窗口的位置( )。
选项:
A:错
B:对
答案: 【错】
9、判断题:
使用Ajax解析内容时,得到响应后,触发onreadystatechange属性对应的方法( )。
选项:
A:对
B:错
答案: 【对】
10、判断题:
DOM 操作,即对 Document 网页文档进行操作,如更改、删除等( ) 。
选项:
A:对
B:错
答案: 【对】
第八章 单元测试
1、单选题:
下列不属于Scrapy框架的基本组成部分的是( )
选项:
A:Item Pipelines
B:引擎与调度器
C:解析中间件
D:下载器与Spiders
答案: 【引擎与调度器】
2、单选题:
下列对于Scrapy数据流向描述错误的是( )
选项:
A:调度器返回下一个要爬取的URL给引擎,引擎将URL通过下载器中间件(请求方向)转发给下载器Download
B:引擎仅负责打开一个网站,并找到该网站的 Spiders,并向该 Spiders请求第一个要爬取的URL
C:一旦网页下载完毕,下载器会生成一个该网页的响应,并将其通过下载器中间件(返回响应方向)发送给引擎
D:Spiders处理响应并返同爬取到的Items及(跟进的)新的请求给引擎解析中间件
答案: 【Spiders处理响应并返同爬取到的Items及(跟进的)新的请求给引擎解析中间件】
3、单选题:
下列对于Scrapy常用命令及其作用描述正确的是( )
选项:
A:startproject是一个全局命令,主要用于运行一个独立的爬虫
B:crawl是一个项目命令,主要用于启动限虫
C:List是一个全局命令,主要用于列出项目中所有可用的爬虫
D:genspider是一个项目命令,主要用于创建爬虫模板
答案: 【startproject是一个全局命令,主要用于运行一个独立的爬虫】
4、单选题:
下列对于 Scrapy虫项目目录说法错误的是( )。
选项:
A:settings脚本用于设置参数
B:Spiders目录用于存放用户编写的爬虫脚本
C:pipelines脚本定义了一个 Pipeline类,可以根据需求将数据保存至数据库、文件等
D:items脚本定义了一个Item类,能够存储爬取的数据
答案: 【items脚本定义了一个Item类,能够存储爬取的数据】
5、单选题:
下列对于 Scrapy的设置说法错误的是( )
选项:
A:HTTPCACHE_ENABLED设置能够启用HTTP缓存,并设置路径
B:DOWNLOAD_DELAY设置能够限制爬取的速度
C:DOWNLOADER_MIDDLEWARES设置能够激活用户定制的下载器中间件
D:Scrapy设置允许自定义所有 Scrapy组件的行为,包括核心、扩展、管道和爬虫本身
答案: 【DOWNLOADER_MIDDLEWARES设置能够激活用户定制的下载器中间件】
6、判断题:
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。( )
选项:
A:对
B:错
答案: 【对】
7、判断题:
Scrapy 架构中Engine引擎,用来处理整个系统的数据流处理,触发事务,是整个框架的核心。( )
选项:
A:错
B:对
答案: 【对】
8、判断题:
Scrapy 架构中Item项目,它定义了爬取结果的数据结构,爬取的数据会被赋值成该对象。( )
选项:
A:对
B:错
答案: 【对】
9、判断题:
Scrapy 架构中Scheduler调度器,用来接受引擎发过来的请求并加入队列中,并在引擎再次请求的时候提供给引擎。( )
选项:
A:错
B:对
答案: 【对】
10、判断题:
Scrapy 架构中Downloader下载器,用于下载网页内容,并将网页内容返回给蜘蛛。( )
选项:
A:错
B:对
答案: 【对】
评论0