一、单项选择题(共6题,共30分)
第1 题 (5分):
1. 下列不属于jieba支持的分词模式的是( )。
A. 全模式
B. 精确模式
C. 切分模式
D. 搜索引擎模式
正确答案: C
第2 题 (5分):
2. 关于去停用词,下列说法错误的是( )。
A. 停用词等同于过滤词
B. 停用词包含人类语言中的功能词,语气助词、副词、介词、连接词等,通常自身并无明确的意义
C. 停用词包含常见的符号,比如逗号、句号、问号、●、★等
D. 一个句子去掉这些停用词,并不影响理解。
正确答案: A
第3 题 (5分):
3. 关于隐马尔可夫模型,下列说法正确的是( )。
A. 马尔可夫模型中的状态是可见的,而HMM的状态则是部分可见
B. HMM描述观测变量和状态变量之间的概率关系
C. 不同时刻的状态值之间,同一时刻的状态值和观测值之间,都存在概率关系
D. 以上正确
正确答案: D
第4 题 (5分):
4. 关于基于统计的分词方法,下列说法错误的是( )。
A. 解决了中文分词遇到歧义问题和未登录词问题
B. 在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词
C. 统计词出现的次数,次数足够高的词作为单独的词语被保留
D. 不需要依靠语料库进行分词
正确答案: D
第5 题 (5分):
5. 下列代码输出的结果是( )。
sentence = ‘周末我们一起去爬山吧!’
print(jieba.lcut(sentence))
A. [‘周末’, ‘我’, ‘们’, ‘一起’, ‘去’, ‘爬山’, ‘吧’, ‘!’]
B. [‘周末’, ‘我们’, ‘一起’, ‘去’, ‘爬山’, ‘吧’, ‘!’]
C. [‘周末’, ‘我们’, ‘一起’, ‘去’, ‘爬山’, ‘吧!’]
D. [‘周末’, ‘我们’, ‘一起去’, ‘爬山’, ‘吧’, ‘!’]
正确答案: B
第6 题 (5分):
6. 下列代码输出的结果是( )。
sentence = ‘我们一起去假日主题公园玩吧!’
list(jieba.cut_for_search(sentence, HMM=True))
A. [‘我们’, ‘一起’, ‘去’, ‘假日’, ‘主题’, ‘公园’, ‘主题公园’, ‘玩吧’, ‘!’]
B. [‘我们’, ‘一起’, ‘去’, ‘假日’, ‘主题公园’, ‘玩吧’, ‘!’]
C. [‘我们’, ‘一起去’, ‘假日’, ‘主题’, ‘公园’, ‘主题公园’, ‘玩吧’, ‘!’]
D. [‘我们’, ‘一起去’, ‘假日’, ‘主题公园’, ‘玩吧’, ‘!’]
正确答案: A
二、多项选择题(共6题,共48分)
第7 题 (8分):
1. 下列( )是分词算法的类别。
A. 无字典分词
B. 机械分词方法
C. 基于语义的分词方法
D. 基于规则的分词方法
正确答案: ABCD
第8 题 (8分):
2. 下列属于基于规则的分词方法的缺点的是( )。
A. 缺乏自学习的智能性
B. 匹配速度慢
C. 复杂、不易于实现
D. 存在交集型和组合型歧义切分问题
正确答案: ABD
第9 题 (8分):
3. 下列( )是常用中文分词库。
A. jieba
B. Jcseg
C. HanLP
D. sego
正确答案: ABCD
第10 题 (8分):
4. 关于逆向最大匹配法,下列说法正确的是( )。
A. 从右至左匹配待分词文本的后K个字符串,查找是否有和词典一致的字符串
B. 若匹配失败,仅留下待分词文本的后K-1个词,继续匹配这个字符串
C. 如果一个词序列全部匹配失败,则逐次删去第一个字符
D. 如果匹配成功,则被切分下来的第一个文本序列成为新的待分词文本
正确答案: ABCD
第11 题 (8分):
5. 关于jieba分词,下列说法正确的是( )。
A. 使用jieba进行中文分词的人员占大多数,使用较为广泛
B. jieba使用简单,并且支持Python、R、C++等多种编程语言的实现
C. jieba不仅包含分词这一功能,而且提供了许多分词以外的算法
D. 以基于语义的分词方法为主,以统计分词方法为辅进行中文分词
正确答案: ABC
第12 题 (8分):
6. 关于词性编码,下列说法正确的是( )。
A. d表示副词
B. p表示介词
C. m表示名词
D. v表示动词
正确答案: ABD
云南开放大学自然语言处理网上作业3
点点赞赏,手留余香
给TA打赏




评论0