云南开放大学自然语言处理网上作业3

云南开放大学自然语言处理网上作业4 云南开放大学自然语言处理网上作业3 云南开放大学自然语言处理网上作业2 云南开放大学自然语言处理网上作业1

一、单项选择题(共6题,共30分)
第1 题（5分）：
1. 下列不属于jieba支持的分词模式的是（）。
A. 全模式
B. 精确模式
C. 切分模式
D. 搜索引擎模式
正确答案: C
第2 题（5分）：
2. 关于去停用词，下列说法错误的是（）。
A. 停用词等同于过滤词
B. 停用词包含人类语言中的功能词，语气助词、副词、介词、连接词等，通常自身并无明确的意义
C. 停用词包含常见的符号，比如逗号、句号、问号、●、★等
D. 一个句子去掉这些停用词，并不影响理解。
正确答案: A
第3 题（5分）：
3. 关于隐马尔可夫模型，下列说法正确的是（）。
A. 马尔可夫模型中的状态是可见的，而HMM的状态则是部分可见
B. HMM描述观测变量和状态变量之间的概率关系
C. 不同时刻的状态值之间，同一时刻的状态值和观测值之间，都存在概率关系
D. 以上正确
正确答案: D
第4 题（5分）：
4. 关于基于统计的分词方法，下列说法错误的是（）。
A. 解决了中文分词遇到歧义问题和未登录词问题
B. 在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词
C. 统计词出现的次数，次数足够高的词作为单独的词语被保留
D. 不需要依靠语料库进行分词
正确答案: D
第5 题（5分）：
5. 下列代码输出的结果是（）。
sentence = ‘周末我们一起去爬山吧！’
print(jieba.lcut(sentence))
A. [‘周末’, ‘我’, ‘们’, ‘一起’, ‘去’, ‘爬山’, ‘吧’, ‘！’]
B. [‘周末’, ‘我们’, ‘一起’, ‘去’, ‘爬山’, ‘吧’, ‘！’]
C. [‘周末’, ‘我们’, ‘一起’, ‘去’, ‘爬山’, ‘吧！’]
D. [‘周末’, ‘我们’, ‘一起去’, ‘爬山’, ‘吧’, ‘！’]
正确答案: B
第6 题（5分）：
6. 下列代码输出的结果是（）。
sentence = ‘我们一起去假日主题公园玩吧！’
list(jieba.cut_for_search(sentence, HMM=True))
A. [‘我们’, ‘一起’, ‘去’, ‘假日’, ‘主题’, ‘公园’, ‘主题公园’, ‘玩吧’, ‘！’]
B. [‘我们’, ‘一起’, ‘去’, ‘假日’, ‘主题公园’, ‘玩吧’, ‘！’]
C. [‘我们’, ‘一起去’, ‘假日’, ‘主题’, ‘公园’, ‘主题公园’, ‘玩吧’, ‘！’]
D. [‘我们’, ‘一起去’, ‘假日’, ‘主题公园’, ‘玩吧’, ‘！’]
正确答案: A
二、多项选择题(共6题,共48分)
第7 题（8分）：
1. 下列（）是分词算法的类别。
A. 无字典分词
B. 机械分词方法
C. 基于语义的分词方法
D. 基于规则的分词方法
正确答案: ABCD
第8 题（8分）：
2. 下列属于基于规则的分词方法的缺点的是（）。
A. 缺乏自学习的智能性
B. 匹配速度慢
C. 复杂、不易于实现
D. 存在交集型和组合型歧义切分问题
正确答案: ABD
第9 题（8分）：
3. 下列（）是常用中文分词库。
A. jieba
B. Jcseg
C. HanLP
D. sego
正确答案: ABCD
第10 题（8分）：
4. 关于逆向最大匹配法，下列说法正确的是（）。
A. 从右至左匹配待分词文本的后K个字符串，查找是否有和词典一致的字符串
B. 若匹配失败，仅留下待分词文本的后K-1个词，继续匹配这个字符串
C. 如果一个词序列全部匹配失败，则逐次删去第一个字符
D. 如果匹配成功，则被切分下来的第一个文本序列成为新的待分词文本
正确答案: ABCD
第11 题（8分）：
5. 关于jieba分词，下列说法正确的是（）。
A. 使用jieba进行中文分词的人员占大多数，使用较为广泛
B. jieba使用简单，并且支持Python、R、C++等多种编程语言的实现
C. jieba不仅包含分词这一功能，而且提供了许多分词以外的算法
D. 以基于语义的分词方法为主，以统计分词方法为辅进行中文分词
正确答案: ABC
第12 题（8分）：
6. 关于词性编码，下列说法正确的是（）。
A. d表示副词
B. p表示介词
C. m表示名词
D. v表示动词
正确答案: ABD