云南开放大学自然语言处理网上作业2

云南开放大学自然语言处理网上作业4 云南开放大学自然语言处理网上作业3 云南开放大学自然语言处理网上作业2 云南开放大学自然语言处理网上作业1

一、多项选择题(共2题,共16分)
第1 题（8分）：
下列属于文本语料的获取方法是（）。
A. 获取网上数据
B. 制定数据搜集策略来搜集数据
C. 第三方语料库
D. 通过购买的方式满足部分需求文本数据
正确答案: ABCD
第2 题（8分）：
4. 下列属于NLTK语料库中可获取的集成文本语料库的是（）
A. 网络聊天文本
B. 布朗语料库
C. 就职演说语料库
D. 路透社语料库
正确答案: ABCD
二、判断题(共7题,共19分)
第3 题（3分）：
1. 语料库的实质是经过科学取样和加工的大规模电子文本库。（）
正确答案: √
第4 题（3分）：
2. 大规模的语料库对于语言研究特别是对NLP研究具有不可替代的作用，但随着语料库的增大，垃圾语料带来的统计垃圾问题也越来越严重。（）
正确答案: √
第5 题（3分）：
3. NLTK是一个用于构建处理自然语言数据的Python应用开源平台。（）
正确答案: √
第6 题（3分）：
4. NLP只能使用传统的机器学习方法来处理。（）
正确答案: ×
第7 题（3分）：
5. 中文语料的处理过程复杂，英文语料的处理过程比较简单。（）
正确答案: √
第8 题（3分）：
6. 元字符使得正则表达式只能匹配字符串集合。（）
正确答案: ×
第9 题（1分）：
7. 语料集合结构包括语料库中语料记录的代码，元数据项、数据类型、数据宽度、取值范围、完整性约束。( )
正确答案: √