一、多项选择题(共2题,共16分)
第1 题 (8分):
下列属于文本语料的获取方法是( )。
A. 获取网上数据
B. 制定数据搜集策略来搜集数据
C. 第三方语料库
D. 通过购买的方式满足部分需求文本数据
正确答案: ABCD
第2 题 (8分):
4. 下列属于NLTK语料库中可获取的集成文本语料库的是( )
A. 网络聊天文本
B. 布朗语料库
C. 就职演说语料库
D. 路透社语料库
正确答案: ABCD
二、判断题(共7题,共19分)
第3 题 (3分):
1. 语料库的实质是经过科学取样和加工的大规模电子文本库。( )
正确答案: √
第4 题 (3分):
2. 大规模的语料库对于语言研究特别是对NLP研究具有不可替代的作用,但随着语料库的增大,垃圾语料带来的统计垃圾问题也越来越严重。( )
正确答案: √
第5 题 (3分):
3. NLTK是一个用于构建处理自然语言数据的Python应用开源平台。( )
正确答案: √
第6 题 (3分):
4. NLP只能使用传统的机器学习方法来处理。( )
正确答案: ×
第7 题 (3分):
5. 中文语料的处理过程复杂,英文语料的处理过程比较简单。( )
正确答案: √
第8 题 (3分):
6. 元字符使得正则表达式只能匹配字符串集合。( )
正确答案: ×
第9 题 (1分):
7. 语料集合结构包括语料库中语料记录的代码,元数据项、数据类型、数据宽度、取值范围、完整性约束。( )
正确答案: √
点点赞赏,手留余香
给TA打赏




评论0