云南开放大学自然语言处理网上作业4

一、单项选择题(共8题,共40分)
第1 题 (5分):
1. 假定一文长度为1000个词,”中国”、”爬山”、”旅游”各出现20、30、10次,则这三个词的TF为( )。
A. 0.02、0.03、0.01
B. 0.08、0.07、0.09
C. 0.98、0.97、0.99
D. 0.01、0.03、0.02
正确答案: A
第2 题 (5分):
2. 假定中文网页(文档)总数一共是200万张,包含”中国”的网页共有64.5万张,包含”爬山”的网页为0.162万张,包含”旅游”的网页为1.68万张,则这3个词的IDF为( )
A. 0.02、0.03、0.01
B. 4、3.82、4.3
C. 0.48、2.24、1.87
D. 3.51、0.73、2.23
正确答案: C
第3 题 (5分):
3. 根据上述两题计算出”中国”、”爬山”、”旅游”这3个词的TF和IDF,则这三个词的TF-IDF为( )
A. 24、75、187
B. 0.0096、0.0672、0.0187
C. 0.042、0.013、0.005
D. 3.51、0.73、2.23
正确答案: B
第4 题 (5分):
3. 根据上述两题计算出”中国”、”爬山”、”旅游”这3个词的TF和IDF,则这三个词的TF-IDF为( )
A. 24、75、187
B. 0.0096、0.0672、0.0187
C. 0.042、0.013、0.005
D. 3.51、0.73、2.23
正确答案: D
第5 题 (5分):
3. 根据上述两题计算出”中国”、”爬山”、”旅游”这3个词的TF和IDF,则这三个词的TF-IDF为( )
A. 24、75、187
B. 0.0096、0.0672、0.0187
C. 0.042、0.013、0.005
D. 3.51、0.73、2.23
正确答案: C
第6 题 (5分):
6. 使用BOW模型计算“我是一个喜欢学习的人”的词向量,下列结果正确的是( )。
A. {‘我’: 1,’是’: 1,’一’: 1,’个’: 1,’喜’: 1,’欢’: 1,’学’: 1,’习’: 1,’的’: 1,’人’: 1}
B. {‘我’: 6,’是’: 7,’一’: 0,’个’: 1,’喜’: 4,’欢’: 8,’学’: 5,’习’: 2,’的’: 9,’人’: 3}
C. {‘我’: 0,’是’: 0,’一’: 0,’个’: 0,’喜’: 1,’欢’: 1,’学’: 0,’习’: 1,’的’: 1,’人’: 0}
D. {‘我’: 7,’是’: 8,’一’: 1,’个’: 2,’喜’: 5,’欢’: 9,’学’: 4,’习’: 3,’的’: 10,’人’: 4}
正确答案: B
第7 题 (5分):
6. 使用BOW模型计算“我是一个喜欢学习的人”的词向量,下列结果正确的是( )。
A. {‘我’: 1,’是’: 1,’一’: 1,’个’: 1,’喜’: 1,’欢’: 1,’学’: 1,’习’: 1,’的’: 1,’人’: 1}
B. {‘我’: 6,’是’: 7,’一’: 0,’个’: 1,’喜’: 4,’欢’: 8,’学’: 5,’习’: 2,’的’: 9,’人’: 3}
C. {‘我’: 0,’是’: 0,’一’: 0,’个’: 0,’喜’: 1,’欢’: 1,’学’: 0,’习’: 1,’的’: 1,’人’: 0}
D. {‘我’: 7,’是’: 8,’一’: 1,’个’: 2,’喜’: 5,’欢’: 9,’学’: 4,’习’: 3,’的’: 10,’人’: 4}
正确答案: B
第8 题 (5分):
7. 关于Word2Vec模型,下列说法错误的是( )。
A. 根据输入和输出模式不同,分为连续词袋模型(Continuous Bag-of-Words,CBOW)和跳字模型(Skip-Gram)
B. 假设一共有V个词语,Word2Vec模型的输入是每个词的one-hot向量,输出是在V个词的概率数值向量
C. 某个词的词向量就是模型训练得到的权重组成的向量
D. Word2Vec模型无法度量词与词之间的相似性
正确答案: B
二、多项选择题(共9题,共72分)
第9 题 (8分):
1. 关于文本向量化,下列说法正确的是( )。
A. 将文本表示成一系列能够表达文本语义的机读向量
B. 按照向量化的粒度可以将其分为以字单位、以词为单位和以句子为单位向量表达
C. 向量化表示主要分为离散表示和分布式表示
D. 文本向量化是为了让计算机理解语言
正确答案: ABCD
第10 题 (8分):
2. 下列属于离散表示的是( )。
A. BOW模型
B. TF-IDF
C. doc2vec
D. one-hot
正确答案: ABD
第11 题 (8分):
3. 关于TF-IDF说法正确的是( )。
A. 某个词对文章的重要性越高,它的TF-IDF值就越大。
B. TF是词出现的次数统计为”词频”
C. TF-IDF = TF × IDF
D. sklearn可以实现TF-IDF的计算
正确答案: ABCD
第12 题 (8分):
4. 关于Doc2Vec模型,下列说法正确的是( )。
A. Doc2vec方法是一种无监督算法
B. 它可以获得句子、段落和文档的向量表达
C. 用于预测一个向量来表示不同的文档
D. 是在Word2Vec模型输入层增添了一个与词向量同维度的段落向量
正确答案: ABCD
第13 题 (8分):
5. 下列属于独热编码常用方法的是( )。
A. Doc2Vec模型
B. Word2Vec模型
C. 词袋(BOW)模型
D. 词集模型
正确答案: CD
第14 题 (8分):
6. 下列可以正确构建文本向量化模型的是( )。
A. gensim.models.word2vec.Word2vec()
B. gensim.models.TfidfVectorizer()
C. gensim.models.doc2vec.Doc2Vec()
D. gensim.models.CountVectorizer()
正确答案: AC
第15 题 (8分):
7. 关于TF-IDF权重策略,下列说法正确的是( )。
A. TF是Term frequency的简写,即关键词词频
B. IDF是Inverse document frequency的简写,指逆向文本频率
C. TF表示关键词词频,是用于衡量关键词权重的指数
D. IDF是用于衡量关键词权重的指数
正确答案: ABD
第16 题 (8分):
8. 词袋模型包括下列( )三个步骤。
A. 分词
B. 统计修订词特征值
C. 工程
D. 标准化
正确答案: ABD
第17 题 (8分):
9. 下列( )属于One-hot编码存在的缺点。
A. 高维的表示
B. 稀疏性
C. 正交性(除了两个相同的词,任意两个词的距离都是1,无法体现单词与单词间关系的远近程度)
D. 能够处理非连续性数值特征
正确答案: ABC
三、判断题(共8题,共24分)
第18 题 (3分):
1. 文本向量化是将非结构化数据转为结构化数据。( )
正确答案: √
第19 题 (3分):
2. 如果一个词越常见,逆文档频率就越大。( )
正确答案: ×
第20 题 (3分):
3. Word2Vec是目前以词为单位中最典型的生成词向量的工具。( )
正确答案: √
第21 题 (3分):
4. Doc2vec是Word2Vec的升级,Doc2vec不仅提取文本的语义信息,还提取文本的语序信息。( )
正确答案: √
第22 题 (3分):
5. 在Word2Vec模型的参数中,min_count可以对字典做截断.词频少于min_count次数的单词被留下,其余的被丢弃。( )
正确答案: ×
第23 题 (3分):
6. Doc2Vec存在两种模型,分别是CBOW模型和Skip-gram模型。( )
正确答案: ×
第24 题 (3分):
7. 在Doc2Vec模型的参数中,vector_size是指输出的词的向量维数,大的size需要更多的训练数据,但效果会变差。( )
正确答案: ×
第25 题 (3分):
8. 对文档进行分析时,词袋收集了所有文档当中的词,词袋的统计基数是文档数,词袋中 所有词可重复构成。( )
正确答案: ×

内容查看
查看价格5
点点赞赏,手留余香 给TA打赏

评论0

请先
  • 游客 下载了资源 爱普生Epson WorkForce AL-MX200DNF 驱动
  • 游客 下载了资源 2019年下半年教师资格证考试 《高中语文》真题(解析)
  • 游客 下载了资源 爱普生Epson Stylus C87 驱
  • u******* 签到打卡,获得1元奖励
  • u******* 签到打卡,获得1元奖励
  • 游客 下载了资源 佳能Canon PIXMA MX479 驱动
  • u******* 签到打卡,获得1元奖励
  • 游客 下载了资源 2016年河北公务员考试《申论》真题及参考答案
  • u******* 签到打卡,获得1元奖励
  • u******* 签到打卡,获得1元奖励
  • u******* 签到打卡,获得1元奖励
  • 游客 下载了资源 2012年421公务员联考《行测》答案及解析(山西、辽宁、黑龙江、福建、湖北、 湖南、广西、海南、四川、重庆、 云南、西藏、陕西、青海、宁夏、新疆、甘肃 )
  • u******* 下载了资源 2026年春江苏开放大学大学英语B2060052作业1满分答案
  • 游客 下载了资源 爱普生Epson EP-306 驱动
  • 游客 下载了资源 爱普生Epson EP-306 驱动
  • 游客 下载了资源 佳能Canon PIXUS MG6530 驱动
点击浏览器地址栏的⭐图标收藏本页
需要托管,代写作业,论文扫码加微信
显示验证码

社交账号快速登录

微信扫一扫关注
扫码关注后会自动登录