在线网课学堂《深度学习基础》单元考核测试答案

第一讲深度学习概述

第二讲特征工程概述

第三讲回归问题及正则化

第四讲信息熵及梯度计算

第五讲循环神经网络及其变体

第六讲卷积神经网络

第七讲递归神经网络

第八讲生成式神经网络

第一讲深度学习概述

1 /10

单选题 (1 分)

机器学习（深度学习）系统中通常将数据集划分为训练集和测试集，其中被用来学习得到系统的参数取值的是

训练集(training set)

测试集(testing set)

训练集(training set)和测试集(testing set)

其它选项都不对

答案： A

2 /10

单选题 (1 分)

测试集(testing set)用于最终报告模型的评价结果，因此在训练阶段测试集中的数据一般是否可以出现在训练集中？

不可以

可以

答案： A

3 /10

多选题 (1 分)

超参数和参数的区别。参数一般是模型需要根据训练数据可以自动学习出的变量。超参数一般就是根据经验确定预设的变量。下面哪些是超参数？

深度学习模型的权重，偏差

深度学习的学习速率、人工神经网络的层数

深度学习的迭代次数

深度学习的每层神经元的个数

答案： BCD

4 /10

单选题 (1 分)

K 折交叉验证通常将数据集随机分为 k 个子集。下列关于 K 折交叉验证说法错误的是

每次将其中一个子集作为测试集，剩下 k-1 个子集作为训练集进行训练

每次将其中一个子集作为训练集，剩下 k-1 个子集作为测试集进行测试

划分时有多种方法，例如对非平衡数据可以用分层采样，就是在每一份子集中都保持和原始数据集相同的类别比例

留一法即 k=1 的 k 折交叉验证。留一法计算最繁琐，但样本利用率最高。适合于小样本的情况

答案： B

5 /10

多选题 (1 分)

已知如下定义：

True positives(TP): 被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数（样本数）；

False negatives(FN):被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数；

False positives(FP): 被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数；

True negatives(TN): 被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数。

则下面定义正确的是：

分类准确率 Accuracy=(TP+TN)/(P+N)

精确率 Precision=TP/(TP+FP)

召回率 Recall=TP/P

以上都不对

答案： ABC

6 /10

单选题 (1 分)

F 值的公式为 Fβ=[(1+β2)*Precision*Recall]/(β2*Precision+Recall），即其为准确率和召回率的调和平均。如果二者（即准确率和召回率）同等重要，则为

F0.5

答案： A

7 /10

单选题 (1 分)

ROC (受试者工作特征曲线, receiver operating characteristic curve)描绘了分类器在 fp rate (错误的正例,横轴) 和 tp rate(真正正例，纵轴) 间的 trade-off（权衡）。

下面说法正确的是：

A. (纵轴)敏感性高=漏诊率低，而(横轴)特异性低=误诊率高

(纵轴)敏感性高=漏诊率高，而(横轴)特异性低=误诊率高

(纵轴)敏感性高=漏诊率高，而(横轴)特异性低=误诊率低

(纵轴)敏感性高=漏诊率低，而(横轴)特异性低=误诊率低

答案： A

8 /10

多选题 (1 分)

关于 ROC (受试者工作特征曲线, receiver operating characteristic curve)中 AUC（Area Under Curve）说法正确的是

定义为 ROC 曲线下的面积

AUC 值提供了分类器的一个整体数值。通常 AUC 越大，分类器更好

取值范围为[0,1]

其它都不对

答案： ABC

9 /10

多选题 (1 分)

关于 Cohen’ s kappa 和 Fleiss’ kappa 的区别：

Cohen’s kappa 主要用于衡量两个评价者（ raters ）之间的一致性（agreement）.

如果评价者多于 2 人时，可以考虑使用 Fleiss’ kappa.

二者没有本质区别，可以等价

其它选项都不对

答案： AB

10 /10

单选题 (1 分)

关于 Cohen’ s kappa 取值的含义，下列错误的是：

其取值通常在-1 和+1 之间

其取值为+1，说明一致性最好

其取值越大，说明一致性越好

其取值越小，说明一致性越好

答案： D

第二讲特征工程概述

1 /10

多选题 (1 分)

自然语言处理中为了计算文档之间的相似度，往往需进行文档的量化表示，下面关于 BOW （即 Bag-Of-Words model）和 VSM（Vector Space Model）的描述正确的是：

BOW，即词袋模型。即为了计算文档之间的相似度，假设可以忽略文档内的单词顺序和语法、句法等要素，将其仅仅看作是若干个词汇的集合。

VSM，即向量空间模型。是一种表示文本文档的数学模型。将每个文档表示成同一向量空间的向量。

在 VSM，即向量空间模型中，所有文档的向量维度的数目都相同。

其它选项都不对

答案： ABC

2 /10

单选题 (1 分)

为了在 python 程序中进行英文自然语言的处理，如词语切分（Tokenization）词干提取（Stemming）等工作，需要使用的导入模块语句通常为：

import matplotlib.pyplot as plt

import nltk

import numpy as np

from sklearn import svm, datasets

答案： B

3 /10

单选题 (1 分)

为了进行中文的分词或者词性标注等处理，可以使用的导入模块语句为：

import matplotlib.pyplot as plt

import numpy as np

import jieba

from sklearn import svm, datasets

答案： C

4 /10

多选题 (1 分)

对于文本“I like to eat apple”，则下列关于 N-gram 的描述正确的是

其 Uni-gram 为“I”,“like”, “to”,“eat”,“apple”

其 Bi-gram 为“I like”,“like to”, “to eat”,“eat apple”

其 Tri-gram 为“I like to”,“like to eat”, “to eat apple”

其它选项都不对

答案： ABC

5 /10

单选题 (1 分)

关于特征降维方法有线性判别分析（LDA）和主成分分析法（PCA），错误的是 LDA 和 PCA 的共同点是，都可以将原始的样本映射到维度更低的样本空间

LDA 是为了让映射后的样本有最好的分类性能。即 LDA 是一种有监督的降维方法

PCA 是为了让映射后的样本具有最大的发散性，即 PCA 是一种无监督的降维方法

LDA 和 PCA 都是有监督的降维方法

答案： D

6 /10

单选题 (1 分)

对于下面的一段 python 程序，计算的是向量之间的

import numpy as np

x=np.random.random(5)

y=np.random.random(5)

sim=np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))

欧氏距离

余弦相似度

欧式相似度

马修相关系数

答案： B

7 /10

单选题 (1 分)

对于下面的一段 python 程序，sim 中保存的是向量之间的：

import numpy as np

x=np.random.random(5)

y=np.random.random(5)

from scipy.spatial.distance import pdist

X=np.vstack([x,y])

sim=1-pdist(X,’cosine’)

欧氏距离

余弦相似度

余弦距离

马修相关系数

答案： B

8 /10

单选题 (1 分)

下面的一段 python 程序的目的是使用主成分分析法（principal component analysis）对 iris 数据集进行特征降维，以便于数据的二维平面可视化。则其中空格处应该填充的数字为？

import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

from sklearn.datasets import load_iris

data = load_iris()

X = data.data

y = data.target

pca = PCA(n_components= )

reduced_X = pca.fit_transform(X)

答案： B

9 /10

下图是使用主成分分析法对 iris 数据集进行特征降维并进行二维平面可视化的结果。则为了绘图，需要使用的导入语句是下面哪一种？

pca.png

import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

from sklearn.lda import LDA

import numpy as np

答案： A

10 /10

单选题 (1 分)

下面哪一条语句是用于导入 nltk 中的英文词性标注的模块？

from nltk import word_tokenize

from nltk.stem import PorterStemmer

from nltk import pos_tag

from nltk.corpus import treebank

答案： C

第三讲回归问题及正则化

1 /10

单选题 (1 分)

关于线性模型，下列说法错误的是

狭义线性模型通常是指自变量与因变量之间呈按比例、成直线的关系。一阶导数不为常数线性通常表现为 1 次曲线

广义线性是线性模型的扩展，主要通过联结函数，使预测值落在响应变量的变幅内

非线性一般指不按比例、不成直线的关系，一阶导数不为常数

答案： A

2 /10

多选题 (1 分)

下列哪些是常见的非线性回归模型？

2 次以上的多项式

双曲线模型

幂函数模型

指数函数模型

答案： ABDC

3 /10

单选题 (1 分)

下列关于梯度下降（Gradient descent ）法的描述错误的是

梯度下降是利用一阶的梯度信息找到代价函数局部最优解的一种方法

通常会先初始化一组参数值,然后在这个值之上，用梯度下降法去求出下一组的值。由于是梯度下降的，所以损失函数的值在下降。当迭代到一定程度，此时的参数取值即为要求得的值

学习速率的选取很关键，如果学习速率取值过大，容易达不到极值点甚至会发散，学习速率太小容易导致收敛时间过长

其中的学习速率是模型参数，而不是超参数

答案： D

4 /10

单选题 (1 分)

下面的一段 python 程序是使用 scikit-learn 来构建线性回归模型，其中最后一条语句的目的是得到 X_test 的预测结果，则空格内应该填入的函数为

from sklearn.linear_model import LinearRegression

X = [[6, 2], [8, 1], [10, 0], [14, 2], [18, 0]]

y = [[7], [9], [13], [17.5], [18]]

model = LinearRegression()

model.fit(X, y)

X_test = [[8, 2], [9, 0], [11, 2], [16, 2], [12, 0]]

y_test = [[11], [8.5], [15], [18], [11]]

predictions = model. (X_test)

predict

get

pred

learn

答案： A

5 /10

多选题 (1 分)

对某数据集进行高次多项式的回归，逐渐增加多项式的次数，如采用七次多项式回归拟合，曲线经过了所有训练集中的点，但在测试集上的 R 方值却变得更低了。则以下表述正确的是

发生了过拟合较为严重（overfitting）的情况

发生了欠拟合较为严重（underfitting）的情况

学习得到了一个非常好的模型，其在测试集上的表现最好

R 方值越大，则模型性能越好

答案： DA

6 /10

单选题 (1 分)

下列关于逻辑回归的描述错误的是

线性回归的结果输出通常是一个连续值，值的范围是无法限定的。逻辑回归通过使用 sigmoid 函数将其转为(-1,1) 的一个概率值，从而能够完成对事件发生的概率进行预测。

逻辑回归可以被理解为是一个被 logistic 方程归一化后的线性回归。

逻辑回归属于连接函数为 sigmoid 函数的广义线性模型。

Sigmoid 函数有个很漂亮的“S”形,特点是一开始变化快，逐渐减慢，最后饱和。

答案： A

7 /10

单选题 (1 分)

scikit-learn 中的逻辑回归解决方案“liblinear”使用的是 CD 优化（即 coordinate descent，坐标下降）算法，则下面的描述错误的是：

CD 是一种梯度优化算法。

在每次迭代中，该方法在当前点处沿一个坐标方向进行一维搜索以求得一个函数的局部极小值。在整个过程中循环使用不同的坐标方向。

该方法从一个初始的猜测值以求得函数的局部最优值。该方法需要迭代进行。

如果在某次迭代中，函数得不到优化，说明一个驻点已经达到。但是对于非平滑函数，坐标下降法可能会在在非驻点中断执行

答案： A

8 /10

单选题 (1 分)

在 scikit-learn 中，如何处理多类分类（Multi-class classification）问题？

scikit-learn 无法实现多类分类

scikit-learn 只能用 one-vs.-all 实现多类分类

scikit-learn 只能用 one-vs.-the-rest 方法实现多类分类

scikit-learn 可以使用 one-vs-one 或 one-vs.-the-rest 方法实现多类分类，即将多类分类问题转化为构建若干个两类的分类器

9 /10

单选题 (1 分)

下面关于岭（Ridge）回归的描述正确的是岭回归使用 L1 正则化

岭回归使用 L2 正则化

岭回归使用 L1+L2 正则化

岭回归不使用正则化

答案： B

10 /10

单选题 (1 分)

下面关于 Lasso 回归的描述正确的是

Lasso 回归使用 L1 正则化

Lasso 回归使用 L2 正则化

Lasso 回归使用 L1+L2 正则化

Lasso 回归不使用正则化

答案： A

第四讲信息熵及梯度计算

1 /10

单选题 (1 分)

下面关于信息熵的描述中错误的是：

热力学中的热熵是表示分子状态混乱程度的物理量。信息熵概念的提出受到了热力学中的热熵的概念的启发

信息熵由 Shannon 提出，信息熵的概念可以用来描述信源的不确定度

信息熵是通信领域的概念，和机器学习以及深度学习无关

在深度学习中，经常使用交叉熵来表征两个变量概率分布 P, Q（假设 P 表示真实分布, Q 为模型预测的分布）的差异性。

答案： C

2 /10

单选题 (1 分)

下面关于相对熵(relative entropy) 的说法不正确的是

相对熵又称为 KL 散度（Kullback-Leibler divergence）

相对熵又称为信息散度（information divergence）

相对熵又称为信息增益（information gain）

相对熵又被称之为 KL 距离，因此满足对称性

答案： D

3 /10

单选题 (1 分)

下面关于 JS 散度和 KL 散度的区别的说法错误的是

KL 散度不具对称性

JS 散度具备对称性

JS 散度在 KL 散度的基础上进行了改进

二者都不具备对称性

答案： D

4 /10

单选题 (1 分)

关于感知机（perceptron），下列说法错误的是

感知机由 Rosenblatt 于 1957 年提出，是神经网络的基础

感知机是二分类的线性分类模型，属于有监督学习算法

感知机是二分类的线性分类模型，属于无监督学习算法

感知机的预测是用学习得到的感知机模型对新的实例进行预测的，因此属于判别模型。

答案： C

5 /10

单选题 (1 分)

下列哪种概念表达了在已知随机变量 Y 的条件下随机变量 X 的不确定性？

交叉熵

互信息

条件熵

相对熵

答案： C

6 /10

单选题 (1 分)

对于下面的一段 python 程序，下面的说法错误的是

import numpy as np

p=np.asarray([0.65,0.25,0.07,0.03])

q=np.array([0.6,0.25,0.1,0.05])

kl1=np.sum(p*np.log(p/q))

kl2=np.sum(q*np.log(q/p))

程序最后两行的计算结果是相等的

程序最后两行的计算结果是不相等的

程序最后两行的的目的是计算相对熵，其是交叉熵与信息熵的差值程序的目的是计算相对熵，其不具备对称性

答案： A

7 /10

单选题 (1 分)

对于下面的一段 python 程序，下面的说法正确的是

import numpy as np

p=np.asarray([0.65,0.25,0.07,0.03])

q=np.array([0.6,0.25,0.1,0.05])

M=(p+q)/2

result=0.5*np.sum(p*np.log(p/M))+0.5*np.sum(q*np.log(q/M))

最后一行是计算 p 和 q 之间的 KL 散度

最后一行是计算 p 和 q 之间的 JS 散度

最后一行是计算 p 和 q 之间的条件熵

最后一行是计算 p 和 q 之间的交叉熵

答案： B

8 /10

单选题 (1 分)

对于下面的一段 python 程序，下面的说法正确的是

import numpy as np

import scipy.stats

p=np.asarray([0.65,0.25,0.07,0.03])

q=np.array([0.6,0.25,0.1,0.05])

M=(p+q)/2

result=0.5*scipy.stats.entropy(p, M)+0.5*scipy.stats.entropy(q, M)

最后一行是计算 p 和 q 之间的 KL 散度

最后一行是计算 p 和 q 之间的 JS 散度

最后一行是计算 p 和 q 之间的条件熵

最后一行是计算 p 和 q 之间的交叉熵

答案： B

9 /10

单选题 (1 分)

对于下面的一段 python 程序，下面的说法正确的是 import numpy as np

predicted=np.array([11.2, 2.5, 7.9, 7.2])

label=np.array([1, 0, 0, 0])

def softmax(x):

return np.exp(x)/np.sum(np.exp(x),axis=0)

print (softmax(predicted))

loss=-np.sum(label*np.log(softmax(predicted)))

最后一行是计算 predicted 和 label 之间的互信息

最后一行是计算 predicted 和 label 之间的 JS 散度

最后一行是计算 predicted 和 label 之间的条件熵

最后一行是计算 predicted 和 label 之间的交叉熵

答案： D

10 /10

单选题 (1 分)

对于给定的下面的一段 python 程序及其输出，下面的说法正确的是 import numpy as np

a=np.asarray([0.5,0.5]) #假设 a 为实际分布

b=np.array([0.25,0.75])

c=np.array([0.125,0.875])

kl1=np.sum(a*np.log(a/b))

print (“b,a”,kl1)

kl2=np.sum(a*np.log(a/c))

print (“c,a”,kl2)

其输出结果为

b,a 0.143841036226

c,a 0.413339286592

程序的输出是计算了条件熵

程序的输出是计算了互信息

b 和 c 相比，更接近实际分布 a

c 和 b 相比，更接近实际分布 a

答案： C

第五讲循环神经网络及其变体

1 /10

多选题 (1 分)

下列哪种模型更适合序列建模与预测？

循环神经网络 RNN

卷积神经网络 CNN

多层感知机

长短时记忆网络 LSTM

答案： AD

2 /10

单选题 (1 分)

下列关于循环神经网络 RNN （Recurrent Neural Networks）说法错误的是隐藏层之间的节点有连接

隐藏层之间的节点没有连接

隐藏层的输入不仅包括输入层的输出，还包括上一时刻隐藏层的输出

网络会对之前时刻的信息进行记忆并应用于当前输出的计算中

答案： B

3 /10

多选题 (1 分)

循环神经网络 RNN （Recurrent Neural Networks）可以处理哪些情况?

多对多的同步序列输入输出。如词性标注等

多对一的处理，如判断一段文字的情感分类

多对多的非同步序列输入和序列输出，如机器翻译中输入英文语句然后翻译为法语形式输出一对多的序列输出。如输入一张图片，生成输出一段文字序列

答案： ABCD

4 /10

单选题 (1 分)

下列关于长短期记忆网络 LSTM 和循环神经网络 RNN 的关系描述正确的是

LSTM 是简化版的 RNN

LSTM 是双向的 RNN

LSTM 是多层的 RNN

LSTM 是 RNN 的扩展，其通过特殊的结构设计来避免长期依赖问题

答案： D

5 /10

单选题 (1 分)

标准 RNN (循环神经网络) 无法处理更长的上下文间隔，即长期依赖问题。为此 Hochreiter & Schmidhuber (1997) 提出一种特殊的 RNN 类型，其通过特殊的结构设计来避免长期依赖问题。并被 Alex Graves 进行了改良和推广。这种改进的模型是

长短期记忆网络 LSTM

卷积神经网络 CNN

多层感知机 MLP

受限玻尔兹曼机

答案： A

6 /10

单选题 (1 分)

下列说法错误的是

标准 RNN 隐藏层只有一个状态 h，对短期输入敏感，但难以捕捉长期上下文

LSTM 在隐藏层上增加了一个长期状态c (cell state)，用于保存长期状态。C 也被称为单元状态或细胞状态

LSTM 只有长期状态，没有隐藏状态

LSTM 既有长期状态，也有隐藏状态

答案： C

7 /10

多选题 (1 分)

下列关于 LSTM 说法正确的是

LSTM 用三个控制门记忆长期状态

忘记门控制保存之前的长期状态

输入门控制更新长期状态

输出门控制是否把长期状态作为当前的 LSTM 的输出

答案： ABCD

8 /10

单选题 (1 分)

LSTM 通过“ 门”结构来去除或者增加信息到细胞状态（长期状态）。为了让信息选择性通过，则

一般需要一个 sigmoid 神经网络层和一个 pointwise 乘法操作

一般需要一个 sigmoid 神经网络层和一个 pointwise 加法操作

一般需要一个 tanh 神经网络层和一个 pointwise 乘法操作

一般需要一个 tanh 神经网络层和一个 pointwise 加法操作

答案： A

9 /10

单选题 (1 分)

下列关于 GRU（Gated Recurrent Unit Cho, et al. 2014）的哪个描述是错误的？

GRU 混合了长期状态和隐藏状态

和 LSTM 相同的是, GRU 也有三个门，即忘记门、更新门和输出门

在 GRU 中，取消了 LSTM 中的输出门

如果 reset 门为 1，而 update 门为 0 的话，则 GRU 完全退化为一个 RNN。

答案： B

10 /10

多选题 (1 分)

下列关于双向 RNN 的说法正确的有

双向网络假设当前步的输出只与前面的序列有关，而与后面的序列无关

双向网络假设当前步的输出与前面的序列无关，而与后面的序列有关

双向网络假设当前步的输出既与前面的序列有关，也与后面的序列有关

Bidirectional RNNs 由两个 RNNs 上下叠加组成。输出由这两个 RNNs 的隐藏层的状态决定答案： CD

第六讲卷积神经网络

1 /10

单选题 (1 分)

在卷积神经网络的某个降采样层(pooling 层)中，经过降采样处理，得到了 16 个5*5 的特征图，其每个单元与上一层的 2*2 邻域连接（滑动窗口为 2*2）。则该降采样层的尺寸和上一个层的尺寸的关系是？

降采样层的尺寸是上一层的尺寸的 1/2

降采样层的尺寸是上一层的尺寸的 1/4

降采样层的尺寸是上一层的尺寸的 1/8

降采样层的尺寸是上一层的尺寸的 4 倍

答案： B

2 /10

单选题 (1 分)

关于采用卷积神经网络进行图像分类和文本分类的比较，下列说法错误的是

卷积神经网络只能用于图像分类，不能用于文本分类，没有相关文献；

使用卷积神经网络进行句子分类，一般将句子中每个词表示为固定长度的向量，这样句子就可以表示为矩阵，从而使得在结构上与图像类似，并在后续进行卷积等处理

图像处理应用中，卷积核处理的局部区域为图像的一小块区域，而在文本分类时卷积核处理的局部区域通常为相邻的上下几行（几个词）。因此卷积核的宽度和输入矩阵的宽度相等

使用卷积神经网络进行句子分类或者文档分类，卷积提取的特征与采用 n-gram 模式提取的特征类似

答案： A

3 /10

单选题 (1 分)

关于卷积神经网络的说法正确的是

从开始的层到后面的层，经过变换得到的特征图的尺寸逐渐变大

从开始的层到后面的层，经过变换得到的特征图的尺寸逐渐变小

从开始的层到后面的层，经过变换得到的特征图的尺寸大小不变

从开始的层到后面的层，经过变换得到的特征图的尺寸开始变小，后来变大

答案： B

4 /10

多选题 (1 分)

关于卷积神经网络中池化处理(pooling) 的说法正确的是

在卷积神经网络中，卷积的下一步通常是进行池化处理(pooling)

池化处理主要是对不同位置的特征进行聚合统计

池化处理起到了减少了参数和降维的作用

常用的池化做法是对每个滤波器的输出求最大值、平均值等

答案： ABCD

单选题 (1 分)

下列关于卷积神经网络的描述正确的是

卷积神经网络的层与层之间都是全连接网络

卷积神经网络的层与层之间都是部分连接网络

卷积神经网络的层与层之间既有可能是全连接，也有可能是局部连接。通常是开始的若干层是局部连接，最后的层是全连接

卷积神经网络的层与层之间既有可能是全连接，也有可能是局部连接。通常是开始的若干层是全连接，最后的层是局部连接

答案： C

6 /10

多选题 (1 分)

在卷积神经网络中典型的模式是？

卷积层后为池化层，然后还是卷积层-池化层

多个连续的池化层，然后跟着一个卷积层

网络中最后的几个层是全连接层

网络中最开始的几个层是全连接层

答案： AC

7 /10

多选题 (1 分)

卷积神经网络的一个特点是“参数共享”。下面关于“参数共享”的哪种说法是正确的？

如果参数较多，则容易导致过拟合。而减少参数有助于避免过拟合

参数共享的优势是通过一个任务上学习到的参数可以直接应用到另外一个任务上

可以允许一个特征检测器在整个输入图像的不同位置使用，即可以把参数看成是卷积提取特征的方式，该方式与位置无关

参数越多，才能避免过拟合，减少参数容易导致过拟合

答案： AC

8 /10

判断题 (1 分)

由于池化层没有需要求解的参数，因此其对反向传播中梯度计算没有影响

答案： ×

9 /10

单选题 (1 分)

假设输入的图像为 100*100 像素（RGB）的图像，并且没有使用卷积神经网络。如果第一个隐藏层有 50 个神经元，每个神经元与输入图像是全连接的关系，则这个隐藏层需要多少参数（包括偏置参数）？

1, 500, 000

1, 500, 050

500, 000

1, 500, 001

答案： B

10 /10

单选题 (1 分)

对一个灰度图像应用如下的过滤器会达到什么效果？

-1

实现水平方向边缘检测

实现竖直方向边缘检测

实现 45 度边缘检测

实现图像对比度检测

答案： B

第七讲递归神经网络

1 /10

单选题 (1 分)

关于文档的向量表示模型，采用深度学习中的词向量表示模型和传统的单纯基于词频向量表示方法的区别的描述错误的是

传统文档的表示一般采用词袋 BOW 模型，表示为高维向量

深度学习中的词向量表示模型通常是一种低维度向量

深度学习中的词向量表示模型存在的一个突出问题就是“词汇鸿沟”现象

传统方法中词向量表示模型存在一个突出问题就是“词汇鸿沟”现象

答案： C

2 /10

单选题 (1 分)

关于利用 Word2vec 获取词向量，下列说法错误的是

Word2vec 可以将词表示为低维实数值

Word2vec 的向量输出既可以采用二进制存储，也可以普通存储（可以看到词语和对应的向量）

Word2vec 需要利用到较大规模的语料进行训练

Word2vec 不需要利用语料进行训练

答案： D

3 /10

多选题 (1 分)

关于递归神经网络 RNN (Socher et al., 2011)，下列描述正确的是

模型的网络结构是通过句法分析得到的

语料自身富含情感倾向信息

训练语料采用人工标注

父节点的向量通过利用组合函数 g 由其孩子节点的向量得到

答案： ABCD

4 /10

单选题 (1 分)

下列关于递归神经网络 RNN (Socher et al., 2011)，错误的是

每个词通常初始化表示为一个 d 维的向量。由一个随机均匀分布随机采样生成

所有的词向量被存储在一个词嵌入矩阵中。随着训练的进行，该矩阵将被视为一种参数，因此会被学习调整

不同长度和句法类型的句子其组合词向量的维度都不同

树结构基于句法分析器生成

答案： C

5 /10

多选题 (1 分)

下列关于递归神经网络 RNN (Socher et al., 2011)的描述正确的是

假设节点 p1 的词向量为 a, 则需要将其乘以分类矩阵 Ws，然后再传给 softmax，以进行情感分类概率分布的计算

假设节点 p1 的词向量为 a, 则直接输出作为情感分类概率

假设节点 p1 的词向量为 a, 则直接传给 softmax 分类器以计算情感分类概率

标准递归神经网络 RNN 后期的版本是 MV-RNN 和 RNTN

答案： AD

6 /10

多选题 (1 分)

关于 RNTN（Socher et al., 2013），下列正确的是

该结构的优点是相对于 MV-RNN，其效率大幅提升

标准 RNN（递归神经网络）相当于 RNTN 的一种特殊情况

采用了张量层矩阵

其它选项都不对

答案： ABC

7 /10

单选题 (1 分)

神经网络中梯度下降法的训练步骤通常如何？

1. 根据样本预测值和真实值之间的误差，计算损失函数

2. 迭代更新，直到模型整体误差小于阈值或者达到预定的迭代次数

3. 把样本输入给模型，得到预测值

4. 初始化模型的参数，如权重和偏差等

5. 反向传播，按照梯度下降的方向改变神经元相应的权重值

1, 2, 3, 4, 5

3, 2, 1, 5, 4

4, 3, 1, 5, 2

答案： D

8 /10

多选题 (1 分)

下列哪个神经网络结构采用权重共享机制？

卷积神经网络

循环神经网络

全连接神经网络

多层感知机

答案： AB

9 /10

多选题 (1 分)

在神经网络中，以下哪种技术可以用于抑制过拟合？

Dropout

正则化

尽量增加选取特征变量的数量

尽可能选用复杂的模型

答案： AB

10 /10

单选题 (1 分)

在很多神经网络分类系统中，假设共计有 K 个类，通常在输出层希望输出样本属于 K 个类中每个类的概率（在 0 和 1 之间），且使得这些概率的和等于 1。则下列哪个函数可以用在输出层中以达到上述目的？

Sigmoid

ReLu

Softmax

Tanh

答案： C

第八讲生成式神经网络

1 /10

多选题 (1 分)

下列关于自动编码器 auto encoder 的描述正确的是

自动编码器不需要解码器

自动编码器既有编码器，也有解码器

如果使用自动编码器提取特征，并与有监督学习模型使用，则在其训练过程中不需要解码器

自动编码器的编码器和解码器可以使用感知机模型

答案： BD

2 /10

多选题 (1 分)

下列关于自动编码器的损失函数的说法中正确的是

为了计算自动编码器的损失函数，需要用到样本的类别标签

自动编码器的损失函数主要是重构自身的误差，因此不会用到样本的类别标签

自动编码器由于是无监督模型，所以不存在损失函数的问题

自动编码器需要利用到损失函数来反向传播，以更新模型的参数

答案： BD

3 /10

多选题 (1 分)

下列关于自动编码器的主要用途描述正确的是

使用自动编码器提取特征，并与有监督学习模型使用。因为监督学习通常的标注数据较少

只能重构自身而已，没有其它用途

可以用许多无标签的数据学习得到数据通用的特征表示

其它选项都不对

答案： CA

4 /10

单选题 (1 分)

下列关于变分自动编码器的主要用途描述正确的是

生成新的数据样本，如图像

重构原有的数据，如重构原有的图像

获得数据的特征，并与分类器联合使用

其它选项都不对

答案： A

5 /10

多选题 (1 分)

下列关于变分自动编码器的说法中正确的是

变分自编码器（Variational Autoencoders，VAE）通常假设潜在变量服从某种先验分布（如

高斯分布）

模型训练完毕后，可以从这种先验分布中采样得到潜在变量，并通过解码器得到新的样本

VAE 在自动编码机基础上加入了随机因子，这样就可以从该模型中采样得到新的数据

其它选项都不对

答案： ABC

6 /10

多选题 (1 分)

下列关于变分自动编码器的参数估计问题描述正确的是

变分自编码器通常采用最大对数似然来学习得到模型的参数

变分编码器实际上是在优化数据的对数似然的下界，并求解参数

变分自编码器的训练过程中用到了 KL 散度的计算

其它选项都不对

答案： ABC

7 /10

多选题 (1 分)

下列关于使用变分自动编码器进行新的样本生成，描述正确的是变分自编码器在生成数据阶段只需要解码器

变分自编码器在生成数据阶段只需要编码器

变分自编码器在生成数据阶段需用到采样技术

变分自编码器既然是无监督模型，因此不需要进行训练

答案： AC

8 /10

下列关于生成对抗网络的描述正确的是

生成对抗网络包含若干个生成器，优胜者胜出

生成对抗网络，即 Generative Adversarial Networks，简称 GAN

生成对抗网络包括两部分，即生成器和判别器

生成对抗网络的生成器:从随机噪声中生成图像（随机噪声通常从均匀分布或高斯分布中获取）

答案： BCD

9 /10

多选题 (1 分)

下列关于生成对抗网络的描述正确的是

生成对抗网络包括两部分，即生成器和判别器

生成对抗网络的判别器进行训练时，其输入为生成器生成的图像和来自训练集中的真实图像，并对其进行判别

生成对抗网络的生成器从随机噪声中生成图像（随机噪声通常从均匀分布或高斯分布中获取）

既然生成对抗网络是无监督模型，则不需要任何训练数据

答案： ABC

下列哪些问题通常被认为属于有监督学习问题？

分类问题

回归问题

图像标题生成

聚类问题

答案： ABC

资源下载

下载价格1 元

VIP 7折升级VIP

立即购买

申请退款

点点赞赏，手留余香给TA打赏

AI创作

在线网课学堂《深度学习基础》单元考核测试答案

评论0

返回顶部

评论0

返回顶部

社交账号快速登录

社交账号快速登录

社交账号快速登录