http://mp.weixin.qq.com/s/ddj60gjxg5DNExiyHzTafQ
https://jizhi.im/blog/post/45\_questions\_deep\_learning
Q1. 神经网络模型是由人类大脑启发而来。
神经网络由众多神经元构成,每个神经元读取并处理输入信号,再产生输出。
Q1:关于神经元的叙述,哪些是正确的?
A.每个神经元可以有一个输入,和一个输出。
B.每个神经元可以有多个输入,和一个输出。
C.每个神经元可以有多个输入,和多个输出。
D.每个神经元可以有多个输出,和一个输入。
E.所有上述声明均有效
Q2. 下面是一个神经元的数学表示。
不同组件的意义为:
x1, x2,…, xN:神经元的输入。可以是输入层的实际观测,也可以是隐藏层的中间值。
w1, w2,…,wN:每个输入的权重。
bi:偏移量,根据权重、附加在激励函数上的常数项。
a: 神经元的激励函数,可表示为:
y:神经元输出。
Q2:考虑以上定义,线性方程 (y = mx + c) 可以说是一种神经元吗?
A.无可奉告
B.否
C.是
D.一派胡言
Q3. 用一个神经元来拟合 AND 函数,下表即为 AND 函数:
X1 | X2 | X1 AND X2 |
---|---|---|
0 | 0 | 0 |
0 | 1 | 0 |
1 | 0 | 0 |
1 | 1 | 1 |
神经元的激励函数记为:
Q3:权重和偏移分别是多少? (W1,W2和b怎样取值,我们的神经元才能拟合 AND 函数?)
A.Bias = 1.5, W1 = 2, W2 = 2
B.Bias = -1.5, W1 = 1, W2 = 1
C.Bias = -1, W1 = 1.5, W2 = 1.5
D.全都是泡沫
Q4. 多个神经元组成网络,以模拟 XNOR 函数的神经网络为例:
最后一个神经元接收了之前两个神经元的输入,其激励函数为:
假设 X1 = 0, X2 = 1,以上神经网络的输出是?
A.233
B.1
C.666
D.0
Q5. 在一个神经网络中,知道每个神经元的权重和偏移是最重要的。
获知每个神经元权重和偏移的最佳方式是什么呢?
A.每次赋值之后检查与最佳值的误差,微调参数获得小幅提升,并持续迭代。
B.随机赋值,听天由命。
C.全都不对。
D.搜索每个可能的权重和偏移组合
Q6. 梯度下降算法
计算预测值与真实值之间的误差
重复迭代直至得到网络权重的最佳值
向网络传入输入值,获得输出值
用随机值初始化权重和偏移
调整对误差有贡献的神经元参数,以减少误差
Q6.梯度下降算法的步骤是?
A.4,3,1,5,2
B.3,2,1,5,4
C.5,2,3,1,4
D.1,2,3,4,5
Q7. 假设输入值为x, y, z分别为-2,5,-4,并有神经元q和f:
Q7:F对x, y, z的梯度是多少?
A.(3, -4, -4)
B.(4, 4, 3)
C.(-4, -4, 3)
D.(-3, 4, 4)
Q8. 已知:
神经网络是对大脑的一种粗糙数学表示,由小单位——神经元组成。
每个神经元都有输入、处理函数和输出。
神经元组合形成网络,可以拟合任何函数。
为了得到最好的神经网络,需要梯度下降等方法来更新模型。
Q8以上为神经网络相关的描述,那什么时候神经网络才能成为一个“深度学习”模型呢?
A.当数据纬度更高的时候
B.当你添加更多隐藏层,增加网络深度的时候。
C.当目标问题是图像识别的时候
D.山无棱,天地合
Q9. 神经网络可以看作是简单的方程堆叠形成。
如果要用两个简单的输入h1和h2:
来浮现如下决策边界:
Q9:最终的方程应该是?
A.(h1 OR NOT h2) AND (NOT h1 OR h2)
B.(h1 AND NOT h2) OR (NOT h1 AND h2)
C.(h1 AND h2) OR (h1 OR h2)
D.(NOT h1 AND NOT h2) OR (NOT h1 AND NOT h2)
Q10:“卷积神经网络可以对输入进行多种变换(旋转、缩放、平移等)”,这句话是否正确?
A.是
B.否
C.无可奉告
D.未知领域
Q11下面哪种技术与神经网络中的Dropout相似?
A.Stacking
B.Bagging
C.Mapping
D.Boosting
Q12下面哪一步使神经网络具有了非线性?
随机梯度下降(Stochastic Gradient Descent)
全连接层(Fully Connected Layers)
卷积函数(Convlution function)
修正线性单元(Rectified Linear Unit)
Q13. 在训练神经网络时,你可能会注意到,损失函数(loss)在最初的几个epochs时没有下降。
对原因的猜测:
学习率(learning rate)太低
正则参数太高
陷入局部最小值
Q13:哪些原因是可能的呢?
A.2,3
B.1,2
C.1,3
D.所有
Q14:以下关于模型性能的叙述,哪个是正确的? (模型性能,指神经网络拟合复杂函数的能力)
A.性能随学习率提升
B.全都不对
C.性能Dropout率提升
D.性能随隐藏层数量提升
Q15“在多层感知机(Multi Layer Perceptron)里增加隐藏层数量,分类误差总是下降”,这句话对吗?
A.那玩意儿谁知道
B.错
C.对
D.就不告诉你
Q16. 你正在搭建一个神经网络,既从前一层获取输入,也从自己获取输入。
Q16:哪种神经网络架构具有反馈连接?
A.受限玻尔兹曼机(Restricted Boltzmann Machine)
B.支持向量机(Support Vector Machine)
C.循环神经网络(Recurrent Neural Network)
D.卷积神经网络(Convolutional Neural Network)
Q17. 感知机的正确顺序
随机初始化感知机权重
进入下一批数据集
如果预测与输出不符,则调整权重
对于采样输入,计算输出
Q17怎样的顺序是正确的?
A.1, 3, 4, 2
B.1, 2, 3, 4
C.1, 4, 3, 2
D.1, 4, 2, 3
Q18:通过调整参数,最小化代价函数,哪些技术是可以用上的?
A.任意一个
B.穷举搜索(Exhaustive Search)
C.随机搜索(Random Search)
D.贝叶斯优化(Bayesian Optimization)
Q19.
一阶梯度下降对哪一图中的情形无效?
A.A
B.B
C.C
D.都不是
Q20.下图显示了训练过的3层卷积神经网络准确度,与参数数量(特征核的数量)的关系。
Q20上图的趋势显示出当你增加一个神经网络的宽度时,他的准确率会逐渐升高直到一个特定阈值,之后则开始下降。
下面哪个是造成下降的可能原因?
A.即使增加卷积核的数量,只有少部分的核会被用作预测
B.当卷积核的数量增加时,他们之间会出现相关效应(correlate),造成了过拟合
C.当卷积核的数量增加时,神经网络的预测能力会下降
D.都不对
Q21假设我们有一个如下图所示的隐藏层,这个隐藏层在这个网络中起一个降维的作用。如果现在我们用另一种维度下降的方法,比如说主成分分析法(PCA)来替代这个隐藏层。
这两者的输出效果是一样的吗?
A.是
B.不好说
C.否
D.不知道
Q22.神经网络能组成函数(y=1/x)吗?
A.可以
B.不知道
C.看情况
D.不行
Q23.关于神经网络结构的权重共享现象,下面哪个选项是正确的?
A.只有全连接神经网络会出现
B.只有卷积神经网络(CNN)会出现
C.只有循环神经网络(RNN)会出现
D.卷积神经网络和循环神经网络都会出现
Q24.分批归一化(Batch Normalization)的好处都有啥?
A.在将输入传递到下一层之前就会把它们全部归一化
B.它会返回权重的归一化平均值和标准差
C.这些好处都没有
D.该方法是一个非常有效的后向传播(BP)技巧
Q25.一般情况下会用贝叶斯误差的标准来作为误差标准而不是完全的零误差,为什么?
A.输入的变量也许不包含输出变量的完整信息
B.有限的训练数据
C.输入和输出的映射系统可能是随机的
D.其他选项都是可能原因
Q26.输出层的神经元数应该与分类数匹配(分类数大于等于2)则是一个监督学习任务,对吗?
A.是
B.不是
C.不可知
D.不知道
Q27.在一个神经网络中,下面哪种方法可以用来处理过拟合?
A.分批归一化(Batch Normalization)
B.Dropout
C.都可以
D.正则化(regularization)
Q28.Y=ax^2+bx+c (二阶多项式)
这个方程能用一个仅含单隐藏层和线性阈值的神经网络来表示吗?
A.不好说
B.不能
C.不知道
D.能
Q29
Q29.神经网络中的死神经单元是什么?
A.无法对任何训练模式进行完整反馈的神经元
B.不能在训练过程中被其他附近神经元更新的神经元
C.都不是
D.会造成最大平方误差的神经元
Q30.下面哪个描述可以最好的描述early stopping?
A.训练网络知道误差函数出现一个局部最小值
B.在权重值更新时上加一个动量项(momentum term),使训练能够更快地收敛
C.在每一个训练epoch后在测试集上模拟网络,当归一化误差(generalization error)减小时停止训练
D.一种更快的后向传播方式,像是"Quickprop"算法
Q31.如果我们用了一个过大的学习速率会发生什么?
A.不好说
B.神经网络不会收敛
C.都不对
D.神经网络会收敛
Q32.用来训练识别字母H和T的神经网络如下所示:
下面那些是可能的输出?
A.C
B.B
C.A和B都有可能,取决于神经网络的权重设置
D.A
Q33.假设我们已经在ImageNet数据集(物体识别)上训练好了一个卷积神经网络。用一张全白的图片作为输入。输出结果为任何种类的物体的可能性都是一样的,对吗?
A.不对
B.对的
C.不知道
D.看情况
Q34当在卷积神经网络中加入池化层(pooling layer)时,平移不变性会被保留,是吗?
A.是
B.否
C.不知道
D.看情况
Q35.当数据过大以至于无法在RAM中同时处理时,那种梯度下降方法更加有效?
A.不知道
B.都不是
C.整批梯度下降法(Full Batch Gradient Descent)
D.随机梯度下降法(Stochastic Gradient Descent)
Q36.下图是一个利用sigmoid函数作为激活函数的含四个隐藏层的神经网络训练的梯度下降图。这个神经网络遇到了梯度消失的问题。
下面哪个叙述是正确的?
A.第一隐藏层对应A,第二隐藏层对应B,第三隐藏层对应C,第四隐藏层对应D
B.第一隐藏层对应D,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应A
C.第一隐藏层对应B,第二隐藏层对应D,第三隐藏层对应C,第四隐藏层对应A
D.第一隐藏层对应A,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应D
Q37.对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,二是都设成0,下面哪个叙述是正确的?
A.其他选项都不对
B.神经网络不会开始训练,因为没有梯度改变
C.神经网络会开始训练,但是所有的神经元最后都会变成识别同样的东西
D.没啥问题,神经网络会正常开始训练
Q38.下图显示,当开始训练时,误差一直很高,这是因为神经网络在往全局最小值前进之前一直被卡在局部最小值里。
为了避免这种情况,我们可以采取下面哪种策略?
A.改变学习速率,比如一开始的几个训练周期不断更改学习速率
B.其他都不对
C.一开始将学习速率减小10倍,然后用动量项(momentum)
D.增加参数数目,这样神经网络就不会卡在局部最优处
Q39对于一个图像识别问题(在一张照片里找出一只猫),下面哪种神经网络可以更好地解决这个问题?
A.多层感知机
B.循环神经网络
C.感知机
D.卷积神经网络
Q40.假设在训练中我们突然遇到了一个问题,在几次循环之后,误差瞬间降低
你认为数据有问题,于是你画出了数据并且发现也许是数据的偏度过大造成了这个问题。
你打算怎么做来处理这个问题?
A.对数据作归一化
B.对数据作主成分分析(PCA)和归一化
C.对数据取对数变化
D.都不对
Q41.下面那个决策边界是神经网络生成的?
A.B
B.C
C.A
D.D
E.以上都对
Q42.在下图中,我们可以观察到误差出现了许多小的"涨落"。
这种情况我们应该担心吗?
A.需要,这也许意味着神经网络的学习速率存在问题
B.不知道
C.不需要,只要在训练集和交叉验证集上有累积的下降就可以了
D.不好说
Q43.在选择神经网络的深度时,下面那些参数需要考虑?
神经网络的类型(如MLP,CNN)
输入数据
计算能力(硬件和软件能力决定)
学习速率
映射的输出函数
A.2,3,4,5
B.都需要考虑
C.1,3,4,5
D.1,2,4,5
Q44.考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络?
A.对新数据重新训练整个模型
B.只对最后几层进行调参(fine tune)
C.把除了最后一层外所有的层都冻住,重新训练最后一层
D.对每一层模型进行评估,选择其中的少数来用
Q45.增加卷积核的大小对于改进卷积神经网络的效果是必要的吗?
A.否
B.是
C.不知道
D.没听说过
答案:
1:答案:E解析:每个神经元的输入/输出没有数量限制。
2:答案:B解析:一个神经元可以是线性的,这时就相当于一个线性回归函数。
3:答案:A解析:f(-1.51 + 10 + 10) = f(-1.5) = 0 f(-1.51 + 10 + 11) = f(-0.5) = 0 f(-1.51 + 11 + 10) = f(-0.5) = 0 f(-1.51 + 11+ 11) = f(0.5) = 1
4:答案:D解析:
Output of a1: f(0.5_1 + -1_0 + -1*1) = f(-0.5) = 0
Output of a2: f(-1.5_1 + 1_0 + 1*1) = f(-0.5) = 0
Output of a3: f(-0.5_1 + 1_0 + 1*0) = f(-0.5) = 0
5:答案:A解析:“梯度下降法”的思想
6:答案:A
7:答案:C解析:(df/dx, df/dy, df/dz)
8:答案:B解析:“深度学习”的深度指隐藏层的数量。并没有绝对标准,说多少层才算“深”,两层以上也可以算是深度学习模型。
9:答案:B解析:+1 AND +1 = +1 +1 AND -1 = -1 +1 OR -1 = +1 -1 OR -1 = -1
10:答案:B解析:数据处理环节(如旋转、缩放、平移等)需要在卷积神经网络之前完成,因为卷积神经网络不能完成此步。
11:答案:B解析:Dropout可以看作是Bagging的极限形式,每个模型都在当一情况中训练,同时模型的每个参数都经过与其他模型共享参数,从而高度正则化。
12:答案:D解析:ReLU是个非线性激励函数。
13:答案:D
14:答案:D解析:选项中只有隐藏层数量能提升性能
15:答案:B解析:隐藏层增多,过拟合可能导致误差上升。
16:答案:C
17:答案:C
18:答案:A
19:答案:B解析:鞍点问题
20:答案:B解析:卷积核相关是可能的原因
21:答案:C解析:因为PCA作用于相关的特征,然而隐藏层主要偏重于具有预测能力的特征。
22:答案:A解析:有很多种类型的激活函数
23:答案:D
24:答案:A
25:答案:D解析:获得准确的预测永远是个谜,所以我们倾向于获得一个可以到达的结果。
26:答案:B解析:这与输出的编码(encoding)方式有关,如果是one-hot encoding,就满足条件,不过你也可以以二进制的方式来输出分类结果,比如00,01,10,11代表不同的四类
27:答案:C解析:所有这些方法都可以改善过拟合问题,dropout没有合适译名,可以参考我站之前的文章 如何用Dropout降低过拟合风险。
28:答案:B解析:线性阈值会限制神经网络在一个简单形式,结果就是一个线性变换函数
29:答案:B
30:答案:C
31:答案:B解析:误差变化率与其相关
32:答案:C解析:当不知道训练好的神经网络的权重和偏执项时,我们对输出可以说是一无所知。
33:答案:A
34:答案:A
35:答案:D
36:答案:B解析:后向传播算法从开始的层,逐渐递减
37:答案:C
38:答案:A
39:答案:D解析:要考虑到图片的复杂性
40:答案:B解析:考虑数据相关性
41:答案:E解析:神经网络可以算是一种通用函数
42:答案:C
43:答案:B
44:答案:C解析:考虑数据集很相似的情况
45:答案:A解析:要考虑数据集