第04讲 卷积神经网络 课堂互动答案

作者:欧新宇(Xinyu OU)

最后更新:2021-08-03


【课堂互动一】 深度前馈神经网络的问题@1.1-1.3

1. 传统深度前馈神经网络(DNN或MLP)无法被广泛应用,其最主要的原因是:( )

A. 神经网络节点过多,导致计算复杂性太高
B. 由于参数过多,容易导致欠拟合问题
C. 无法直接处理高维度的样本,例如基于时间序列音频数据
D. 在处理大数据时,需要人为提取原始数据的特征作为输入,这个尺度很难掌握。

答案及解析:A

以上选项均是传统深度前馈神经网络的缺陷,但其无法被广泛使用的根本原因还是参数过多,导致计算复杂性太高,无法使用现有的计算机完成计算。


2. 若存在一幅 300×400 的彩色图像,且其后的隐层神经元数量与输入层相同,那么,在输入层和第一层之间的参数个数为:( )。
A. $300 × 400 = 120000$
B. $300 × 400 × 3 = 360000$
C. $300 × 400 × 300 × 400 = 1.44 × 10^{10}$
D. $300 × 400 × 3 × 300 × 400 × 3 = 1.296 × 10^{11}$

答案及解析:D

在前馈神经网络中,两层之间的权重参数数量为前后两层所有神经元两两相连的数量。在本例中第一层包含的神经元为图像的长×宽×色彩通道数$=300×400×3=3.6×10^5$,所以两层之间的参数个数为:$3.6×10^5×3.6×10^5=1.296×10^{11}$


3. (多选)以下属于卷积神经网络的典型特性的包括( )。
A. 平移不变性
B. 光照不变性
C. 色彩不变性
D. 尺度不变性

答案及解析:AD

卷积神经网络依赖其卷积和池化的基本结构可以实现平移不变性和尺度不变性,而要实现光照和色彩不变性等其他特性,需要依靠不同样本的训练来实现。


4. 以下图像的变换,哪些变换可以依赖于尺度不变性实现对图像样本的识别()。
A. 调整图像的色彩,使其主要对象从红色变为蓝色
B. 将原始图像进行水平反转
C. 将原始图像旋转120度
D. 直接对图像进行大小缩放

答案及解析:D

尺度不变性指的是对图像进行大小缩放后仍然能够进行识别,这主要得益于卷积核的局部识别能力。通过使用卷积核不断对原始图像进行扫描,从而实现对样本局部模式的学习。


5. 卷积神经网络在逐层叠加的过程中不断进行缩放变换确保了样本尺度不变性,相似的多层感知机的逐层叠加也能够实现尺度不变性。
A. 对
B. 错

答案及解析:B

卷积神经网络逐层叠加的过程中,通过不断变换尺寸,实现了尺度不变性。但是其前提是其输入始终保持了原始的输入形态(即长宽比),而多层感知机虽然也实现了逐层叠加,但一开始就将样本拉成一个一维向量,这丢失了样本内在的局部关联性,因此,无法实现尺度不变性。


6. 为了能实现更好的特征表达能力,除了卷积和池化,卷积神经网络还需要()。
A. 更宽的网络支持
B. 更深的网络
C. 更多的神经元
D. 更大的卷积核

答案及解析:B


【课堂互动二】 卷积神经网络的历史和应用@1.4-1.5

1. 以下模型更适合于处理时间序列的一个是:( )。
A. 多层感知机
B. 支持向量机
C. 卷积神经网络
D. 贝叶斯模型

答案及解析:C

在处理时间序列数据时,传统机器学习算法包括支持向量机、贝叶斯模型、随机森林等都需要事先对原始数据进行特征提取然后才能进行模型的学习,这种方法相对来说效率较低,性能也较差。而多层感知机对于直接输入网络的数据也需要对数据进行重新排列组合,这导致样本的很多内部关联性被打破,也同样无法获得较好的性能。卷积神经网络将原本以原始形态进行输入,既不存在传统机器学习特征提取的多种信息损失,也不存在多层感知机向量输入的空间信息损失,因此更适合于具有结构化特性的数据,例如图像、音频和视频。

2. 卷积神经网络的"卷积"一词,实际上是一种数学运算方法,该方法属于()次的运算?
A. 一次,即线性运算
B. 二次
C. 三次
D. 高次

答案及解析:A

"卷积神经网络"一词表明该网络使用了卷积这种数学运算,卷积是一种特殊的线性运算。因此,卷积网络是指那些至少在网络的一层中使用卷积运算来代替一般的矩阵乘法运算的神经网络。


3. 卷积神经网络具有局部连接、权重共享等特性,它已经脱离了前馈神经网络的范畴。
A. 正确
B. 错误

答案及解析:B

卷积神经网络是一种具有局部连接、权重共享等特性的前馈神经网络。它仿造了生物的感受野(receptive field)机制,即神经元只接受其所支配的刺激区域(其所覆盖及其邻域)内的信号(而非全连接),隐藏层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算代价来量化对象特征,在计算机视觉和语音等网格型数据方面有大量应用。


3. (多选)感知机是早期最成功的神经网络,但也存在一些问题,主要包括哪两个?
A. 处理不了线性不可分问题
B. 处理不了线性可分问题
C. 输入特征需要人工选择
D. 权重特征无法自动更新

答案及解析:AC

感知机的自动化令人激动,但是1969年,Minksy等人关于感知机的“能”与“不能”做了细致的分析,并悲观地论断了感知机的普适难题,这个难题致使神经网络的研究陷入了寒冬。感知机的问题主要包括以下两点:
1). 处理不了线性不可分。这基本上是所有浅层模型都面临的问题;
2). 输入特征的人工选择。这是传统机器学习的通病。


4. 感受野第一次被提出是在下列哪个时期?
A. 1962年, Hubel和Wiesel对猫大脑视觉系统进行了研究
B. 1975年,日本科学家福岛邦彦提出认知机
C. 1989年,Yann Lecun提出用于手写字体识别的卷积神经网络LeNet-5
D. 2012年,Jeffrey Hinton和Alex Krizhvsky提出卷积神经网络AlexNet

答案及解析:A

感受野的提出,最早是在Hubel和Wiesel对猫大脑中视觉系统进行研究时,通过记录神经元的激活模式提出了感受野的概念。卷积神经网络的局部感知就来源于对感受野的理解。

5. (多选)以下应用可以用卷积神经网络来实现的有哪些?
A. 为一幅自然风景画添加梵高的抽象艺术模式
B. 为视频和图像添加字幕信息
C. 从海量的卫星图片中寻找鲸鱼经常出没的位置
D. 在自动驾驶中为汽车找到没有障碍物的道路
E. 从10万张狗的图片中找到混入其中的1幅猫的图片

答案及解析:ABCDE

卷积神经网络被广泛应用在计算机视觉的各种任务中,包括图像分类、识别、检测、检索与分割等。

6. 对于图像分类问题,()模型预期表现最好?
A. 感知机或多层感知机
B. 支持向量机
C. 卷积神经网络
D. 循环神经网络

答案及解析: C

卷积神经网络(CNN), 是近年来最流行的深度模型之一,其最主要的原因是它在被广泛引用到计算机视觉任务时,具有较好的表现,甚至于在很多方面超过了人的能力。


【课堂互动三】 卷积神经网络的输入层@2.1-2.2

1. 在卷积神经网络中,通常在每个卷积层背后都会紧跟一个()。
A. 池化层
B. 全连连接层
C. 激活函数
D. Softmax分类层

答案及解析:C

卷积神经网络的主体结构由由卷积层(convolutional layer)、池化层(pooling layer)和全连接层(full connected layer)构成,在卷积层后通常都会紧跟一个激活函数。激活函数主要用来增加网络的非线性特性,从而提高模型的拟合能力。


2. 以下哪个结构是卷积神经网络CNN的最主要的结构组合?

A. 全连接层-激活层-池化层
B. 卷积层-激活层-池化层
C. 池化层-激活层
D. 卷积层-激活层-全连接层

答案及解析:B

基本的卷积神经网络由卷积层(convolutional layer)、池化层(pooling layer)和全连接层(full connected layer)构成,在卷积层后通常都会紧跟一个激活函数。CNN使用“卷积层-ReLU层-池化层”的组合替代了“全连接层-ReLU”的组合,这种组合带来了CNN的三个重要特性:权重共享局部感知子采样


3. 输入层作为神经网络的起点,通常使用()的形式进行输入。
A. 元组
B. 列表
C. 张量
D. 关系型数据

答案及解析:C

输入层可以理解为神经网络的起点,它按照样本的特性直接转换成张量形式进行输入,这个张量的格式通常为N,H,W,C


4. 灰度图因为只有一个颜色通道,因此一般使用三阶张量进行输入,即(批大小Batch_Size, 高度Height, 宽度Width)。
A. 正确
B. 错误

答案及解析:B

灰度图虽然只有一个颜色通道,但是依然是使用四维张量进行输入,此时的颜色通道值为1,即[N,H,W,1]。


5. 对于非结构型的序列化数据,例如简单的二维数据,卷积神经网络并不是特别擅长。
A. 对
B. 错

答案及解析:A

卷积神经网络的一个重要特性是局部共享,这主要依赖于CNN对结构化数据的建模,因此对于非结构性的序列数据,卷积神经网络并不是特别擅长。


【课堂互动四】 卷积神经网络的卷积层@2.3.1-2.3.3

1. (多选)卷积神经网络依靠卷积运算来生成特征图,它使卷积神经网络具有()的特性。
A. 局部感知
B. 尺度不变性
C. 权重共享
D. 旋转不变性

答案及解析:AC

卷积层(Convolutional Layer)是卷积网络的核心部分,它通过卷积运算生成特征图。它具有权重共享、局部感知等特性,并实现了逐层抽象的功能。


2. (多选)以下对于局部感知描述正确的项包括()。
A. 卷积操作只关注局部像素,但神经元与采样特征图所有的像素均相连。
B. 卷积操作只关注局部像素,神经元只与采样特征图局部区域的像素相连。
C. 局部连接保证了卷积核对局部特征的最强响应
D. 在同一层中,应用于不同特征图的卷积核的参数固定不变
E. 在同一层中,应用于不同特征图的卷积核具有不同的参数

答案及解析:BCE


3. (多选)以下对于权重共享描述正确的项包括()。
A. 权重共享只发生于同一通道,不同通道之间的权重不共享。
B. 权重共享发生于所有通道,不同通道之间的权重也是相同的。
C. 卷积核在划过整个图像时,每次划动都调整卷积核内部的参数。
D. 卷积核在划过整个图像时,每次划动卷积核的参数都是固定不变的。

答案及解析:AD

权值共享指卷积核在划过整个图像时,卷积核的参数是固定不变的。这种共享极大地减少了参数。但权重共享只发生于同一通道,不同通道之间的权重不共享。 偏置项b对同一层中所有通道的神经元都是共享。


4. 与全连接层不同,卷积层保持了样本的空间结构,在进行输入的时候不需要将样本转换为向量形式。
A. 对
B. 错

答案及解析:A


5. 在卷积神经网络中,对于第L层,若特征图的数量为n,则该层上的卷积核的个数为:()。
A. L
B. n
C. $n^2$
D. 无法确定

答案及解析:D

在卷积神经网络中,卷积核的深度与该层的特征图相同,在进行特征提取的时候,两个信号按照对应层进行点乘运算。但卷积核的个数是手工进行指定,与本层的所有参数值都无关。


6. 若某层及其下一层的特征图维度均为 60×60×10,卷积核的维度为3×3×10,则该层的参数个数为()(忽略偏置项)。
A. 36000
B. 90
C. 36000×90
D. 36000×36000
E. 90×90

答案及解析:B

卷积层大大减少了神经网络的参数个数,其数量等于卷积核的神经元个数×卷积核的深度。


7. (多选)卷积和池化运算使得特征图的尺度逐渐变小,这意味着()。
A. 层数越高,学到的特征就越具有全局化,高层语言越明显
B. 层数越高,学到的特征就越局部化,局部特征越明显
C. 层数越低,学到的特征就越具有全局化,高层语言越明显
D. 层数越低,学到的特征就越局部化,局部特征越明显

答案及解析:AD

在卷积神经网络中,低层的特征图尺度较大,因此卷积核无法覆盖整个样本,这使得卷积核无法提取到更具有全局化的特征,但因为更聚焦局部区域,因此对于局部特征的提取是比较优异的;相似的,高层的特征图尺度较小,同样尺度的卷积核所覆盖的样本范围更大,因此可以获得比较好的全局化特征,从而获得更具高层语义的信息,相对而言对于局部特征的提取就变弱了。为了较好地同时提取样本的全局特征和局部特征,组合不同层次的特征图是一个比较理想的方法。


8. 卷积运算是卷积层的核心,它对卷积核与特征图执行(),然后将计算结果按元素进行累加。
A. 外积运算
B. 内积运算
C. 加和运算
D. 求最大值运算

答案及解析:B

在卷积运算中,卷积核与特征图执行元素乘,然后执行累加。因此,卷积运算从本质上是卷积核向量与输入图像对应位置特征向量的内积。


9. (多选)卷积核的个数等于()。
A. 本层特征图的深度
B. 下一层特征图的深度
C. 下一层卷积层卷积核的深度
D. 下一层卷积核的个数

答案及解析:BC


【课堂互动五】 图像上的卷积操作@2.3.4

1. 由于灰度图像只有一个颜色通道,因此在使用卷积神经网络对灰度图进行特征提取和建模时,只能使用一个卷积核。
A. 对
B. 错

答案及解析:B

卷积核的个数与输入样本的维度没有直接关系,对于灰度图无论是输入端还是中间的隐层均可以设置多个卷积核,每个卷积核都会提取一种与其他卷积核不同的特征模式。


2. 试计算如下特征图和卷积核的计算结果。

Ch02ex01

A. 2
B. [[0,0,1],[0,0,0],[0,0,1]]
C. 1
D. [[0,1,1],[0,0,1],[0,0,1]]

答案及解析:A

卷积计算的原理是对应位置的元素积的加权和,即: $f[x,y]*g[x,y]=\sum^\infty_{n_1 = -\infty} \sum^\infty_{n_2 = -\infty} f[n_1, n_1] · g[x-n_1, y-n_2]$


3. 若对一个分辨率为100×100的RGB图像使用卷积神经网络(卷积核的高宽为3×3)进行特征提取,则第一个卷积层的卷积核的个数是多少?
A. 9
B. 10000
C. 3
D. 无法确定

答案及解析:D

某一层的卷积核的个数由程序员根据经验确定,其个数与下一层特征图的深度相同,同时也与下一层的卷积核的深度相同。


4. 在卷积神经网络的低层中,由于卷积核的尺度远小于输入样本(例如输入图像维度为1024×768×3,而卷积核维度为5×5×3,因此无法完全覆盖整个输入样本,这将会导致对样本特征提取时的信息损失。

A. 正确
B. 错误

答案及解析:B

在卷积层中,卷积核会从左到右,从上至进行Z字型的滑动,并遍历每一个局部位置,因此并不会因为输入样本和卷积核尺度的差异导致信息损失。


【课堂互动六】 卷积操作的细节改进 – 步长和填充@2.3.5-2.3.8

1. 在卷积和池化的应用下,卷积神经网络的特征图的尺度会随着层次的加深而逐渐变小。若想保持特征图的尺度始终不变,可以采用以下哪种技术?
A. 设置步长参数Stride
B. 设置填充参数Padding
C. 调整池化的类型(max|avg)
D. 调整卷积核的尺度filter_size

答案及解析:B

卷积神经网络的特征图尺度会随着层次的加深而逐渐变小,为了保持特征图的尺度不变,有两种办法可以实现。第一种方法是设置填充参数Padding,其值 P=(F-1)/2, F为卷积核的尺度。第二种方法是设置洞参数dilation,该方法被广泛应用在图像分割中。 严格说调整卷积核的尺度Filter_size也可以确保尺度不变,但是也只有1×1一种卷积核是特例,所以该选项并不是一种比较好的方法。


2. 设输入图像的维度为32×32×3,若存在1个尺度为5×5的卷积核,其步长stride=2,则卷积运算之后的特征图的深度为()。
A. 1
B. 3
C. 5
D. 32

答案及解析:A

输出特征图的深度等于上一层卷积核的个数。


3. 设特征图的尺度为224×224,若卷积核的尺度为5×5,步长stride=3,则卷积运算之后的特征图尺度为()。
A. 224
B. 74
C. 219
D. 73

答案及解析:B

输出尺度为: (特征图尺度N - 卷积核尺度F)/步长stride + 1 = (224-5)/3+1=74


4. 设特征图的尺度为227×227×10,若卷积核的尺度为3×3×10,步长stride=2,填充padding=1,则卷积运算之后的特征图尺度为()。
A. 227×227×10
B. 224×224×10
C. 114×114×10
D. 113×113×10

答案及解析:C

输出高宽尺度为: (特征图尺度N + 2填充尺度 - 卷积核尺度F)/步长stride + 1 = (227+2×1-3)/2+1=114,其深度尺度保持不变,因此最终尺度为114×114×10


5. 设特征图的尺度为32×32×10,若卷积核的尺度为4×4×10,步长stride=2,填充padding=2,则该层的参数个数是多少(忽略偏置项)。
A. 32×32×10×4×4×10=1638400
B. 4×4×10=160
C. (32+2×2-4)/2+1=17
D. ((4+2)×(4+2)+2×2)×10=400

答案及解析:B

在进行参数计算的时候,只需要考虑卷积核的维度,而不用考虑其移动的步长和填充。因此此处参数的个数为:卷积核的宽度×卷积核的高度×卷积核的深度=4×4×10=160。卷积操作后,特征图的维度为: (特征图尺度N + 2填充尺度 - 卷积核尺度F)/步长stride + 1 = (32+2×2-4)/2+1=17


6. 设特征图的尺度为48×48×32,若卷积核的尺度为1×1×32,步长stride=1,填充padding=0,则该层需要进行()次卷积运算。
A. 32
B. 48×48×32=73728
C. 48×48=2304
D. 1×1=1

答案及解析:C

1×1卷积和普通卷积具有相同的原理,在一确定层中,$卷积运算的次数=[(卷积特征图的尺度N-卷积核尺度F)/步长S+1]^2$,每次卷积预算都是一个32维的点乘运算。(1×1卷积一般不使用Padding)


7. (多选)下列有关卷积层说法正确的是()。
A. 卷积核必须是n×n的形式,即长宽相同
B. 卷积后得到的特征图可以和原图尺寸一致
C. 1×1卷积核常用来做降维,无法对原图提取特征
D. 在卷积层中可以加入激活函数

答案及解析:BD

A选项错误,卷积核可以是任意形态,只不过为了方便计算,习惯性使用正方形;当使用padding进行外围填充的时候,可以使原图和特征图具有相同的尺度;1×1卷积可以实现通道数量的减低,即降维,但同样也具有普通卷积层相同的功能——特征提取;卷积层+激活层是最标准的结构,并用来做特征提取。


【课堂互动七】 卷积神经网络的激活层和池化层@2.4-2.6

1. 在卷积神经网络中,激活层的主要功能是()。
A. 增加模型的非线性特性,从而提高模型的拟合能力,
B. 提高模型的训练速度
C. 增强模型的泛化能力
D. 以上都正确

答案及解析:A

在卷积神经网络中,所有的卷积运算和池化运算都是线性的,它们的叠加也依然是线性的,激活函数的增加打破了这种连续的线性叠加,使得模型可以去适应非常复杂的数据,从而提高模型的拟合能力。


2. (多选)以下对池化层描述正确的包括()。
A. 池化层能够成倍地减少计算量
B. 增加池化层不需要增加参数
C. 池化层可以增加模型非线性特性,从而提高模型的拟合能力
D. 池化层可以为模型增加平移不变性的特性

答案及解析:AB

无论是最大池化还是均值池化,都可以显著地减少模型的尺度,从而减少模型的计算量。随着网络的加深,池化一级一级地减小了特征图的尺度,这使得卷积核可以提取到更多全局特征和轮廓特征。值得注意的是,池化始终特殊的“卷积核”它的计算规则主要包括求平均值(均值池化)和求最大值(最大池化),这两种操作都不需要额外的参数,因此池化层的增加不但不增加参数的数量还可以有效地减少参数的数量。


3. 给定一个3×3的矩阵A=[[2,2,2],[2,2,2],[2,2,2]],若存在一个2×2的mean-pooling核,其步长stride=1,则经过池化后的输出结果正确的一项是()。
A. [[1,1,1],[1,1,1],[1,1,1]]
B. [[2,2],[2,2]]
C. [[1,1],[1,1]]
D. [[1]]

答案及解析:B

进行mean-pooling计算的时候,需要将pooling所覆盖范围内的所有元素进行求和再进行平均,此处(以左上角为例)=(2+2+2+2)/4=2。由于stride=1因此,mean-pooling总共扫过了4个区域,其计算结果都为2,所以最终的结果为一个2×2的矩阵,并且每个元素的值都为2.


4. 给定一个3×3的矩阵A=[[1,2,3],[2,3,4],[3,4,5]],若存在一个2×2的max-pooling核,其步长stride=1,则经过池化后的输出结果正确的一项是()。
A. [[1,2,3],[2,3,4],[3,4,5]]
B. [[2,3],[3,4]]
C. [[3,4],[4,5]]
D. [[5]]

答案及解析:C

进行max-pooling计算的时候,是将pooling所覆盖范围内的所有元素求最大值作为最终的输出,此处因为pooling核心是2×2的,步长为2,所以最终会扫过4个不同的区域,分别对这4个区域求最大值,可以获得最终的结果 [[3,4],[4,5]]。
选项B是使用mean-pooling获得的结果


5. 若存在一个117×117的特征图,后面紧跟一个步长为2,尺度为3×3的池化核。试求经过池化层后,特征图新的维度是多少?
A. 117
B. 114
C. 58
D. 57

答案及解析:C

根据尺度计算公式,输出层的尺度 = (输入层的尺度-池化核的尺度)/步长 + 1 = (117-3)/2+1 = 58


6. (多选)在卷积神经网络中,我们依然会在网络的最后部分增加1-2个全连接层,其主要目的是()。
A. 进一步减少参数的数量
B. 打破卷积特征的空间限制,从而减少位置固化对分类带来的定势思维的影响。
C. 提高模型对全局信息的获取能力,使所有的元素对最后的分类都具有贡献。
D. 加速模型的训练速度

答案及解析:BC

全连接层相比卷积层会大大增加参数的数量,从而提高系统资源的消耗,也会降低模型的训练。但是仅仅只使用卷积和池化,会使模型对全局信息的掌控出现一定的缺失,还会让模型对空间位置过于依赖,导致模型对物体所处的空间位置产生过度拟合问题。


7. 观察下图给出的网络拓扑结构图,试计算Conv3在执行均值池化后的特征图的维度。

Ch02ex01

A. 64
B. 21
C. 2
D. 1

答案及解析: D


8. 池化层最主要的作用是()。
A. 压缩图像
B. 提取图像特征
C. 将多维数据一维化
D. 连接卷积层与全连接层

答案及解析:A

池化层没有训练参数,通常通过求平均值或求最大值来获得输出值,这种方法会丢失一定的局部信息。但是对于分类任务来说,这种信息损失并不影响最终的识别结果,同时还可以减少参数,实现图像尺度的压缩。


【课堂互动八】 损失与误差的反向传播@2.7.1

1. 为了方便获得分类结果,经常会在CNN的末尾添加一个全连接层,并且让全连接层的神经元数量等于该任务的类别数。
A. 正确
B. 错误

答案及解析:A

一般来说,对于分类任务最终的输出都是样本针对每一个类别的概率值,其中概率最大的一个类别为最终的分类结果。基于这样的目的,以向量形式存在的全连接层非常有利于这种格式得分的输出。因此,一般基于卷积神经网络的最后一层都会有一个和分类类别数一样多的神经元所构成的全连接层。


2. 在基于卷积神经网络的分类模型的最后的输出部分,用来衡量输出的预测结果$\hat{y}$和真实的标签$y$之间距离的是()。
A. Softmax函数
B. 交叉熵函数
C. 全连接层
D. 池化层

答案及解析:B

在基于卷积神经网络的分类模型的最后的输出部分一般包含三个结构:全连接层、Softmax概率归一化函数、交叉熵函数。


3. 在卷积神经网络中,我们通常使用的带动量的梯度下降算法主要属于下列的哪一种?
A. 批量梯度下降,每次迭代所有样本
B. 真随机梯度下降,每次仅迭代一个样本
C. 小批量梯度下降,每次迭代batch-size个样本
D. 以上均属于常用梯度下降算法

答案及解析:C

梯度下降算法主要有以下三种:


4. 在包括卷神经网络在内的所有前馈神经网络中,对参数的优化主要发生在以下哪个步骤中?
A. 前向传输
B. 反向传输
C. 同时发生于前向传输和反向传输
D. 前向传输和反向传输均不对参数进行优化

答案及解析:B

神经网络的优化主要来源于反向传播算法,即BP算法,该算法主要发生在反向传输的过程中。而前向传输主要用来计算预测值,并提供给损失函数用于计算真实值和预测值之间的距离。


5. 对于一个卷积神经网络模型,规定它的输入为32×32的RGB,输入张量形状为[16,3,32,32], 这里16表示()。
A. batch_size
B. channel
C. height
D. epoch

答案及解析:A

在使用卷积神经网络进行图像处理时,通常使用4维张量进行样本处理。其中,16表示批次的大小,3为色彩通道,32表示高和宽。


6. 以下算法中,属于常见的优化算法的是()。
A. SGD
B. Adam
C. Xgboost
D. Momentum

答案及解析:ABD

选项ABD都是常见的梯度优化算法。C选项,XGBoost(eXtreme Gradient Boosting)极致梯度提升,是一种基于GBDT的算法或者说工程实现。简单的说,它是一种基于boosting集成思想的决策树算法。


【课堂互动九】 模型的泛化@2.7.2

1. (多选)模型的泛化能力是指学习算法(模型)对()样本的适应能力。
A. 训练集
B. 测试集
C. 验证集
D. 未知样本

答案及解析:BD

泛化能力指学习算法(模型)对未知样本的适应能力。在实际的应用中,测试集数据通常应该是未知的,因此通常我们说泛化能力也可以指模型对于测试集样本的适应能力。但是,严格意义上说,那些真正未知的样本才更能体现模型的泛化能力,因此,我们在设计测试集样本的时候,要保证测试集不能出现在模型训练的任何一个阶段。同时,也要尽量避免反复使用测试集来修正模型。


2. 当欠拟合和过拟合都是模型泛化能力不足时可能出现的问题,下图中哪一个图表示的是模型过拟合问题?

Ch04ex03

A. 左图
B. 中图
C. 右图
D. 以上都不是

答案及解析:C


3. 以下描述的问题,哪一个是过拟合的表现?()

A. 训练集和测试集的性能都较低
B. 训练集性能较低,测试集性能较高
C. 训练集性能较高,测试集性能较低
D. 训练集和测试集的性能都较高

答案及解析:C

A是典型的欠拟合问题,即模型的表达能力不足,一般体现在传统机器学习算法中 B是一种错误,在正常训练中很少出现 C是过拟合问题,一般出现在深度学习的模型中 D是理想状态


4. 对于下列泛化能力不足的问题,哪一项是深度学习的典型问题?()

A. 过拟合
B. 欠拟合
C. 以上都是
D. 以上都不是

答案及解析:A

深度学习由于其较强的学习(拟合)能力,通常能较好地学习到训练集数据的特征,因此容易出现过拟合问题。


5. (多选)以下哪些方式,可以有效地缓解过拟合问题?

A. 早期停止法(Early-stopping)
B. 权重正则化(Weight Normlization)
C. 数据增广(Data Augumentation)
D. 随机丢弃Dropout

答案及解析:ABCD