计算机视觉算法工程师常见面试问题1
反卷积也称为转置卷积。如果卷积运算是通过矩阵乘法实现的,卷积核平铺成一个矩阵,那么转置卷积在正向计算中左乘这个矩阵的转置WT,在反向传播中左乘w,这正好与卷积运算相反。需要注意的是,反卷积不是卷积的逆运算。
【知乎问题+caffe实现】
实现上采样;输入图像的近似重建,卷积层可视化。
只要激活函数选择得当,神经元数目足够多,至少有一个隐层的神经网络就能以任意指定的精度逼近闭区间内的任意连续函数。
判别模型,直接输出类别标签,或者输出后验概率p(y|x)
[ /question/268906476]
[ /p/40024110]
[/p/159189617]
BN在批的维度上归一化,GN是每组在通道方向上的均值方差。
检测结果和地面真实值的交集高于它们的并集,这就是检测精度IoU。
内存/视频内存占用;模型收敛速度等
Hessian矩阵是n*n,在高维情况下非常大,计算和存储都是问题。
mini-batch过小会导致收敛缓慢,过大容易陷入尖锐极小,泛化能力不好。
你可以把辍学看作是一种合奏方法。每退完一次学,就相当于从原来的网络里找了一个更薄的网络。
汇集操作可以增加感受野,但会丢失一些信息。孔洞卷积在卷积核中插入一个权重为0的值,所以每次卷积都会跳过一些像素;
洞卷积增加了卷积输出各点的感受野,与池化不同,它会丢失信息,因此在图像需要全局信息或长序列相关语音序列的问题中有着广泛的应用。
表达式是:
之所以使用BN,是因为网络训练中各层参数的变化会导致后续各层输入的分布发生变化,学习过程会使各层适应输入的分布,因此网络的学习速率不得不降低,内部协变移位必须谨慎进行。
如果仅通过归一化方法,数据具有零均值和单位方差,则层的表达能力会降低(例如,使用Sigmoid函数时,只会使用线性区域)。
BN的具体过程(注意第三个公式中的分母要加ε)
最好的解释是多个通道用1 * 1卷积核能量解耦,跨通道相关和空间相关解耦。
但由于解耦不彻底,沿用了移动网和洗牌网的群卷积模式。
由于1×1不会改变高度和宽度,所以改变通道的第一个也是最直观的结果就是可以增加或减少原有的数据量。改变的只是通道在高×宽×通道的维度大小。
1*1的卷积核可以在保持特征图尺度不变(即不损失分辨率)的前提下,大大增加非线性特征(使用下面的非线性激活函数),使网络很深。
备注:卷积一个滤波器得到一个特征图,卷积不同的滤波器(不同的权重和偏倚)得到不同的特征图,提取不同的特征得到对应的特化神经元。
例:利用1x1的卷积核,降维和增维的运算实际上是通道间信息的线性组合变化。在3x3,64通道的卷积核后加一个1x1,28通道的卷积核,就成了3x3,28通道的卷积核,原来的64通道就可以理解了。
注:通道维度只做线性组合,带* * *权重的滑动窗口在W和h上。
并不代表这个模型无效,模型不收敛的原因可能有以下几点。
A.在实际场景中,应尽量使用ADAM,避免使用SGD。
B.在相同的初始学习速率下,ADAM的收敛速度总是快于SGD方法。
c在参数个数相同的情况下,SGD加手动调整通常会取得比自适应学习率调整更好的效果。
D.在相同的初始学习速率下,ADAM比SGD更容易过拟合。
A.保证每层感受野不变,网络深度加深,使网络更加精确。
b、各层感受野扩大,学习小特征的能力增加。
c、有效提取高层语义信息,处理高层语义,从而有效提高网络的准确率。
d .利用该结构有效降低了网络的权重。
A.简单计算
B.非线性
C.带饱和区
D.几乎到处都是
Relu函数在0处不可微。
A.Adam的收敛速度比RMSprop慢。
B.与SGD或RMSprop等优化器相比,Adam的收敛效果最好。
C.对于轻量级神经网络,Adam比RMSprop更适合。
D.与Adam或RMSprop等优化器相比,SGD的收敛效果最好。
SGD通常训练时间较长,容易陷入鞍点,但在初始化和学习率调度方案较好的情况下,结果更可靠。如果关心更快的收敛,需要训练更深更复杂的网络,建议使用学习率自适应优化方法。
A.使用ReLU作为激活函数可以有效防止梯度爆炸。
B.使用Sigmoid作为激活函数,梯度很容易消失。
c使用批量归一化层可以有效防止渐变爆炸。
D.使用参数权重衰减可以在一定程度上防止模型过拟合。
对结果的怀疑。认为两者都是可以预防的。
A.签名于
B.FTRL
C.RMSProp
D.左旋BFGS
BFGS(有限记忆BFGS)方法:
所有数据都将参与训练,算法融合了方差归一化和均值归一化。用大数据集训练DNN时,容易出现参数过多的情况(牛顿法的进化版,寻找更好的优化方向,减少迭代轮次)。从LBFGS算法的流程来看,它的整个核心是如何快速计算一个Hesse近似:第一点是近似,所以在LBFGS算法中有一个使用前m个近似下降方向的迭代计算过程;第二点速度快,体现在不需要保存Hesse矩阵,只需要使用一个保存的一阶导数序列就可以完成,所以不需要大量的存储,从而节省了计算资源;第三,在推导过程中利用秩二修正构造正定矩阵。即使这个矩阵不是最优下降方向,至少也能保证函数下降。
FTRL(follow-the-regulated-leader)是一种常用的在线学习优化算法,具有大量稀疏特征,方便、实用、有效,常用于在线更新CTR预测模型。FTRL在处理带有非光滑正则项(如L1正则化)的凸优化问题时表现非常出色。它不仅可以通过L1正则化控制模型的稀疏性,而且收敛速度快。
A.LSTM在一定程度上解决了传统RNN的梯度消失或梯度爆炸问题。
B.CNN相比全连接的一个优点是模型复杂度低,缓解了过拟合。
C.只要参数设置合理,深度学习的效果至少应该比随机算法好。
D.随机梯度下降法可以缓解网络训练时陷入鞍点的问题。
事实上,有许多针对小目标的措施和改进,具体如下:
最常见的方法是将图像的尺寸从上采样输入到Rezie网络;
使用特殊卷积,如expanded/astros,以提高检测器对分辨率的灵敏度。(洞卷积是一种卷积思想,认为下采样会降低图像分辨率,丢失图像语义分割中的信息。通过增加孔洞来扩大感受野,使原来的3×3卷积核在相同的参数量和计算量下有5×5(稀释率= 2)或更大的感受野,无需下采样。在保持参数个数不变的情况下,卷积核的感受野增大)
浅深特征图上有相对直接的预测,也就是我们常说的尺度问题。
使用FPN,它结合了浅层特征和深层特征,或者使用浅层特征和深层特征一起预测到最后;
snip(图像金字塔的比例归一化)的主要思想:
当训练和反向传播更新参数时,只考虑那些在指定尺度范围内的目标,因此提出了一种特殊的多尺度训练方法。