偃师建设局网站,手机网站关键词优化软件,网站改了标题会怎么样,什么软件可以做动画深度学习基本理论下篇#xff1a;#xff08;梯度下降/卷积/池化/归一化/AlexNet/归一化/Dropout/卷积核#xff09; 深度学习基本理论下篇#xff1a;#xff08;梯度下降/卷积/池化/归一化/AlexNet/归一化/Dropout/卷积核#xff09;、深度学习面试_会害羞的杨卓越的博…深度学习基本理论下篇梯度下降/卷积/池化/归一化/AlexNet/归一化/Dropout/卷积核 深度学习基本理论下篇梯度下降/卷积/池化/归一化/AlexNet/归一化/Dropout/卷积核、深度学习面试_会害羞的杨卓越的博客-CSDN博客 1、MLP、FCN、DNN三者的关系
多层感知器MLP全连接网络DNN三者的关系三者是不是同一个概念 FCNFully Connected Neural Network全连接神经网络也称为密集连接神经网络其每个节点都与上一层的所有节点相连也就是说每个神经元都和上一层所有的神经元都有连接是最简单的神经网络结构它不一定要求有隐藏层。MLPMulti-Layer Perceptron多层感知器也称多层感知机是一种特殊的全连接神经网络它由输入层、若干个隐藏层和输出层组成。每个神经元都与上一层的所有神经元相连。DNNDeep Neural Network深度神经网络是指具有多层神经元的神经网络。
因此MLP属于DNNFCN有时候属于DNN有时候不属于DNN。但DNN也包括许多其他的深度网络比如深度卷积网络等。
因此MLP和FCN之间的主要区别在于隐藏层的存在。MLP通过添加多个隐藏层可以提高网络的表示能力从而能够更好地解决复杂的分类和回归问题而FCN有时候可能只有输入层和输出层。
2、 什么是前馈神经网络
前馈神经网络feedforward neural network又称多层感知机multilayer perceptronMLP是典型的深度学习模型。它是一种单向多层结构其中每一层包含若干个神经元。在此种神经网络中各神经元可以接收前一层神经元的信号并产生输出到下一层。第0层叫输入层最后一层叫输出层其他中间层叫做隐含层或隐藏层、隐层隐含层可以是一层也可以是多层。整个网络中无反馈信号从输入层向输出层单向传播可用一个有向无环图表示。 前馈神经网络使用数学公式可以表示为 其中f(1)被称为网络的 第一层first layerf(2)被称为 第二层second layer以此类推。链的全长称为模型的深度depth。
3、深度学习有什么优缺点
1优点
性能更优异不需要特征工程在大数据样本下有更好的性能能解决某些传统机器学习无法解决的问题
2缺点
小数据样本下性能不如机器学习模型复杂过程不可解释
4、什么是激活函数为什么要使用激活函数
激活函数activation function指神经网络中将输入信号的总和转换为输出信号的函数激活函数将多层感知机输出转换为非线性使得神经网络可以任意逼近任何非线性函数这样神经网络就可以应用到众多的非线性模型中。
神经网络中如果不加入激活函数那么每一层的输入输出都是函数均是线性的网络的逼近能力有限于是就引入非线性函数作为激活函数使网络的表达能力更强。
激活函数是向神经网络中引入非线性因素通过激活函数神经网络就可以拟合各种曲线
5、神经网络中常用的激活函数有哪些各自有什么特点
1sigmoid ① 定义sigmoid函数也叫Logistic函数用于隐层神经元输出能将$(-\infty,\infty)$的数值映射到(0,1)的区间可以用来做二分类。表达式为 ② 特点 优点平滑、易于求导 缺点激活函数计算量大反向传播求误差梯度时求导涉及除法反向传播时很容易就会出现梯度消失
2tanh
① 定义双曲正切函数表达式为 ② 特点 优点平滑、易于求导输出均值为0收敛速度要比sigmoid快从而可以减少迭代次数 缺点很容易就会出现梯度消失
3relu
① 定义修正线性单元其表达式为 ② 特点 优点计算过程简单避免了梯度爆炸和梯度消失问题 缺点小于等于0时无输出
6. 什么是softmax函数其主要作用是什么 1定义Softmax函数可以将多分类的输出数值转化为相对概率而这些值的累和为1。表达式为 其中$V_i$ 是分类器前级输出单元的输出。i 表示类别索引总的类别个数为 C。$S_i$表示的是当前元素的指数与所有元素指数和的比值。
2作用softmax一般用于分类输出层计算属于每个类别的概率。
也经常用于计算Attention
7、什么是损失函数损失函数的作用是什么
损失函数Loss Function也有称之为代价函数Cost Function用来度量预测值和实际值之间的差异从而作为模型性能参考依据。损失函数值越小说明预测输出和实际结果也称期望输出之间的差值就越小也就说明我们构建的模型越好反之说明模型越差。
8. 什么是交叉熵其作用是什么
交叉熵Cross Entropy主要用于度量两个概率分布间的差异性信息在机器学习中用来作为分类问题的损失函数。当预测概率越接近真实概率该函数值越小反之越大。
9. 解释什么是梯度
梯度是损失函数关于模型参数的偏导数向量它告诉我们如何调整模型参数以减小损失函数的值从而优化模型。
梯度是一个向量这个向量是一个函数f(loss,w)对w求偏导的值组成的向量就是梯度。这个函数描述是模型参数和损失值之间的函数。
梯度gradient是一个向量表示某一函数在该点处的方向导数沿着该方向取得最大值即函数该点处沿着该方向此梯度的方向变化最快变化率最大。
10. 什么是梯度下降
梯度下降就是调整模型参数以减少损失的过程。
梯度下降是一个最优化算法常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型核心思想是按照梯度相反的方向不停地调整函数权值。其步骤为 1求损失函数值 2损失是否足够小如果不是计算损失函数的梯度 3按梯度的反方向走一小步调整权重$w_i w_i \delta w_i$ 4循环到第2步迭代执行
11. 激活函数出现梯度消失会有什么后果
梯度消失Gradient Vanishing是指在神经网络的训练过程中反向传播算法计算梯度时网络的较深层深度权重更新的梯度趋近于零导致这些层的参数很少或根本没有更新从而使得网络难以学习或收敛到一个合适的模型。
机器学习中如果模型的优化依赖于梯度下降梯度消失会导致模型无法进一步进行优化。
12. 如何解决梯度消失问题
1更换激活函数如更换为relu, leakrelu 2批量规范化处理通过规范化操作将输出信号x规范化到均值为0方差为1保证网络的稳定性 3使用残差结构通过引入残差结构能有效避免梯度消失问题
13. 什么是梯度爆炸如何解决梯度爆炸问题
1梯度爆炸。梯度消失是在计算中出现了梯度过小的值梯度爆炸则相反梯度计算出现了过大的值。梯度过大可能使参数更新幅度过大超出了合理范围。 2解决梯度爆炸的方法 梯度裁剪把沿梯度下降方向的步长限制在一个范围之内计算出来的梯度的步长的范数大于这个阈值的话就以这个范数为基准做归一化使这个新的的梯度的范数等于这个阈值权重正则化通过正则化可以部分限制梯度爆炸的发生
14. 什么是批量梯度下降、随机梯度下降分别有何特点
1批量梯度下降 ① 定义批量梯度下降Batch Gradient DescentBGD是指在每一次迭代时使用所有样本来进行梯度的更新 ② 特点 优点收敛比较稳定 缺点当样本数目很大时每迭代一步都需要对所有样本计算训练过程会很慢 2随机梯度下降 ① 定义随机梯度下降法Stochastic Gradient DescentSGD每次迭代使用一个样本来对参数进行更新使得训练速度加快 ② 特点 优点计算量小每一轮训练更新速度快 缺点收敛不稳定
15. 什么是学习率作用是什么
在梯度下降法中都是给定的统一的学习率整个优化过程中都以确定的步长进行更新 在迭代优化的前期中学习率较大则前进的步长就会较长这时便能以较快的速度进行梯度下降而在迭代优化的后期逐步减小学习率的值减小步长这样将有助于算法的收敛更容易接近最优解。
16. 学习率过大或过小会导致什么问题
学习率过大可能导致模型无法收敛过小导致收敛速度过慢
17、什么是反向传播算法为什么要使用反向传播算法
1定义 反向传播Backpropagation algorithm全称“误差反向传播”是在深度神经网络中根据输出层输出值来反向调整隐藏层权重的一种方法 2对于多个隐藏层的神经网络输出层可以直接求出误差来更新参数但隐藏层的误差是不存在的因此不能对它直接应用梯度下降而是先将误差反向传播至隐藏层然后再应用梯度下降
深度学习基本理论下篇梯度下降/卷积/池化/归一化/AlexNet/归一化/Dropout/卷积核 深度学习基本理论下篇梯度下降/卷积/池化/归一化/AlexNet/归一化/Dropout/卷积核、深度学习面试_会害羞的杨卓越的博客-CSDN博客