最新优化算法
⑴ 多目标优化算法
多目标优化算法如下:
一、多目标进化算法(MOEA)
1、MOEA通过对种群X(t)执行选择、交叉和变异等操作产生下一代种群X(t+1)。
2、在每一代进化过程中 ,首先将种群X(t)中的所有非劣解个体都复制到外部集A(t)中。
2、智能优化算法:包括进化算法(简称EA)、粒子群算法(简称PSO)等。
两者的区别:传统优化技术一般每次能得到Pareo解集中的一个,而用智能算法来求解,可以得到更多的Pareto解,这些解构成了一个最优解集,称为Pareto最优解(任一个目标函数值的提高都必须以牺牲其他目标函数值为代价的解集)。
⑵ 本源量子联合中科大在量子近似优化算法研究中取得新进展
近日,本源量子联合中科大研究团队在量子近似优化算法(Quantum Approximate Optimization Algorithm,后称“QAOA”)的研究中取得最新进展。该研究证明了S-QAOA算法(Shortcuts to Quantum Approximate Optimization Algorithm,后称“S-QAOA”)是利用现阶段的含噪声量子计算机求解组合优化问题的理想选择,进一步推进了量子计算在组合优化问题上的应用。
什么是组合优化问题?以着名的旅行商问题(TSP)为例,假设有一个旅行商人要拜访n个城市,他必须选择所要走的路径,路径的限制是每个城市只能拜访一次,而且最后要回到原来出发的城市。路径的选择目标是要求得的路径长度为所有路径之中的最小值。这就是一个典型的组合优化问题。
从广义上讲,组合优化问题是涉及从有限的一组对象中找到“最佳”对象的问题。“最佳”是通过给定的评估函数来测量的,该函数将对象映射到某个分数或者成本,目标是找到最高评估分数和最低成本的对象。组合优化往往涉及排序、分类、筛选等问题。
组合优化问题在现实生活中具有广泛的应用,比如交通、物流、调度、金融等领域的许多问题都是组合优化问题。并且很多组合优化问题对应的经典算法都有较高的复杂度,在问题规模较大时,经典计算机难以快速地找到这些问题的最优解。因此,利用量子计算加速组合优化问题的求解具有重要的意义。
在含噪声的中等规模(NISQ)的量子时代,可靠的量子操作数会受到量子噪声的限制(目前量子噪声包括量子退相干、旋转误差等)。因此,人们对量子-经典混合算法很感兴趣,这类混合算法可以借助经典优化器来优化量子线路中的参数,从而选择最优的演化路径,以降低量子线路深度。比较着名的一类量子-经典混合算法就是量子近似优化算法(QAOA),它有望为组合优化问题的近似解的求解带来指数级的加速。
研究人员表示,理论上,如果量子线路足够深,QAOA可以得到较好的近似解。但由于量子噪声引起的误差会随着量子线路深度的增加而累积,当量子线路深度较大时,QAOA的性能实际上会下降。因此,在当前的量子计算机上展现QAOA算法的优势是一项具有挑战性的任务,降低QAOA算法的线路深度对于在现阶段的量子计算机上展现QAOA算法的优势具有重要意义。
为了减少量子电路的深度,研究人员提出了一种新的思路,称为“Shortcuts to QAOA”:(S-QAOA)。首先,在S-QAOA中考虑了额外的两体相互作用,在量子电路中加入与YY相互作用相关的双门以补偿非绝热效应,从而加速量子退火过程,加速QAOA的优化;其次,释放了两体相互作用(包括ZZ相互作用和YY相互作用)的参数自由度,增强量子电路的表示能力,从而降低量子线路的深度。数值模拟结果表明,与QAOA相比,S-QAOA在量子线路更浅的情况下可以获得较好的结果。
研究人员通过引入更多的两体相互作用和释放参数自由度来改进QAOA算法,降低QAOA算法需要的线路深度,使得QAOA算法更适合现阶段的含噪声的量子计算机。由于该算法利用了STA(Shortcuts to adiabaticity)的原理,因此研究人员将其称为“Shortcuts to QAOA”。
本源量子研究人员表示:“在S-QAOA中,参数自由度的释放是通过对梯度较大的参数进行进一步的优化,但是是否有更好的方式挑选出最重要的参数做优化,还是值得 探索 和研究的一个方向。我们将在下一步的工作中研究更多的案例,以验证和完善我们的想法。我们希望我们的方法可以为尽早实现量子优越性提供新的方法和思路。”
⑶ 优化算法笔记(十八)灰狼算法
(以下描述,均不是学术用语,仅供大家快乐的阅读)
灰狼算法(Grey Wolf Algorithm)是受灰狼群体捕猎行为启发而提出的算法。算法提出于2013年,仍是一个较新的算法。目前为止(2020)与之相关的论文也比较多,但多为算法的应用,应该仍有研究和改进的余地。
灰狼算法中,每只灰狼的位置代表了解空间中的一个可行解。群体中,占据最好位置的三只灰狼为狼王及其左右护法(卫)。在捕猎过程中这三只狼将带领着狼群蛇皮走位,抓捕猎物,直至找到猎物(最优解)。当然狼王不会一直是狼王,左右护法也是一样,每一轮走位后,会根据位置的优劣重新选出新的狼王和左右护法。狼群中的每一只灰狼会向着(也可能背向)这三只位置最优的灰狼移动一定的距离,来决定这一步自己将如何走位。简单来说, 灰狼个体会向则群体中最优的三个个体移动 。
很明显该算法的主角就是灰狼了。
设定目标灰狼为
,当前灰狼的为 ,则该灰狼向着目标灰狼移动后的位置 可以由一下公式计算得出:
灰狼群体中位置最好的三只灰狼编号为1,2,3,那么当前的灰狼i通过观察灰狼1、灰狼2和灰狼3,根据公式(1)得出的三个位置为Xi1,Xi2,Xi3。那么灰狼i将要移动到的位置可以根据以下供述计算得出:
可以看出该灰狼的目标位置是通过观察三只头狼得到的三个目标位置的所围成的区域的质心。(质心超出边界时,取值为边界值)。
灰狼算法的论文描述很多,但是其公式和流程都非常简单,主要对其参数A和C的作用效果进行了详细描述。
C主要决定了新位置相对于目标灰狼的方位,而A则决定新位置向目标靠近还是远离目标灰狼。当|A|>=1时,为远离目标,表现出更强的全局搜索能力,|A|<1时靠近目标,表现出更强的局部搜索能力。
适应度函数 。
实验一:
看看这图像和结果,效果好极了。每当我这么认为时,总会出现意想不到的转折。
修改一下最优解位置试一试, 。
实验二 : 。
其结果比上面的实验差了不少,但我觉得这才是一个优化算法应有的搜索图像。其结果看上去较差只是因为迭代次数较少,收敛不够迅速,这既是优点也是缺点,收敛慢但是搜索更细致。
仔细分析灰狼算法的流程,它并没有向原点靠近的趋势,那只能理解为算法群体总体上向着群体的中心移动。 猜想 :当初始化群体的中心恰好是正解时,算法的结果将会非常的好。
下面使用 ,并将灰狼的初始位置限定在(50,100)的范围内,看看实验图像是否和实验二的图像一致。
实验三 . ,初始种群取值范围为(50,100)
这图像和结果跟实验一的不是一样的吗?这说明从实验二中得出的猜想是错误的。
从图像和结果上看,都和实验二非常相似,当解在解空间的中心时但不在原点时,算法的结果将差一些。
为什么会这样呢?从算法的流程上看,灰狼算法的各个行为都是关于头狼对称的,当最优解在原点且头狼在附近时,公式(1)将变为如下:
实验五 . ,三只头狼添加贪心算法。
从图像可以看出中心的三个点移动的频率要比其他点的移动频率低。从结果上可以看出其结果相对稳定了不少,不过差距非常的小,几乎可以认为是运气好所导致。如果所有的个体都添加贪心算法呢?显然,算法的全局搜索能力将进一步减弱,并且更容易向群体中心收敛,这并不是一个好的操作。
实验六 . ,
在实验五的基础上为狼群添加一个统一的步长,即每只狼每次向着目标狼移动的距离不能大于其步长,将其最大步长设为1,看看效果。
从图像可以看出,受到步长的约束每只狼的移动距离较小,在结束时还没有收敛,其搜索能力较强但收敛速度过慢且极易陷入局部最优。现在将最大步长设置为10(1/10解空间范围)使其搜索能力和收敛速度相对平衡,在看看效果。
从图像可以看出,算法的收敛速度快了不少,但从结果可知,相较于实验五,算法的提升并不太大。
不过这个图像有一种似曾相识的感觉,与萤火虫算法(FireFly Algorithm)差不多,仔细对比这两个算法可以发现, 灰狼算法相当于萤火虫算法的一个简化 。实验六种对灰狼算法添加步长的修改,让其离萤火虫算法更近了一步。
实验七 . ,
在实验六的基础上让最大步长随着迭代次数增加递减。
从实验七的图像可以看出,种群的收敛速度好像快了那么一点,结果也变好了不少。但是和改进后的萤火虫算法相比仍然有一定的差距。
灰狼算法在全局搜索和局部搜索上的平衡已经比较好了,尝试过对其进行改进,但是修改使搜索能力更强时,对于局部最优的函数求解效果很差,反之结果的精度较低,总体而言修改后的算法与原算法相差无几。
灰狼算法是根据灰狼群体的捕猎行动而提出的优化算法,其算法流程和步骤非常简单,数学模型也非常的优美。灰狼算法由于没有贪心算法,使得其有着较强的全局搜索能力同时参数A也控制了算法的局部搜索范围,算法的全局搜索能力和局部搜索能力比较平衡。
从算法的优化图像可以看出,灰狼算法和萤火虫算法非常的相似。可以认为,灰狼算法是对萤火虫算法的一种改进。萤火虫算法向着由于自己的个体飞行,而灰狼算法则的条件更为苛刻,向着群体前三强前进,萤火虫算法通过步长控制搜索范围,而灰狼算法则直接定义搜索范围参数A,并令A线性递减。
灰狼算法的结构简单,但也不容易改进,数次改进后只是改变了全局搜索能力和局部搜索能力的比例,综合能力并没有太大变化。
由于原点对于灰狼算法有着隐隐的吸引力,当测试函数目标值在原点时,其结果会异常的好。因此,灰狼算法的实际效果没有论文中的那么好,但也不差,算是一个中规中矩的优化算法。
参考文献
Mirjalili S , Mirjalili S M , Lewis A . Grey Wolf Optimizer[J]. Advances in Engineering Software, 2014, 69:46-61. 提取码:wpff
以下指标纯属个人yy,仅供参考
目录
上一篇 优化算法笔记(十七)万有引力算法
下一篇 优化算法笔记(十九)头脑风暴算法
优化算法matlab实现(十八)灰狼算法matlab实现
⑷ 优化算法笔记(三十四)鸽群算法
(以下描述,均不是学术用语,仅供大家快乐的阅读)
鸽群算法是根据鸽子依据磁场而拥有高超识途技巧提出的优化算法。算法提出于2014年(到底是08年还是14年?引用显示08),也算有些年头了。这也是一个由中国研究者提出的优化算法,可喜可贺。
鸽群算法中的个体和粒子群算法中的粒子结构类似,都由位置和速度组成。在鸽群算法中,鸽子的飞行行为根据迭代次数分为了两个阶段。简单来说,阶段一向着当前最优位置飞行,阶段二向着自身周围飞行。下面将详细描述其飞行步骤
本次的主角就是鸽子了。
鸽群中鸽子数量为N,每只鸽子的位置为 ,速度为 ,该位置的优劣由其适应度函数 计算得出。
在鸽群算法中,鸽子的行为依照迭代次数划分为两个阶段,阶段1占整个迭代次数的比例为NcRate,一般的NcRate取值为0.75。
迭代次数在 代内为阶段1。
在阶段1中,需要根据鸽子的位置与目标,计算出鸽子的速度。当前位置加上速度就得到了新的位置。
阶段2为迭代次数大于 的部分。
阶段2相对复杂,首先需要对群体进行排序,将群体均分为两组,较优的那组保持位置不变,同时提供其位置、适应度值作为参数,供较差的那组确定它们的新位置所在。
公式(3)求出了较优的那部分鸽子的重心所在,公式(4)则是让较差的部分鸽子向着较优部分鸽子的重心随机飞行了一段距离。
文章没有说明鸽群算法是否需要使用贪心算法,下面会各自进行一次实验看看效果。
适应度函数 。
实验一 : 无贪心步骤
从图像可以看出,算法的收敛速度和精度都不错。但是可以明显注意到在40代左右,聚集于右下最优位置附近的个体会有一个向中心聚集的过程,数了一下,刚好是10个个体。这应该是阶段2中较差的部分个体更新位置导致的。
本次试验阶段2时,可以认为其适应度函数几乎等于0,个体位置几乎到达90。则Nc计算公式如下:
可知个体会向着9处前进,并最终收敛到此处。可以看出阶段2中公式(3)设计欠妥(当然,当最优解在0处时,精度会有很大的提升)。公式(3)应去除分母中求和前的N/2。
从结果来看,鸽群算法还不错,但是性能好像不太稳定,毕竟只用了阶段1就计算出了结果,情有可原。
下面看看添加了贪心算法的实验。
实验二: 有贪心步骤
图像好像比实验一好了一些,但是并不能说明问题。实验一中存在的问题在实验二中仍然存在,只是由于贪心步骤的缘故,鸽群无法飞到差于自己的位置,阶段2仍然没有任何作用。
实验结果好像好了一丢丢,但几乎可以认为没有变化。
鸽群算法是受鸽子依据磁场识途的特性启发而提出的优化算法。算法的结构简单,主要分为两个阶段,其中阶段1为向着最优位置前进,阶段2则是较差个体向着较优群体中心前进(bushi)。
从实验中可以看出,原算法的公式设计有些许缺陷,进行修改后应该能够得到非常不错的结果。
参考文献
Haibin, Duan, Peixin, et al. Pigeon-inspired optimization: a new swarm intelligence optimizer for air robot path planning[J]. International Journal of Intelligent Computing & Cybernetics, 2008. 提取码:wjok
以下指标纯属个人yy,仅供参考
目录
上一篇 优化算法笔记(三十三)黏菌算法
下一篇 优化算法笔记(三十五)天鹰算法
⑸ 优化算法
SGD算法中的一个关键参数是学习率。之前,我们介绍的SGD使用固定的学习率。在实践中,有必要随着时间的推移逐渐降低学习率,因此我们将第 k 步迭代的学习率记作 ϵ k 。
这是因为SGD中梯度估计引入的噪声源(m 个训练样本的随机采样)并不会在极小点处消失。相比之下,当我们使用批量梯度下降到达极小点时,整个代价函数的真实梯度会变得很小,之后为 0,因此批量梯度下降可以使用固定的学习率。保证SGD收敛的一个充分条件是
若 ϵ 0 太大,学习曲线将会剧烈振荡,代价函数值通常会明显增加。温和的振荡是良好的,容易在训练随机代价函数(例如使用Dropout的代价函数)时出现。如果学习率太小,那么学习过程会很缓慢。如果初始学习率太低,那么学习可能会卡在一个相当高的代价值。通常,就总训练时间和最终代价值而言,最优初始学习率会高于大约迭代 100 次左右后达到最佳效果的学习率。因此,通常最好是检测最早的几轮迭代,选择一个比在效果上表现最佳的学习率更大的学习率,但又不能太大导致严重的震荡。
虽然随机梯度下降仍然是非常受欢迎的优化方法,但其学习过程有时会很慢。动量方法 (Polyak, 1964) 旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。动量的效果如图8.5所示
受 Nesterov 加速梯度算法 (Nesterov, 1983, 2004) 启发,提出了动量算法的一个变种。这种情况的更新规则如下:
其中参数 α 和 ϵ 发挥了和标准动量方法中类似的作用。Nesterov 动量和标准动量之间的区别体现在梯度计算上。Nesterov 动量中,梯度计算在施加当前速度之后。因此,Nesterov 动量可以解释为往标准动量方法中添加了一个校正因子。完整的Nesterov动量算法如算法3.2所示
初始点能够决定算法是否收敛,有些初始点十分不稳定,使得该算法会遭遇数值困难,并完全失败。当学习收敛时,初始点可以决定学习收敛得多快,以及是否收敛到一个代价高或低的点。此外,差不多代价的点可以具有区别极大的泛化误差,初始点也可以影响泛化。
也许完全确知的唯一特性是初始参数需要在不同单元间 ‘‘破坏对称性’’。如果具有相同激活函数的两个隐藏单元连接到相同的输入,那么这些单元必须具有不同的初始参数。如果它们具有相同的初始参数,然后应用到确定性损失和模型的确定性学习算法将一直以相同的方式更新这两个单元。即使模型或训练算法能够使用随机性为不同的单元计算不同的更新(例如使用Dropout的训练),通常来说,最好还是初始化每个单元使其和其他单元计算不同的函数。这或许有助于确保没有输入模式
丢失在前向传播的零空间中,没有梯度模式丢失在反向传播的零空间中。每个单元计算不同函数的目标促使了参数的随机初始化。我们可以明确地搜索一大组彼此互不相同的基函数,但这经常会导致明显的计算代价。例如,如果我们有和输出一样多的输入,我们可以使用 Gram-Schmidt 正交化于初始的权重矩阵,保证每个单元计算彼此非常不同的函数。在高维空间上使用高熵分布来随机初始化,计算代价小并且不太可能分配单元计算彼此相同的函数。
通常情况下,我们可以为每个单元的偏置设置启发式挑选的常数,仅随机初始化权重。额外的参数(例如用于编码预测条件方差的参数)通常和偏置一样设置为启发式选择的常数。
我们几乎总是初始化模型的权重为高斯或均匀分布中随机抽取的值。高斯或均匀分布的选择似乎不会有很大的差别,但也没有被详尽地研究。然而,初始分布的大小确实对优化过程的结果和网络泛化能力都有很大的影响。
更大的初始权重具有更强的破坏对称性的作用,有助于避免冗余的单元。它们也有助于避免在每层线性成分的前向或反向传播中丢失信号——矩阵中更大的值在矩阵乘法中有更大的输出。如果初始权重太大,那么会在前向传播或反向传播中产生爆炸的值。在循环网络中,很大的权重也可能导致混沌(chaos)(对于输入中很小的扰动非常敏感,导致确定性前向传播过程表现随机)。在一定程度上,梯度爆炸问题可以通过梯度截断来缓解(执行梯度下降步骤之前设置梯度的阈值)。较大的权
重也会产生使得激活函数饱和的值,导致饱和单元的梯度完全丢失。这些竞争因素决定了权重的理想初始大小。
也有助于避免在每层线性成分的前向或反向传播中丢失信号——矩阵中更大的值在矩阵乘法中有更大的输出。如果初始权重太大,那么会在前向传播或反向传播中产生爆炸的值。在循环网络中,很大的权重也可能导致混沌(chaos)(对于输入中很小的扰动非常敏感,导致确定性前向传播过程表现随机)。在一定程度上,梯度爆炸问题可以通过梯度截断来缓解(执行梯度下降步骤之前设置梯度的阈值)。较大的权重也会产生使得激活函数饱和的值,导致饱和单元的梯度完全丢失。这些竞争因素决定了权重的理想初始大小。
有些启发式方法可用于选择权重的初始大小。一种初始化 m 个输入和 n 输出的全连接层的权重的启发式方法是从分布 U(−1/√ m ,
1/√ m ) 中采样权重,而 Glorot and Bengio 建议使用标准初始化
后一种启发式方法初始化所有的层,折衷于使其具有相同激活方差和使其具有相同梯度方差之间。这假设网络是不含非线性的链式矩阵乘法,据此推导得出。现实的神经网络显然会违反这个假设,但很多设计于线性模型的策略在其非线性对应中的效果也不错。
数值范围准则的一个缺点是,设置所有的初始权重具有相同的标准差,例如1/√ m ,会使得层很大时每个单一权重会变得极其小。Martens (2010) 提出了一种被称为稀疏初始化(sparse initialization)的替代方案,每个单元初始化为恰好有 k 个非零权重。这个想法保持该单元输入的总数量独立于输入数目 m,而不使单一权重元素的大小随 m 缩小。稀疏初始化有助于实现单元之间在初始化时更具多样性。但是,获得较大取值的权重也同时被加了很强的先验。因为梯度下降需要很长时间缩小 ‘‘不正确’’ 的大值,这个初始化方案可能会导致某些单元出问题,例如maxout单元有几个过滤器,互相之间必须仔细调整。
Delta-bar-delta 算法 (Jacobs, 1988) 是一个早期的在训练时适应模型参数各自学习率的启发式方法。该方法基于一个很简单的想法,如果损失对于某个给定模型参数的偏导保持相同的符号,那么学习率应该增加。如果对于该参数的偏导变化了符号,那么学习率应减小。当然,这种方法只能应用于全批量优化中。
AdaGrad 算法,如算法8.4所示,独立地适应所有模型参数的学习率,缩放每个参数反比于其所有梯度历史平方值总和的平方根 (Duchi et al., 2011)。具有损失最大偏导的参数相应地有一个快速下降的学习率,而具有小偏导的参数在学习率上有相对较小的下降。净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。
在凸优化背景中,AdaGrad 算法具有一些令人满意的理论性质。然而,经验上已经发现,对于训练深度神经网络模型而言,从训练开始时积累梯度平方会导致有效学习率过早和过量的减小。AdaGrad在某些深度学习模型上效果不错,但不是全部。
RMSProp 算法 (Hinton, 2012) 修改 AdaGrad 以在非凸设定下效果更好,改变梯度积累为指数加权的移动平均。AdaGrad旨在应用于凸问题时快速收敛。当应用于非凸函数训练神经网络时,学习轨迹可能穿过了很多不同的结构,最终到达一个局部是凸碗的区域。AdaGrad 根据平方梯度的整个历史收缩学习率,可能使得学习率在达到这样的凸结构前就变得太小了。RMSProp 使用指数衰减平均以丢弃遥远过去的历史,使其能够在找到凸碗状结构后快速收敛,它就像一个初始化于该碗状结构的 AdaGrad 算法实例。
RMSProp 的标准形式如算法8.5所示,结合 Nesterov 动量的形式如算法8.6所示。相比于 AdaGrad,使用移动平均引入了一个新的超参数ρ,用来控制移动平均的长度范围。经验上,RMSProp 已被证明是一种有效且实用的深度神经网络优化算法。目前它是深度学习从业者经常采用的优化方法之一。
Adam (Kingma and Ba, 2014) 是另一种学习率自适应的优化算法,最好被看作结合 RMSProp 和具有一些重要区别的动量的变种。首先,在 Adam 中,动量直接并入了梯度一阶矩(指数加权)的估计。将动量加入 RMSProp 最直观的方法是将动量应用于缩放后的梯度。结合缩放的动量使用没有明确的理论动机。其次,Adam 包括偏置修正,修正从原点初始化的一阶矩(动量项)和(非中心的)二阶矩的估计(算法8.7)。RMSProp 也采用了(非中心的)二阶矩估计,然而缺失了修正因子。因此,不像 Adam,RMSProp 二阶矩估计可能在训练初期有很高的偏置。Adam 通常被认为对超参数的选择相当鲁棒,尽管学习率有时需要从建议的默认修改。
目前,最流行并且使用很高的优化算法包括 SGD、具动量的 SGD、RMSProp、具动量的 RMSProp、AdaDelta 和 Adam。
⑹ 常用优化器算法归纳介绍
优化器是神经网络训练过程中,进行梯度下降以寻找最优解的优化方法。不同方法通过不同方式(如附加动量项,学习率自适应变化等)侧重于解决不同的问题,但最终大都是为了加快训练速度。
这里就介绍几种常见的优化器,包括其原理、数学公式、核心思想及其性能;
核心思想: 即针对每次输入的训练数据,计算输出预测与真值的Loss的梯度;
从表达式来看,网络中参数的更新,是不断向着最小化Loss函数的方向移动的:
优点:
简单易懂,即对于相应的最优解(这里认为是Loss的最小函数),每次变量更新都是沿着局部梯度下降最快的方向,从而最小化损失函数。
缺点:
不同于标准梯度下降法(Gradient Descent)一次计算所有数据样本的Loss并计算相应的梯度,批量梯度下降法(BGD, Batch Gradient Descent)每次只取一个小批次的数据及其真实标签进行训练,称这个批次为mini-batch;
优点:
缺点:
随机梯度下降法的 batch size 选择不当可能导致模型难以收敛;由于这种方法是在一次更新中,就对整个数据集计算梯度,所以计算起来非常慢,遇到很大量的数据集也会非常棘手,而且不能投入新数据实时更新模型。
我们会事先定义一个迭代次数 epoch,首先计算梯度向量 params_grad,然后沿着梯度的方向更新参数 params,learning rate 决定了我们每一步迈多大。
Batch gradient descent 对于凸函数可以收敛到全局极小值,对于非凸函数可以收敛到局部极小值。
和 BGD 的一次用所有数据计算梯度相比,SGD 每次更新时对每个样本进行梯度更新,对于很大的数据集来说,可能会有相似的样本,这样 BGD 在计算梯度时会出现冗余,而 SGD 一次只进行一次更新,就没有冗余,而且比较快,并且可以新增样本。
即训练时,每次只从一批训练样本中随机选取一个样本进行梯度下降;对随机梯度下降来说,只需要一次关注一个训练样本,一点点把参数朝着全局最小值的方向进行修改了。
整体数据集是个循环,其中对每个样本进行一次参数更新
缺点:
梯度下降速度比较慢,而且每次梯度更新时往往只专注与局部最优点,而不会恰好指向全局最优点;
单样本梯度更新时会引入许多噪声(跟训练目标无关的特征也会被归为该样本分类的特征);
SGD 因为更新比较频繁,会造成 cost function 有严重的震荡。
BGD 可以收敛到局部极小值,当然 SGD 的震荡可能会跳到更好的局部极小值处。
当我们稍微减小 learning rate,SGD 和 BGD 的收敛性是一样的。
优点:
当处理大量数据时,比如SSD或者faster-rcnn等目标检测模型,每个样本都有大量候选框参与训练,这时使用随机梯度下降法能够加快梯度的计算。
随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况,那么可能只用其中部分的样本,就已经将 迭代到最优解了,对比上面的批量梯度下降,迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次。缺点是SGD的噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。所以虽然训练速度快,但是准确度下降,并不是全局最优。虽然包含一定的随机性,但是从期望上来看,它是等于正确的导数的。
梯度更新规则:
MBGD 每一次利用一小批样本,即 n 个样本进行计算,这样它可以降低参数更新时的方差,收敛更稳定,另一方面可以充分地利用深度学习库中高度优化的矩阵操作来进行更有效的梯度计算。
和 SGD 的区别是每一次循环不是作用于每个样本,而是具有 n 个样本的批次。
超参数设定值: n 一般取值在 50~256
缺点:(两大缺点)
鞍点就是:一个光滑函数的鞍点邻域的曲线,曲面,或超曲面,都位于这点的切线的不同边。例如这个二维图形,像个马鞍:在x-轴方向往上曲,在y-轴方向往下曲,鞍点就是(0,0)。
为了应对上面的两点挑战就有了下面这些算法
核心思想:
不使用动量优化时,每次训练的梯度下降方向,都是按照当前批次训练数据计算的,可能并不能代表整个数据集,并且会有许多噪声,下降曲线波动较大:
添加动量项之后,能够有效减小波动,从而加快训练速度:
当我们将一个小球从山上滚下来时,没有阻力的话,它的动量会越来越大,但是如果遇到了阻力,速度就会变小。
加入的这一项,可以使得梯度方向不变的维度上速度变快,梯度方向有所改变的维度上的更新速度变慢,这样就可以加快收敛并减小震荡。
优点:
通过动量更新,参数向量会在有持续梯度的方向上增加速度;
使梯度下降时的折返情况减轻,从而加快训练速度;
缺点:
如果数据集分类复杂,会导致 和 时刻梯度 向量方向相差较大;在进行向量求和时,得到的 会非常小,反而使训练速度大大下降甚至模型难以收敛。
这种情况相当于小球从山上滚下来时是在盲目地沿着坡滚,如果它能具备一些先知,例如快要上坡时,就知道需要减速了的话,适应性会更好。
目前为止,我们可以做到,在更新梯度时顺应 loss function 的梯度来调整速度,并且对 SGD 进行加速。
核心思想:
自适应学习率优化算法针对于机器学习模型的学习率,采用不同的策略来调整训练过程中的学习率,从而大大提高训练速度。
这个算法就可以对低频的参数做较大的更新,对高频的做较小的更新,也因此,对于稀疏的数据它的表现很好,很好地提高了 SGD 的鲁棒性,例如识别 Youtube 视频里面的猫,训练 GloVe word embeddings,因为它们都是需要在低频的特征上有更大的更新。
Adagrad 的优点是减少了学习率的手动调节
式中, 表示第 个分类, 表示第 迭代同时也表示分类 累计出现的次数。 表示初始的学习率取值(一般为0.01)
AdaGrad的核心思想: 缩放每个参数反比于其所有梯度历史平均值总和的平方根。具有代价函数最大梯度的参数相应地有较大的学习率,而具有小梯度的参数又较小的学习率。
缺点:
它的缺点是分母会不断积累,这样学习率就会收缩并最终会变得非常小。
这个算法是对 Adagrad 的改进,
和 Adagrad 相比,就是分母的 换成了过去的梯度平方的衰减平均值,指数衰减平均值
这个分母相当于梯度的均方根 root mean squared (RMS),在数据统计分析中,将所有值平方求和,求其均值,再开平方,就得到均方根值 ,所以可以用 RMS 简写:
其中 的计算公式如下, 时刻的依赖于前一时刻的平均和当前的梯度:
梯度更新规则:
此外,还将学习率 换成了 RMS[Δθ],这样的话,我们甚至都不需要提前设定学习率了:
超参数设定值: 一般设定为 0.9
RMSprop 是 Geoff Hinton 提出的一种自适应学习率方法。
RMSprop 和 Adadelta 都是为了解决 Adagrad 学习率急剧下降问题的,
梯度更新规则:
RMSprop 与 Adadelta 的第一种形式相同:(使用的是指数加权平均,旨在消除梯度下降中的摆动,与Momentum的效果一样,某一维度的导数比较大,则指数加权平均就大,某一维度的导数比较小,则其指数加权平均就小,这样就保证了各维度导数都在一个量级,进而减少了摆动。允许使用一个更大的学习率η)
超参数设定值:
Hinton 建议设定 为 0.9, 学习率 为 0.001。
这个算法是另一种计算每个参数的自适应学习率的方法。相当于 RMSprop + Momentum
除了像 Adadelta 和 RMSprop 一样存储了过去梯度的平方 vt 的指数衰减平均值 ,也像 momentum 一样保持了过去梯度 mt 的指数衰减平均值:
如果 和 被初始化为 0 向量,那它们就会向 0 偏置,所以做了偏差校正,通过计算偏差校正后的 和 来抵消这些偏差:
梯度更新规则:
超参数设定值:
建议
示例一
示例二
示例三
上面情况都可以看出,Adagrad, Adadelta, RMSprop 几乎很快就找到了正确的方向并前进,收敛速度也相当快,而其它方法要么很慢,要么走了很多弯路才找到。
由图可知自适应学习率方法即 Adagrad, Adadelta, RMSprop, Adam 在这种情景下会更合适而且收敛性更好。
如果数据是稀疏的,就用自适用方法,即 Adagrad, Adadelta, RMSprop, Adam。
RMSprop, Adadelta, Adam 在很多情况下的效果是相似的。
Adam 就是在 RMSprop 的基础上加了 bias-correction 和 momentum,
随着梯度变的稀疏,Adam 比 RMSprop 效果会好。
整体来讲,Adam 是最好的选择。
很多论文里都会用 SGD,没有 momentum 等。SGD 虽然能达到极小值,但是比其它算法用的时间长,而且可能会被困在鞍点。
如果需要更快的收敛,或者是训练更深更复杂的神经网络,需要用一种自适应的算法。
各种优化器Optimizer原理:从SGD到AdamOptimizer
深度学习——优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
⑺ 优化算法是什么
什么是智能优化算法 10分
智能优化算法是一种启发式优化算法,包括遗传算法、蚁群算法、禁忌搜索算法、模拟退火算法、粒子群算法等。·智能优化算法一般是针对具体问题设计相关的算法,理论要求弱,技术性强。一般,我们会把智能算法与最优化算法进行比较,相比之下,智能算浮速度快,应用性强。
传统优化算法和现代优化算法包括哪些.区别是什么
1. 传统优化算法一般是针对结构化的问题,有较为明确的问题和条件描述,如线性规划,二次规划,整数规划,混合规划,带约束和不带约束条件等,即有清晰的结构信息;而智能优化算法一般针对的是较为普适的问题描述,普遍比较缺乏结构信息。
2. 传统优化算法不少都属于凸优化范畴,有唯一明确的全局最优点;而智能优化算法针对的绝大多数是多极值问题,如何防止陷入局部最优而尽可能找到全局最优是采纳智能优化算法的根本原因:对于单极值问题,传统算法大部分时候已足够好,而智能算法没有任何优势;对多极值问题,智能优化算法通过其有效设计可以在跳出局部最优和收敛到一个点之间有个较好的平衡,从而实现找到全局最优点,但有的时候局部最优也是可接受的,所以传统算法也有很大应用空间和针对特殊结构的改进可能。
3. 传统优化算法一般是确定性算法,有固定的结构和参数,计算复杂度和收敛性可做理论分析;智能优化算法大多属于启发性算法,能定性分析却难定量证明,且大多数算法基于随机特性,其收敛性一般是概率意义上的,实际性能不可控,往往收敛速度也比较慢,计算复杂度较高。
最新的优化算法是什么?
这个范围太广了吧?列出来一篇文献综述都列不完
多目标优化算法的多目标是什么意思
多目标优化的本质在于,大多数情况下,某目标的改善可能引起其他目标性能的降低,同时使多个目标均达到最优是不可能的,只能在各目标之间进行协调权衡和折中处理,使所有目标函数尽可能达到最优,而且问题的最优解由数量众多,甚至无穷大的Pareto最优解组成。
编程中的优化算法问题
1. 算法优化的过程是学习思维的过程。学习数学实质上就是学习思维。也就是说数学教育的目的不仅仅是要让学生掌握数学知识(包括计算技能),更重要的要让学生学会数学地思维。算法多样化具有很大的教学价值,学生在探究算法多样化的过程中,培养了思维的灵活性,发展了学生的创造性。在认识算法多样化的教学价值的同时,我们也认识到不同算法的思维价值是不相等的。要充分体现算法多样化的教育价值,教师就应该积极引导学生优化算法,把优化算法的过程看作是又一次发展学生思维、培养学生能力的机会,把优化算法变成学生又一次主动建构的学习活动。让学生在优化算法的过程中,通过对各种算法的比较和分析,进行评价,不仅评价其正确性——这样做对吗?而且评价其合理性——这样做有道理吗?还要评价其科学性——这样做是最好的吗?这样的优化过程,对学生思维品质的提高无疑是十分有用的,学生在讨论、交流和反思的择优过程中逐步学会“多中择优,优中择简”的数学思想方法。教师在引导学生算法优化的过程中,帮助学生梳理思维过程,总结学习方法,养成思维习惯,形成学习能力,长此以往学生的思维品质一定能得到很大的提高。2. 在算法优化的过程中培养学生算法优化的意识和习惯。意识是行动的向导,有些学生因为思维的惰性而表现出算法单一的状态。明明自己的算法很繁琐,但是却不愿动脑做深入思考,仅仅满足于能算出结果就行。要提高学生的思维水平,我们就应该有意识的激发学生思维和生活的联系,帮助他们去除学生思维的惰性,鼓励他们从多个角度去思考问题,然后择优解决;鼓励他们不能仅仅只关注于自己的算法,还要认真倾听他人的思考、汲取他人的长处;引导他们去感受各种不同方法的之间联系和合理性,引导他们去感受到数学学科本身所特有的简洁性。再算法优化的过程中就是要让学生感受计算方法提炼的过程,体会其中的数学思想方法,更在于让学生思维碰撞,并形成切合学生个人实际的计算方法,从中培养学生的数学意识,使学生能自觉地运用数学思想方法来分析事物,解决问题。这样的过程不仅是对知识技能的一种掌握和巩固,而且可以使学生的思维更开阔、更深刻。3. 算法优化是学生个体学习、体验感悟、加深理解的过程。算法多样化是每一个学生经过自己独立的思考和探索,各自提出的方法,从而在群体中出现了许多种算法。因此,算法多样化是群体学习能力的表现,是学生集体的一题多解,而不是学生个体的多种算法。而算法的优化是让学生在群体比较的过程中优化,通过交流各自得算法,学生可以互相借鉴,互相吸收,互相补充,在个体感悟的前提下实施优化。因为优化是学生对知识结构的再构建过程,是发自学生内心的行为和自主的活动。但是,在实施算法最优化教学时应给学生留下一定的探索空间,以及一个逐渐感悟的过程。让学生在探索中感悟,在比较中感悟,在选择中感悟。这样,才利于发展学生独立思考能力和创造能力。4. 优化算法也是学生后继学习的需要。小学数学是整个数学体系的基础,是一个有着严密逻辑关系的子系统。算法教学是小学数学教学的一部分,它不是一个孤立的教学点。从某一教学内容来说,也许没有哪一种算法是最好的、最优的,但从算法教学的整个系统来看,必然有一种方法是最好的、最优的,是学生后继学习所必需掌握的。在算法多样化的过程中,当学生提出各种算法后,教师要及时引导学生进行比较和分析,在比较和分析的过程中感受不同策略的特点,领悟不同方法的算理,分析不同方法的优劣,做出合理的评价,从而选择具有普遍意义的、简捷的、并有利于后继学习的最优方法。5. 优化也是数学学科发展的动力。数学是一门基础学科,是一门工具学科,它的应用十分广泛。数学之所以有如此广泛的应用......>>
现在哪些智能优化算法比较新
智能优化算法是一种启发式优化算法,包括遗传算法、蚁群算法、禁忌搜索算法、模拟退火算法、粒子群算法等。·智能优化算法一般是针对具体问题设计相关的算法,理论要求弱,技术性强。一般,我们会把智能算法与最优化算法进行比较,
最新的智能优化算法有哪些呢,论文想研究些新算法,但是不知道哪些算法...
答:蚁群其实还是算比较新的。 更新的也只是这些算法的最后改进吧。演化算法就有很多。随便搜一篇以这些为标题,看06年以来的新文章就可以了。 各个领域都有的。否则就是到极限,也就没有什么研究前景了。
算法实现函数优化是什么意思
比如给一个函数 f(x1,x2)=x1^2+x2^2,求这个函数最小数值。。。
数学上,我们一般都是求偏导,然后一堆的,但是算法上,我们只要使用梯度下降,几次迭代就可以解决问题。。。
优化算法停止条件是什么?
适应度越大,解越优。
判断是否已得到近似全局最优解的方法就是遗传算法的终止条件。 在最大迭代次数范围内可以选择下列条件之一作为终止条件:
1. 最大适应度值和平均适应度值变化不大、趋于稳定;
2. 相邻GAP代种群的距离小于可接受值,参考“蒋勇,李宏.改进NSGA-II终止判断准则[J].计算机仿真.2009. Vol.26 No.2”
智能优化算法中cell是什么意思
智能优化主要是用来求最优解的,通过多次迭代计算找出稳定的收敛的最优解或近似最优解,例如复杂的单模态或多模态函数的求最值问题。
⑻ 优化算法
动量法、AdaGrad、RMSProp、AdaDelta、Adam
在7.2节(梯度下降和随机梯度下降)中我们提到,目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如果自变量的迭代方向 仅仅取决于自变量当前位置,这可能会带来一些问题 。
可以看到,同一位置上,目标函数在竖直方向( 轴方向)比在水平方向( 轴方向)的斜率的绝对值更大。因此,给定学习率,梯度下降迭代自变量时会使自变量在竖直方向比在水平方向移动幅度更大。那么,我们 需要一个较小的学习率 从而避免自变量在竖直方向上越过目标函数最优解。然而,这会造成自变量在水平方向上 朝最优解移动变慢 。
试着将学习率调大一点,此时自变量在竖直方向不断越过最优解并逐渐发散。
动量法的提出是为了解决梯度下降的上述问题。
其中,动量超参数 满足 。当 时,动量法等价于小批量随机梯度下降。
因此,在实际中,我们常常将 看作是最近 个时间步的 的值的加权平均。
现在,我们对动量法的速度变量做变形:
优化算法中,⽬标函数⾃变量的每⼀个元素在相同时间步都使⽤同⼀个学习率来⾃我迭代。在“动量法”⾥我们看到当x1和x2的梯度值有较⼤差别时,需要选择⾜够小的学习率使得⾃变量在梯度值较⼤的维度上不发散。但这样会导致⾃变量在梯度值较小的维度上迭代过慢。动量法依赖指数加权移动平均使得⾃变量的更新⽅向更加⼀致,从而降低发散的可能。 本节我们介绍AdaGrad算法,它根据⾃变量在每个维度的梯度值的⼤小来调整各个维度上的学习率,从而避免统⼀的学习率难以适应所有维度的问题。
AdaGrad算法会使⽤⼀个小批量随机梯度gt按元素平⽅的累加变量st。在时间步0,AdaGrad将s0中每个元素初始化为0。在时间步t,⾸先将小批量随机梯度gt按元素平⽅后累加到变量st:
其中⊙是按元素相乘。接着,我们将⽬标函数⾃变量中每个元素的学习率通过按元素运算重新调整⼀下:
其中η是学习率,ϵ是为了维持数值稳定性而添加的常数,如10的-6次方。这⾥开⽅、除法和乘法的运算都是按元素运算的。这些按元素运算使得⽬标函数⾃变量中 每个元素都分别拥有⾃⼰的学习率 。
需要强调的是,小批量随机梯度按元素平⽅的累加变量st出现在学习率的分⺟项中。因此,
然而,由于st⼀直在累加按元素平⽅的梯度,⾃变量中每个元素的学习率在迭代过程中⼀直在降低(或不变)。 所以,当学习率在迭代早期降得较快且当前解依然不佳时,AdaGrad算法在迭代后期由于学习率过小,可能较难找到⼀个有⽤的解 。
当学习率在迭代早期降得较快且当前解依然不佳时,AdaGrad算法在迭代后期由于 学习率过小 ,可能较难找到⼀个有⽤的解。为了解决这⼀问题,RMSProp算法对AdaGrad算法做了⼀点小小的修改。
不同于AdaGrad算法⾥状态变量st是 截⾄时间步t所有小批量随机梯度gt按元素平⽅和 ,RMSProp算法将这些梯度 按元素平⽅做指数加权移动平均 。具体来说,给定超参数0 ≤ γ < 1,RMSProp算法在时间步t > 0计算:
和AdaGrad算法⼀样,RMSProp算法将⽬标函数⾃变量中每个元素的学习率通过按元素运算重新调整,然后更新⾃变量:
其中η是学习率,ϵ是为了维持数值稳定性而添加的常数,如10的-6次方。因为RMSProp算法的状态变量st是对平⽅项gt ⊙ gt的指数加权移动平均, 所以可以看作是最近1/(1 − γ)个时间步的小批量随机梯度平⽅项的加权平均。如此⼀来,⾃变量每个元素的学习率在迭代过程中就不再⼀直降低(或不变)。
除了RMSProp算法以外,另⼀个常⽤优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有⽤解的问题做了改进。有意思的是,AdaDelta算法没有学习率这⼀超参数。
AdaDelta算法也像RMSProp算法⼀样,使⽤了小批量随机梯度gt按元素平⽅的指数加权移动平均变量st。在时间步0,它的所有元素被初始化为0。给定超参数0 ≤ ρ < 1(对应RMSProp算法中的γ),在时间步t > 0,同RMSProp算法⼀样计算:
与RMSProp算法不同的是,AdaDelta算法还维护⼀个 额外的状态变量∆xt ,其元素同样在时间步0时被初始化为0。我们使⽤∆xt−1来计算⾃变量的变化量:
最后,我们使⽤∆xt来记录⾃变量变化量 按元素平⽅的指数加权移动平均:
Adam算法在RMSProp算法基础上对小批量随机梯度也做了指数加权移动平均。
Adam算法使⽤了 动量变量vt 和RMSProp算法中 小批量随机梯度按元素平⽅的指数加权移动平均变量st ,并在时间步0将它们中每个元素初始化为0。给定超参数0 ≤ β1 < 1(算法作者建议设为0.9),时间步t的动量变量vt即小批量随机梯度gt的指数加权移动平均:
接下来,Adam算法使⽤以上 偏差修正 后的变量 v ˆ t 和 s ˆ t ,将模型参数中每个元素的学习率通过按元素运算重新调整:
其中 η 是学习率, ϵ 是为了维持数值稳定性而添加的常数,如10的-8次方。和AdaGrad算法、RMSProp算法以及AdaDelta算法⼀样,⽬标函数⾃变量中每个元素都分别拥有⾃⼰的学习率。最后,使⽤ 迭代⾃变量:
⑼ 智能优化算法:蝠鲼觅食优化算法
@[toc]
摘要:蝠鲼觅食优化 (Manta ray foraging optimization,
MRFO)是由 Zhao 等,在 2019 年提出的新型智能仿生群体算法。具有寻优能力强,收敛快的特点。
该算法是模仿蝠鲼在海洋中的觅食过程,针对不同捕食策略进行数学建模,对蝠鲼个体位置更新的方式进行数学描述,从而实现在复杂解空间中对最优解的搜索。由于位置更新方式的独特性,MRFO 的求解精度与鲁棒性相比于传统群体智能仿生算法也有显着的提升。MRFO 可描述为 3 种觅食行为,包括链式觅食、螺旋觅食以及翻滚觅食。
链式捕食过程中,蝠鲼种群从头到尾排成一条捕食链。蝠鲼个体下一位置的移动方向与步长是由当前最优解与前一个体位置共同决定。该种位置更新方式数学模型如下:
式中, 表示第 代、第 个个体在 维上的位置;r表示在[0,1]上均匀分布的随机数; 表示第 代最优个体在第 维上的位置; 表示个体数量。
当蝠鲼个体发现某猎物之后,其会采用螺旋的方式向其靠近。MRFO 中蝠鲼个体由于链式捕食方式的存在,其在向当前解螺旋移动的过程中,同样还受到前一个个体的影响。该种位置更新方式数学模型如下:
当 ,描述蝠鲼螺旋状运动的数学方程可以定义为:
中, 为迭代总次数; 在[0,1]上均匀分布随机数。当
,描述蝠鲼螺旋状运动的数学方程可以定义为:
表示第 代、第 维的随机位置。 表示变量取值上、下界。
在翻滚捕食中,蝠鲼个体以当前最优解作为翻滚支点,翻滚至与其当前位置成镜像关系的另一侧。其数学模型表达如下:
中, 和 都是在[0,1]上均匀分布的随机数。
算法流程
step1.设定算参数,初始化种群
step2. 计算适应度值
step3.判断rand<0.5。如果成立,则执行螺旋觅食。如果不成立则执行链式觅食。
step4.计算适应度值,更新最优位置
step5.执行翻滚觅食,更新位置
step6.计算适应度值,更新最优位置
step7.判断是否满足结束条件,如果满足则输出最优值,否则重复执行step2-step7.
[1]李璟楠,乐美龙.多种群蝠鲼觅食优化求解多跑道机场航班排序[J].航空计算技术,2020,50(06):47-51.
[1]Zhao Weiguo,Zhang Zhenxing,Wang Liying. Manta Ray Foraging Optimization:An Effective Bio-inspired Optimizer for Engineering Applications[J]. Engineering Applications of Artificial Intelligence,2020,87:103300.
https://mianbaoo.com/o/bread/YZaUl5xw