算法相亮

发布时间: 2023-03-15 06:24:53

1. 哪些算法曾让你感觉醍醐灌顶

贝叶斯定理
比如这样一个问题：你喜欢上一个人的概率，你觉得一个人某方面好的概率，你喜欢上一个人然后觉得这个人某方面好的概率，你觉得一个人某方面好然后喜欢上这个人的概率，这4个之间有什么关系呢？
用数学语言表达：P(喜欢上一个人), P(觉得一个人某方面好), P(觉得这个人某方面好|喜欢上一个人) 和 P(喜欢上这个人|觉得一个人某方面好) 有什么关系呢？
我们生活中遇到的很多概率其实都是条件概率/后验概率(在某一条件下成立的事件的概率)，贝叶斯定理揭示了不同的条件概率之间的关系: )
一瞬间，感觉让你发现了世界运行了某些奥秘
KMP非常优美，SIFT 图像匹配算法很强大，plsa语义相似度计算也让我震撼，不过最让我震撼的还是mathematica里的fullsimplify背后的算法。
Fullsimplify这玩意能搞定很多人都搞不定的公式，我说的搞不定是指该问题本身人可以在三五步之内求解，但却是很难求解的问题，例如某些三角函数的积分需要巧妙地作换元积分才能得解。
从思想上看，最深刻的是递归，以及求泛函极值的最小作用量。基于这两种思想的算法，比如快排、HMM中的Baum-Welch，都是精美的算法，但背后的思想根基并非首创。动态规划、蒙特卡洛类的算法也属此列。
此外，有“道法自然”意味的模拟退火、蚁群、遗传、粒子群这些，思想方法上有创新，但是算法设计上与神经网络、SVM、HMM相比，就略显粗糙。

2. A*算法介绍

姓名：车文扬学号：16020199006

【嵌牛导读】：A*算法的逐步详解

【嵌牛鼻子】：启发式算法

【嵌牛提问】：A*算法的原理是什么？

【嵌牛正文】：

A*算法

路径规划是指的是机器人的最优路径规划问题，即依据某个或某些优化准则（如工作代价最小、行走路径最短、行走时间最短等），在工作空间中找到一个从起始状态到目标状态能避开障碍物的最优路径。机器人的路径规划应用场景极丰富，最常见如游戏中NPC及控制角色的位置移动，网络地图等导航问题，小到家庭扫地机器人、无人机大到各公司正争相开拓的无人驾驶汽车等。

目前路径规划算法分为：

A*算法原理：

在计算机科学中，A*算法作为Dijkstra算法的扩展，因其高效性而被广泛应用于寻路及图的遍历，如星际争霸等游戏中就大量使用。在理解算法前，我们需要知道几个概念：

搜索区域（The Search Area）：图中的搜索区域被划分为了简单的二维数组，数组每个元素对应一个小方格，当然我们也可以将区域等分成是五角星，矩形等，通常将一个单位的中心点称之为搜索区域节点（Node）。

开放列表(Open List)：我们将路径规划过程中待检测的节点存放于Open List中，而已检测过的格子则存放于Close List中。

父节点（parent）：在路径规划中用于回溯的节点，开发时可考虑为双向链表结构中的父结点指针。

路径排序（Path Sorting）：具体往哪个节点移动由以下公式确定：F(n) = G + H 。G代表的是从初始位置A沿着已生成的路径到指定待检测格子的移动开销。H指定待测格子到目标节点B的估计移动开销。

启发函数（Heuristics Function）：H为启发函数，也被认为是一种试探，由于在找到唯一路径前，我们不确定在前面会出现什么障碍物，因此用了一种计算H的算法，具体根据实际场景决定。在我们简化的模型中，H采用的是传统的曼哈顿距离（Manhattan Distance），也就是横纵向走的距离之和。

如下图所示，绿色方块为机器人起始位置A，红色方块为目标位置B，蓝色为障碍物。

我们把要搜寻的区域划分成了正方形的格子。这是寻路的第一步，简化搜索区域。这个特殊的方法把我们的搜索区域简化为了2 维数组。数组的每一项代表一个格子，它的状态就是可走(walkalbe)或不可走(unwalkable) 。现用A*算法寻找出一条自A到B的最短路径，每个方格的边长为10，即垂直水平方向移动开销为10。因此沿对角移动开销约等于14。具体步骤如下：

从起点 A 开始，把它加入到一个由方格组成的open list(开放列表) 中，这个open list像是一个购物清单。Open list里的格子是可能会是沿途经过的，也有可能不经过。因此可以将其看成一个待检查的列表。查看与A相邻的8个方格，把其中可走的 (walkable) 或可到达的(reachable) 方格加入到open list中。并把起点 A 设置为这些方格的父节点 (parent node) 。然后把 A 从open list中移除，加入到close list(封闭列表) 中，close list中的每个方格都是不需要再关注的。

如下图所示，深绿色的方格为起点A，它的外框是亮蓝色，表示该方格被加入到了close list 。与它相邻的黑色方格是需要被检查的，他们的外框是亮绿色。每个黑方格都有一个灰色的指针指向他们的父节点A。

下一步，我们需要从open list中选一个与起点A相邻的方格。但是到底选择哪个方格好呢？选F值最小的那个。我们看看下图中的一些方格。在标有字母的方格中G = 10 。这是因为水平方向从起点到那里只有一个方格的距离。与起点直接相邻的上方，下方，左方的方格的G 值都是10 ，对角线的方格G 值都是14 。H值通过估算起点到终点( 红色方格) 的Manhattan 距离得到，仅作横向和纵向移动，并且忽略沿途的障碍。使用这种方式，起点右边的方格到终点有3 个方格的距离，因此H = 30 。这个方格上方的方格到终点有4 个方格的距离( 注意只计算横向和纵向距离) ，因此H = 40 。

比较open list中节点的F值后，发现起点A右侧节点的F=40，值最小。选作当前处理节点，并将这个点从Open List删除，移到Close List中。

对这个节点周围的8个格子进行判断，若是不可通过（比如墙，水，或是其他非法地形）或已经在Close List中，则忽略。否则执行以下步骤：

若当前处理节点的相邻格子已经在Open List中，则检查这条路径是否更优，即计算经由当前处理节点到达那个方格是否具有更小的 G值。如果没有，不做任何操作。相反，如果G值更小，则把那个方格的父节点设为当前处理节点 ( 我们选中的方格 ) ，然后重新计算那个方格的 F 值和 G 值。

若当前处理节点的相邻格子不在Open List中，那么把它加入，并将它的父节点设置为该节点。

按照上述规则我们继续搜索，选择起点右边的方格作为当前处理节点。它的外框用蓝线打亮，被放入了close list 中。然后我们检查与它相邻的方格。它右侧的3个方格是墙壁，我们忽略。它左边的方格是起点，在close list 中，我们也忽略。其他4个相邻的方格均在open list 中，我们需要检查经由当前节点到达那里的路径是否更好。我们看看上面的方格，它现在的G值为14 ，如果经由当前方格到达那里，G值将会为20( 其中10为从起点到达当前方格的G值，此外还要加上从当前方格纵向移动到上面方格的G值10) ，因此这不是最优的路径。看图就会明白直接从起点沿对角线移动到那个方格比先横向移动再纵向移动要好。

当把4个已经在open list 中的相邻方格都检查后，没有发现经由当前节点的更好路径，因此不做任何改变。接下来要选择下一个待处理的节点。因此再次遍历open list ，现在open list中只有7 个方格了，我们需要选择F值最小的那个。这次有两个方格的F值都是54，选哪个呢？没什么关系。从速度上考虑，选择最后加入open list 的方格更快。因此选择起点右下方的方格，如下图所示。

接下来把起点右下角F值为54的方格作为当前处理节点，检查其相邻的方格。我们发现它右边是墙（墙下面的一格也忽略掉，假定墙角不能直接穿越)，忽略之。这样还剩下 5 个相邻的方格。当前方格下面的 2 个方格还没有加入 open list ，所以把它们加入，同时把当前方格设为他们的父亲。在剩下的 3 个方格中，有 2 个已经在 close list 中 ( 一个是起点，一个是当前方格上面的方格，外框被加亮的 ) ，我们忽略它们。最后一个方格，也就是当前方格左边的方格，检查经由当前方格到达那里是否具有更小的 G 值。没有，因此我们准备从 open list 中选择下一个待处理的方格。

不断重复这个过程，直到把终点也加入到了open list 中，此时如下图所示。注意在起点下方2 格处的方格的父亲已经与前面不同了。之前它的G值是28并且指向它右上方的方格。现在它的G 值为20 ，并且指向它正上方的方格。这是由于在寻路过程中的某处使用新路径时G值更小，因此父节点被重新设置，G和F值被重新计算。

那么我们怎样得到实际路径呢？很简单，如下图所示，从终点开始，沿着箭头向父节点移动，直至回到起点，这就是你的路径。

A*算法总结：

1. 把起点加入 open list 。

2. 重复如下过程：

a. 遍历open list ，查找F值最小的节点，把它作为当前要处理的节点，然后移到close list中

b. 对当前方格的 8 个相邻方格一一进行检查，如果它是不可抵达的或者它在close list中，忽略它。否则，做如下操作：

□ 如果它不在open list中，把它加入open list，并且把当前方格设置为它的父亲

□ 如果它已经在open list中，检查这条路径 ( 即经由当前方格到达它那里 ) 是否更近。如果更近，把它的父亲设置为当前方格，并重新计算它的G和F值。如果你的open list是按F值排序的话，改变后你可能需要重新排序。

c. 遇到下面情况停止搜索：

□ 把终点加入到了 open list 中，此时路径已经找到了，或者

□ 查找终点失败，并且open list 是空的，此时没有路径。

3. 从终点开始，每个方格沿着父节点移动直至起点，形成路径。

3. 从传感器到算法原理，机器人视觉避障原来是这样的

避障是指移动机器人在行走过程中，通过传感器感知到在其规划路线上存在静态或动态障碍物时，按照一定的算法实时更新路径，绕过障碍物，最后达到目标点。

避障常用哪些传感器？

不管是要进行导航规划还是避障，感知周边环境信息是第一步。就避障来说，移动机器人需要通过传感器实时获取自身周围障碍物信息，包括尺寸、形状和位置等信息。避障使用的传感器多种多样，各有不同的原理和特点，目前常见的主要有视觉传感器、激光传感器、红外传感器、超声波传感器等。下面我简单介绍一下这几种传感器的基本工作原理。

超声波

超声波传感器的基本原理是测量超声波的飞行时间，通过d=vt/2测量距离，其中d是距离，v是声速，t是飞行时间。由于超声波在空气中的速度与温湿度有关，在比较精确的测量中，需把温湿度的变化和其它因素考虑进去。

上面这个图就是超声波传感器信号的一个示意。通过压电或静电变送器产生一个频率在几十kHz的超声波脉冲组成波包，系统检测高于某阈值的反向声波，检测到后使用测量到的飞行时间计算距离。超声波传感器一般作用距离较短，普通的有效探测距离都在几米，但是会有一个几十毫米左右的最小探测盲区。由于超声传感器的成本低、实现方法简单、技术成熟，是移动机器人中常用的传感器。超声波传感器也有一些缺点，首先看下面这个图。

因为声音是锥形传播的，所以我们实际测到的距离并不是一个点，而是某个锥形角度范围内最近物体的距离。

另外，超声波的测量周期较长，比如3米左右的物体，声波传输这么远的距离需要约20ms的时间。再者，不同材料对声波的反射或者吸引是不相同的，还有多个超声传感器之间有可能会互相干扰，这都是实际应用的过程中需要考虑的。

红外

一般的红外测距都是采用三角测距的原理。红外发射器按照一定角度发射红外光束，遇到物体之后，光会反向回来，检测到反射光之后，通过结构上的几何三角关系，就可以计算出物体距离D。

当D的距离足够近的时候，上图中L值会相当大，如果超过CCD的探测范围，这时，虽然物体很近，但是传感器反而看不到了。当物体距离D很大时，L值就会很小，测量量精度会变差。因此，常见的红外传感器测量距离都比较近，小于超声波，同时远距离测量也有最小距离的限制。另外，对于透明的或者近似黑体的物体，红外传感器是无法检测距离的。但相对于超声来说，红外传感器具有更高的带宽。

激光

常见的激光雷达是基于飞行时间的（ToF，time of flight），通过测量激光的飞行时间来进行测距d=ct/2，类似于前面提到的超声测距公式，其中d是距离，c是光速，t是从发射到接收的时间间隔。激光雷达包括发射器和接收器，发射器用激光照射目标，接收器接收反向回的光波。机械式的激光雷达包括一个带有镜子的机械机构，镜子的旋转使得光束可以覆盖一个平面，这样我们就可以测量到一个平面上的距离信息。

对飞行时间的测量也有不同的方法，比如使用脉冲激光，然后类似前面讲的超声方案，直接测量占用的时间，但因为光速远高于声速，需要非常高精度的时间测量元件，所以非常昂贵；另一种发射调频后的连续激光波，通过测量接收到的反射波之间的差频来测量时间。

图一

图二

比较简单的方案是测量反射光的相移，传感器以已知的频率发射一定幅度的调制光，并测量发射和反向信号之间的相移，如上图一。调制信号的波长为lamda=c/f，其中c是光速，f是调制频率，测量到发射和反射光束之间的相移差theta之后，距离可由lamda*theta/4pi计算得到，如上图二。

激光雷达的测量距离可以达到几十米甚至上百米，角度分辨率高，通常可以达到零点几度，测距的精度也高。但测量距离的置信度会反比于接收信号幅度的平方，因此，黑体或者远距离的物体距离测量不会像光亮的、近距离的物体那么好的估计。并且，对于透明材料，比如玻璃，激光雷达就无能为力了。还有，由于结构的复杂、器件成本高，激光雷达的成本也很高。

一些低端的激光雷达会采用三角测距的方案进行测距。但这时它们的量程会受到限制，一般几米以内，并且精度相对低一些，但用于室内低速环境的SLAM或者在室外环境只用于避障的话，效果还是不错的。

视觉

常用的计算机视觉方案也有很多种，比如双目视觉，基于TOF的深度相机，基于结构光的深度相机等。深度相机可以同时获得RGB图和深度图，不管是基于TOF还是结构光，在室外强光环境下效果都并不太理想，因为它们都是需要主动发光的。

像基于结构光的深度相机，发射出的光会生成相对随机但又固定的斑点图样，这些光斑打在物体上后，因为与摄像头距离不同，被摄像头捕捉到的位置也不相同，之后先计算拍到的图的斑点与标定的标准图案在不同位置的偏移，利用摄像头位置、传感器大小等参数就可以计算出物体与摄像头的距离。而我们目前的E巡机器人主要是工作在室外环境，主动光源会受到太阳光等条件的很大影响，所以双目视觉这种被动视觉方案更适合，因此我们采用的视觉方案是基于双目视觉的。

双目视觉的测距本质上也是三角测距法，由于两个摄像头的位置不同，就像我们人的两只眼睛一样，看到的物体不一样。两个摄像头看到的同一个点P，在成像的时候会有不同的像素位置，此时通过三角测距就可以测出这个点的距离。与结构光方法不同的是，结构光计算的点是主动发出的、已知确定的，而双目算法计算的点一般是利用算法抓取到的图像特征，如SIFT或SURF特征等，这样通过特征计算出来的是稀疏图。

要做良好的避障，稀疏图还是不太够的，我们需要获得的是稠密的点云图，整个场景的深度信息。稠密匹配的算法大致可以分为两类，局部算法和全局算法。局部算法使用像素局部的信息来计算其深度，而全局算法采用图像中的所有信息进行计算。一般来说，局部算法的速度更快，但全局算法的精度更高。

这两类各有很多种不同方式的具体算法实现。能过它们的输出我们可以估算出整个场景中的深度信息，这个深度信息可以帮助我们寻找地图场景中的可行走区域以及障碍物。整个的输出类似于激光雷达输出的3D点云图，但是相比来讲得到信息会更丰富，视觉同激光相比优点是价格低很多，缺点也比较明显，测量精度要差一些，对计算能力的要求也高很多。当然，这个精度差是相对的，在实用的过程中是完全足够的，并且我们目前的算法在我们的平台NVIDIA TK1和TX1上是可以做到实时运行。

KITTI采集的图

实际输出的深度图，不同的颜色代表不同的距离

在实际应用的过程中，我们从摄像头读取到的是连续的视频帧流，我们还可以通过这些帧来估计场景中目标物体的运动，给它们建立运动模型，估计和预测它们的运动方向、运动速度，这对我们实际行走、避障规划是很有用的。

以上几种是最常见的几种传感器，各有其优点和缺点，在真正实际应用的过程中，一般是综合配置使用多种不同的传感器，以最大化保证在各种不同的应用和环境条件下，机器人都能正确感知到障碍物信息。我们公司的E巡机器人的避障方案就是以双目视觉为主，再辅助以多种其他传感器，保证机器人周边360度空间立体范围内的障碍物都能被有效侦测到，保证机器人行走的安全性。

避障常用算法原理

在讲避障算法之前，我们假定机器人已经有了一个导航规划算法对自己的运动进行规划，并按照规划的路径行走。避障算法的任务就是在机器人执行正常行走任务的时候，由于传感器的输入感知到了障碍物的存在，实时地更新目标轨迹，绕过障碍物。

Bug算法知乎用户无方表示

Bug算法应该是最简单的一种避障算法了，它的基本思想是在发现障碍后，围着检测到的障碍物轮廓行走，从而绕开它。Bug算法目前有很多变种，比如Bug1算法，机器人首先完全地围绕物体，然后从距目标最短距离的点离开。Bug1算法的效率很低，但可以保证机器人达到目标。

Bug1算法示例

改进后的Bug2算法中，机器人开始时会跟踪物体的轮廓，但不会完全围绕物体一圈，当机器人可以直接移动至目标时，就可以直接从障碍分离，这样可以达到比较短的机器人行走总路径。

Bug2算法示例

除此之外，Bug算法还有很多其他的变种，比如正切Bug算法等等。在许多简单的场景中，Bug算法是实现起来比较容易和方便的，但是它们并没有考虑到机器人的动力学等限制，因此在更复杂的实际环境中就不是那么可靠好用了。

势场法（PFM）

实际上，势场法不仅仅可以用来避障，还可以用来进行路径的规划。势场法把机器人处理在势场下的一个点，随着势场而移动，目标表现为低谷值，即对机器人的吸引力，而障碍物扮演的势场中的一个高峰，即斥力，所有这些力迭加于机器人身上，平滑地引导机器人走向目标，同时避免碰撞已知的障碍物。当机器人移动过程中检测新的障碍物，则需要更新势场并重新规划。

上面这个图是势场比较典型的示例图，最上的图a左上角是出发点，右下角是目标点，中间三个方块是障碍物。中间的图b就是等势位图，图中的每条连续的线就代表了一个等势位的一条线，然后虚线表示的在整个势场里面所规划出来的一条路径，我们的机器人是沿着势场所指向的那个方向一直行走，可以看见它会绕过这个比较高的障碍物。

最下面的图，即我们整个目标的吸引力还有我们所有障碍物产生的斥力最终形成的一个势场效果图，可以看到机器人从左上角的出发点出发，一路沿着势场下降的方向达到最终的目标点，而每个障碍物势场表现出在很高的平台，所以，它规划出来的路径是不会从这个障碍物上面走的。

一种扩展的方法在基本的势场上附加了了另外两个势场：转运势场和任务势场。它们额外考虑了由于机器人本身运动方向、运动速度等状态和障碍物之间的相互影响。

转动势场考虑了障碍与机器人的相对方位，当机器人朝着障碍物行走时，增加斥力，而当平行于物体行走时，因为很明显并不会撞到障碍物，则减小斥力。任务势场则排除了那些根据当前机器人速度不会对近期势能造成影响的障碍，因此允许规划出一条更为平滑的轨迹。

另外还有谐波势场法等其他改进方法。势场法在理论上有诸多局限性，比如局部最小点问题，或者震荡性的问题，但实际应用过程中效果还是不错的，实现起来也比较容易。

向量场直方图（VFH）

它执行过程中针对移动机器人当前周边环境创建了一个基于极坐标表示的局部地图，这个局部使用栅格图的表示方法，会被最近的一些传感器数据所更新。VFH算法产生的极坐标直方图如图所示：

图中x轴是以机器人为中心感知到的障碍物的角度，y轴表示在该方向存在障碍物的概率大小p。实际应用的过程中会根据这个直方图首先辨识出允许机器人通过的足够大的所有空隙，然后对所有这些空隙计算其代价函数，最终选择具有最低代价函数的通路通过。

代价函数受三个因素影响：目标方向、机器人当前方向、之前选择的方向，最终生成的代价是这三个因素的加权值，通过调节不同的权重可以调整机器人的选择偏好。VFH算法也有其他的扩展和改进，比如在VFH+算法中，就考虑了机器人运动学的限制。由于实际底层运动结构的不同，机器的实际运动能力是受限的，比如汽车结构，就不能随心所欲地原地转向等。VFH+算法会考虑障碍物对机器人实际运动能力下轨迹的阻挡效应，屏蔽掉那些虽然没有被障碍物占据但由于其阻挡实际无法达到的运动轨迹。我们的E巡机器人采用的是两轮差动驱动的运动形式，运动非常灵活，实际应用较少受到这些因素的影响。

具体可以看一下这个图示：

类似这样传统的避障方法还有很多，除此之外，还有许多其他的智能避障技术，比如神经网络、模糊逻辑等。

神经网络方法对机器人从初始位置到目标位置的整个行走路径进行训练建模，应用的时候，神经网络的输入为之前机器人的位姿和速度以及传感器的输入，输出期望的下一目标或运动方向。

模糊逻辑方法核心是模糊控制器，需要将专家的知识或操作人员的经验写成多条模糊逻辑语句，以此控制机器人的避障过程。比如这样的模糊逻辑：第一条，若右前方较远处检测到障碍物，则稍向左转；第二条，若右前方较近处检测到障碍物，则减速并向左转更多角度等等。

4. 【目标检测算法解读】yolo系列算法二

https://blog.csdn.net/Gentleman_Qin/article/details/84349144

|声明：遵循CC 4.0 BY-SA版权协议

    建立在YOLOv1的基础上，经过Joseph Redmon等的改进，YOLOv2和YOLO9000算法在2017年CVPR上被提出，并获得最佳论文提名，重点解决YOLOv1召回率和定位精度方面的误差。在提出时，YOLOv2在多种监测数据集中都要快过其他检测系统，并可以在速度与精确度上进行权衡。

    YOLOv2采用Darknet-19作为特征提取网络，增加了批量标准化（Batch Normalization）的预处理，并使用224×224和448×448两阶段训练ImageNet，得到预训练模型后fine-tuning。

    相比于YOLOv1是利用FC层直接预测Bounding Box的坐标，YOLOv2借鉴了FSR-CNN的思想，引入Anchor机制，利用K-Means聚类的方式在训练集中聚类计算出更好的Anchor模板，在卷积层使用Anchor Boxes操作，增加Region Proposal的预测，同时采用较强约束的定位方法，大大提高算法召回率。同时结合图像细粒度特征，将浅层特征与深层特征相连，有助于对小尺寸目标的检测。

    下图所示是YOLOv2采取的各项改进带了的检测性能上的提升：

    YOLO9000 的主要检测网络也是YOLO v2，同时使用WordTree来混合来自不同的资源的训练数据，并使用联合优化技术同时在ImageNet和COCO数据集上进行训练，目的是利用数量较大的分类数据集来帮助训练检测模型，因此，YOLO 9000的网络结构允许实时地检测超过9000种物体分类，进一步缩小了检测数据集与分类数据集之间的大小代沟。

    下面将具体分析YOLOv2的各个创新点:

BN概述：

    对数据进行预处理（统一格式、均衡化、去噪等）能够大大提高训练速度，提升训练效果。BN正是基于这个假设的实践，对每一层输入的数据进行加工。

    BN是2015年Google研究员在论文《Batch Normalization: Accelerating Deep Network Training by Recing Internal Covariate Shift》一文中提出的，同时也将BN应用到了2014年的GoogLeNet上，也就是Inception-v2。

    BN层简单讲就是对网络的每一层的输入都做了归一化，这样网络就不需要每层都去学数据的分布，收敛会更快。YOLOv1算法（采用的是GoogleNet网络提取特征）是没有BN层的，而在YOLOv2中作者为每个卷积层都添加了BN层。

    使用BN对网络进行优化，让网络提高了收敛性，同时还消除了对其他形式的正则化（regularization）的依赖，因此使用BN后可以从模型中去掉Dropout，而不会产生过拟合。

BN优点：

神经网络每层输入的分布总是发生变化，加入BN，通过标准化上层输出，均衡输入数据分布，加快训练速度，因此可以设置较大的学习率（Learning Rate）和衰减（Decay）；

通过标准化输入，降低激活函数（Activation Function）在特定输入区间达到饱和状态的概率，避免梯度弥散（Gradient Vanishing）问题；

输入标准化对应样本正则化，BN在一定程度上可以替代 Dropout解决过拟合问题。

BN算法：

    在卷积或池化之后，激活函数之前，对每个数据输出进行标准化，方式如下图所示：

    公式很简单，前三行是 Batch内数据归一化（假设一个Batch中有每个数据），同一Batch内数据近似代表了整体训练数据。第四行引入了附加参数 γ 和 β，此二者的取值算法可以参考BN论文，在此不再赘述。

    fine-tuning：用已经训练好的模型，加上自己的数据集，来训练新的模型。即使用别人的模型的前几层，来提取浅层特征，而非完全重新训练模型，从而提高效率。一般新训练模型准确率都会从很低的值开始慢慢上升，但是fine-tuning能够让我们在比较少的迭代次数之后得到一个比较好的效果。

    YOLO模型分为两部分，分类模型和检测模型，前者使用在ImageNet上预训练好的模型，后者在检测数据集上fine-tuning。

    YOLOv1在预训练时采用的是224*224的输入（在ImageNet数据集上进行），然后在检测的时候采用448*448的输入，这会导致从分类模型切换到检测模型的时候，模型还要适应图像分辨率的改变。

    YOLOv2则将预训练分成两步：先用224*224的输入在ImageNet数据集训练分类网络，大概160个epoch（将所有训练数据循环跑160次）后将输入调整到448*448，再训练10个epoch（这两步都是在ImageNet数据集上操作）。然后利用预训练得到的模型在检测数据集上fine-tuning。这样训练得到的模型，在检测时用448*448的图像作为输入可以顺利检测。

    YOLOv1将输入图像分成7*7的网格，每个网格预测2个Bounding Box，因此一共有98个Box，同时YOLOv1包含有全连接层，从而能直接预测Bounding Boxes的坐标值，但也导致丢失较多的空间信息，定位不准。

    YOLOv2首先将YOLOv1网络的FC层和最后一个Pooling层去掉，使得最后的卷积层可以有更高分辨率的特征，然后缩减网络，用416*416大小的输入代替原来的448*448，使得网络输出的特征图有奇数大小的宽和高，进而使得每个特征图在划分单元格（Cell）的时候只有一个中心单元格（Center Cell）。

    为什么希望只有一个中心单元格呢？由于图片中的物体都倾向于出现在图片的中心位置，特别是比较大的物体，所以有一个单元格单独位于物体中心的位置用于预测这些物体。

    YOLOv2通过引入Anchor Boxes，通过预测Anchor Box的偏移值与置信度，而不是直接预测坐标值。YOLOv2的卷积层采用32这个值来下采样图片，所以通过选择416*416用作输入尺寸最终能输出一个13*13的特征图。若采用FSRCNN中的方式，每个Cell可预测出9个Anchor Box，共13*13*9=1521个（YOLOv2确定Anchor Boxes的方法见是维度聚类，每个Cell选择5个Anchor Box）。

    在FSRCNN中，以一个51*39大小的特征图为例，其可以看做一个尺度为51*39的图像，对于该图像的每一个位置，考虑9个可能的候选窗口：3种面积3种比例。这些候选窗口称为Anchor Boxes。下图示出的是51*39个Anchor Box中心，以及9种Anchor Box示例。

YOLOv1和YOLOv2特征图数据结构：

YOLOv1：S*S* (B*5 + C) => 7*7（2*5+20）

    其中B对应Box数量，5对应边界框的定位信息（w,y,w,h）和边界框置信度（Confidience）。分辨率是7*7，每个Cell预测2个Box，这2个Box共用1套条件类别概率（1*20）。

YOLOv2：S*S*K* (5 + C) => 13*13*9（5+20）

    分辨率提升至13*13，对小目标适应性更好，借鉴了FSRCNN的思想，每个Cell对应K个Anchor box（YOLOv2中K=5），每个Anchor box对应1组条件类别概率（1*20）。

    聚类：聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。即在没有划分类别的情况下，根据数据相似度进行样本分组。

    在FSR-CNN中Anchor Box的大小和比例是按经验设定的，然后网络会在训练过程中调整Anchor Box的尺寸，最终得到准确的Anchor Boxes。若一开始就选择了更好的、更有代表性的先验Anchor Boxes，那么网络就更容易学到准确的预测位置。

    YOLOv2使用K-means聚类方法类训练Bounding Boxes，可以自动找到更好的宽高维度的值用于一开始的初始化。传统的K-means聚类方法使用的是欧氏距离函数，意味着较大的Anchor Boxes会比较小的Anchor Boxes产生更多的错误，聚类结果可能会偏离。由于聚类目的是确定更精准的初始Anchor Box参数，即提高IOU值，这应与Box大小无关，因此YOLOv2采用IOU值为评判标准，即K-means 采用的距离函数（度量标准）为：

d(box,centroid) = 1 - IOU(box,centroid)

    如下图，左边是聚类的簇个数和IOU的关系，两条曲线分别代表两个不同的数据集。分析聚类结果并权衡模型复杂度与IOU值后，YOLOv2选择K=5，即选择了5种大小的Box 维度来进行定位预测。

    其中紫色和灰色也是分别表示两个不同的数据集，可以看出其基本形状是类似的。更重要的是，可以看出聚类的结果和手动设置的Anchor Box位置和大小差别显着——结果中扁长的框较少，而瘦高的框更多（更符合行人的特征）。

    YOLOv2采用的5种Anchor的Avg IOU是61，而采用9种Anchor Boxes的Faster RCNN的Avg IOU是60.9，也就是说本文仅选取5种box就能达到Faster RCNN的9中box的效果。选择值为9的时候，AVG IOU更有显着提高。说明K-means方法的生成的boxes更具有代表性。

    直接对Bounding Boxes求回归会导致模型不稳定，其中心点可能会出现在图像任何位置，有可能导致回归过程震荡，甚至无法收敛，尤其是在最开始的几次迭代的时候。大多数不稳定因素产生自预测Bounding Box的中心坐标（x,y）位置的时候。

    YOLOv2的网络在特征图（13*13）的每一个单元格中预测出5个Bounding Boxes（对应5个Anchor Boxes），每个Bounding Box预测出5个值（tx,ty,tw,th,t0），其中前4个是坐标偏移值，t0是置信度结果（类似YOLOv1中的边界框置信度Confidence）。YOLOv2借鉴了如下的预测方式，即当Anchor Box的中心坐标和宽高分别是（xa,ya）和（wa,wh）时，Bounding Box坐标的预测偏移值（tx,ty,tw,th）与其坐标宽高（x,y,w,h）的关系如下：

tx = (x-xa)/wa

ty= (y-ya)/ha

tw = log(w/wa)

th = log(h/ha)

    基于这种思想，YOLOv2在预测Bounding Box的位置参数时采用了如下强约束方法：

    上图中，黑色虚线框是Anchor Box，蓝色矩形框就是预测的Bounding Box结果，预测出的Bounding Box的坐标和宽高为（bx,by）和（bw,bh），计算方式如图中所示，其中：对每个Bounding Box预测出5个值（tx,ty,tw,th,t0），Cell与图像左上角的横纵坐标距离为（cx,cy），σ定义为sigmoid激活函数（将函数值约束到［0,1］），该Cell对应的Anchor Box对应的宽高为（pw,ph）。

    简而言之，（bx,by）就是（cx,cy）这个Cell附近的Anchor Box针对预测值（tx,ty）得到的Bounding Box的坐标预测结果，同时可以发现这种方式对于较远距离的Bounding Box预测值（tx,ty）能够得到很大的限制。

    YOLOv2通过添加一个转移层，把高分辨率的浅层特征连接到低分辨率的深层特征（把特征堆积在不同Channel中）而后进行融合和检测。具体操作是先获取前层的26*26的特征图，将其同最后输出的13*13的特征图进行连接，而后输入检测器进行检测（检测器的FC层起到了全局特征融合的作用），以此来提高对小目标的检测能力。

    为了适应不同尺度下的检测任务，YOLOv2在训练网络时，其在检测数据集上fine-tuning时候采用的输入图像的size是动态变化的。具体来讲，每训练10个Batch，网络就会随机选择另一种size的输入图像。因为YOLOv2用到了参数是32的下采样，因此也采用32的倍数作为输入的size，即采用{320,352,…,608}的输入尺寸（网络会自动改变尺寸，并继续训练的过程）。

这一策略让网络在不同的输入尺寸上都能达到较好的预测效果，使同一网络能在不同分辨率上进行检测。输入图片较大时，检测速度较慢，输入图片较小时，检测速度较快，总体上提高了准确率，因此多尺度训练算是在准确率和速度上达到一个平衡。

    上表反映的是在检测时，不同大小的输入图片情况下的YOLOv2和其他目标检测算法的对比。可以看出通过多尺度训练的检测模型，在测试的时候，输入图像在尺寸变化范围较大的情况下也能取得mAP和FPS的平衡。

    YOLOv1采用的训练网络是GoogleNet，YOLOv2采用了新的分类网络Darknet-19作为基础网络，它使用了较多的3*3卷积核，并把1*1的卷积核置于3*3的卷积核之间，用来压缩特征，同时在每一次池化操作后把通道（Channels）数翻倍（借鉴VGG网络）。

    YOLOv1采用的GooleNet包含24个卷积层和2个全连接层，而Darknet-19包含19个卷积层和5个最大池化层（Max Pooling Layers），后面添加Average Pooling层（代替v1中FC层），而Softmax分类器作为激活被用在网络最后一层，用来进行分类和归一化。

    在ImageNet数据集上进行预训练，主要分两步（采用随机梯度下降法）：

输入图像大小是224*224，初始学习率（Learning Rate）为0.1，训练160个epoch，权值衰减（Weight Decay）为0.0005，动量（Momentum）为0.9，同时在训练时采用标准的数据增强（Data Augmentation）方式如随机裁剪、旋转以及色度、亮度的调整。

fine-tuning：第1步结束后，改用448*448输入（高分辨率模型），学习率改为0.001，训练10个epoch，其他参数不变。结果表明：fine-tuning后的top-1准确率为76.5%，top-5准确率为93.3%，若按照原来的训练方式，Darknet-19的top-1准确率是72.9%，top-5准确率为91.2%。可以看出，两步分别从网络结构和训练方式方面入手提高了网络分类准确率。

    预训练之后，开始基于检测的数据集再进行fine-tuning。

    首先，先把最后一个卷积层去掉，然后添加3个3*3的卷积层，每个卷积层有1024个卷积核，并且后面都连接一个1*1的卷积层，卷积核个数（特征维度）根据需要检测的类数量决定。（比如对VOC数据，每个Cell需要预测5个Boungding Box，每个Bounding Box有4个坐标值、1个置信度值和20个条件类别概率值，所以每个单元格对应125个数据，此时卷积核个数应该取125。）

    然后，将最后一个3*3*512的卷积层和倒数第2个卷积层相连（提取细粒度特征），最后在检测数据集上fine-tuning预训练模型160个epoch，学习率采用0.001，并且在第60和90个epoch的时候将学习率除以10，权值衰减、动量和数据增强方法与预训练相同。

    YOLO9000通过结合分类和检测数据集，使得训练得到的模型可以检测约9000类物体，利用带标注的分类数据集量比较大的特点，解决了带标注的检测数据集量比较少的问题。具体方法是：一方面采用WordTree融合数据集，另一方面联合训练分类数据集和检测数据集。

    分类数据集和检测数据集存在较大差别：检测数据集只有粗粒度的标记信息，如“猫”、“狗”，而分类数据集的标签信息则更细粒度，更丰富。比如“狗”就包括“哈士奇”、“金毛狗”等等。所以如果想同时在检测数据集与分类数据集上进行训练，那么就要用一种一致性的方法融合这些标签信息。

    用于分类的方法，常用Softmax（比如v2），Softmax意味着分类的类别之间要互相独立的，而ImageNet和COCO这两种数据集之间的分类信息不相互独立（ImageNet对应分类有9000种，而COCO仅提供80种目标检测），所以使用一种多标签模型来混合数据集，即假定一张图片可以有多个标签，并且不要求标签之间独立，而后进行Softmax分类。

    由于ImageNet的类别是从WordNet选取的，作者采用以下策略重建了一个树形结构（称为WordTree）：

遍历ImageNet的标签，然后在WordNet中寻找该标签到根节点(所有的根节点为实体对象)的路径；

如果路径只有一条，将该路径直接加入到WordTree结构中；

否则，从可选路径中选择一条最短路径，加入到WordTree结构中。

WordTree的作用就在于将两种数据集按照层级进行结合。

    如此，在WordTree的某个节点上就可以计算该节点的一些条件概率值，比如在terrier这个节点，可以得到如下条件概率值：

    进而，如果要预测此节点的概率（即图片中目标是Norfolk terrier的概率），可以根据WordTree将该节点到根节点的条件概率依次相乘得到，如下式：

其中：

    YOLO9000在WordTree1k（用有1000类别的ImageNet1k创建）上训练了Darknet-19模型。为了创建WordTree1k作者添加了很多中间节点（中间词汇），把标签由1000扩展到1369。

    训练过程中GroundTruth标签要顺着向根节点的路径传播：为了计算条件概率，模型预测了一个包含1369个元素的向量，而且基于所有“同义词集”计算Softmax，其中“同义词集”是同一概念下的所属词。

    现在一张图片是多标记的，标记之间不需要相互独立。在训练过程中，如果有一个图片的标签是“Norfolk terrier”，那么这个图片还会获得“狗”以及“哺乳动物”等标签。

    如上图所示，之前的ImageNet分类是使用一个大Softmax进行分类，而现在WordTree只需要对同一概念下的同义词进行Softmax分类。然后作者分别两个数据集上用相同训练方法训练Darknet-19模型，最后在ImageNet数据集上的top-1准确率为72.9%，top-5准确率为91.2%；在WordTree数据集上的top-1准确率为71.9%，top-5准确率为90.4%。

    这种方法的好处是有“退而求其次”的余地：在对未知或者新的物体进行分类时，性能损失更低，比如看到一个狗的照片，但不知道是哪种种类的狗，那么就预测其为“狗”。

    以上是构造WordTree的原理，下图是融合COCO数据集和ImageNet数据集以及生成它们的WordTree的示意图（用颜色区分了COCO数据集和ImageNet数据集的标签节点），混合后的数据集对应的WordTree有9418个类。另一方面，由于ImageNet数据集太大，YOLO9000为了平衡两个数据集之间的数据量，通过过采样（Oversampling）COCO数据集中的数据，使COCO数据集与ImageNet数据集之间的数据量比例达到1：4。

    对YOLO9000进行评估，发现其mAP比DPM高，而且YOLO有更多先进的特征，YOLO9000是用部分监督的方式在不同训练集上进行训练，同时还能检测9000个物体类别，并保证实时运行。虽然YOLO9000对动物的识别性能很好，但是对衣服或者装备的识别性能不是很好（这跟数据集的数据组成有关）。

    YOLO9000的网络结构和YOLOv2类似，区别是每个单元格只采用3个Anchor Boxes。

    YOLO9000提出了一种在分类数据集和检测数据集上联合训练的机制，即使用检测数据集（COCO）的图片去学习检测相关的信息即查找对象（例如预测边界框坐标、边界框是否包含目标及目标属于各个类别的概率），使用仅有类别标签的分类数据集（ImageNet）中的图片去扩展检测到的对象的可识别种类。

    具体方法是：当网络遇到一个来自检测数据集的图片与标记信息，就把这些数据用完整的损失函数（v2和9000均沿用了v1网络的损失函数）反向传播，而当网络遇到一个来自分类数据集的图片和分类标记信息，只用代表分类误差部分的损失函数反向传播这个图片。

    YOLO v2 在大尺寸图片上能够实现高精度，在小尺寸图片上运行更快，可以说在速度和精度上达到了平衡，具体性能表现如下所示。

coco数据集

voc2012数据集

5. 开拓低空AI新蓝海，星逻祺云AI算法平台亮相WAIC

SKYSYS

近日，2021届世界人工智能大会在上海召开。本次大会以 “智联世界，众智成城” 为主题，共同拥抱数字经济，创享智慧未来。星逻智能联合创始人兼AI技术总监肖素枝受邀参加AI菁英女性论坛，并代表星逻智能，在大会上发布 无人机低空AI算法平台 的全新解决方案。

作为无人机低空AI算法提供商，五年来，星逻智能在无人机赋能领域持续深耕，截至目前已实现 百台无人机自动化系统的部署 。随着近年来在行业领域的持续深耕，星逻智能意识到，传统的数据流转已无法满足各行业用户的实际需求，如何让 巡检任务更加简单、巡检效率更加高效、巡检结果更加“聪明” ，是行业内需待解决的难题。

星逻智能拥有完整的AI飞采与AI分析算法团队，具有近六年无人机全自动化系统运营经验，对各行业用户的实际需求有更深刻的理解。截止目前，星逻智能凭借无人机+AI智能算法服务 全国二十余个省市、三十余个应用场景 ，为各行各业提供解决方案，实现城市违建识别、车牌识别以及红蓝藻检测等多个行业场景的项目落地，降低成本，提高生产效率，解决了以往单靠人力巡检困难的问题。

此次无人机低空AI算法平台的发布，引领了无人机全自动化行业向AI算法发展的新浪潮。星逻智能希望通过AI算法的数据驱动，助力整个无人机生态的产业转型升级，从已经成熟的地面自动化，到目前的飞行采集自动化，星逻智能不断创新，迎接即将到来的的数据分析自动化时代。

在此次世界人工智能大会中，肖素枝表示，一直以来无人机自动化行业还停留在数据搬运阶段，星逻率先进入数据变现阶段。如今，星逻希望做 AI生态的共建者 ，提供低空45 /90 视角算法，创新无人机AI生态领域。

以数字化助力行业用户发展一直以来都是星逻探索的愿景。在未来，星逻智能将持续赋能无人机AI领域，开拓 低空45 /90 视角AI新蓝海 ，变革行业生态，以更智能化的技术引领无人机赋能行业的新浪潮！

商务合作及产品业务咨询TEL:400-860-8819

招贤纳士：[email protected]

技术咨询：[email protected]

- END -

6. vivo自研芯片V1开启硬件级算法时代将于X70系列亮相

2021年9月6日，vivo“芯之所像”主题影像技术分享会正式召开。vivo自主研发的首款专业影像芯片——vivo V1亮相，全面开启手机硬件级算法时代。

分享会中，超高透玻璃镜片、全新镀膜工艺、蔡司自然色彩等vivo手机影像技术新成果一同亮相。通过与蔡司在影像芯片、光学器件和软件算法的全面协同合作，vivo在技术上大幅提升了夜间拍摄体验、减少眩光和鬼影，在专业人像和色彩上不断提升。

vivo V1——vivo首款自主研发专业影像芯片

超大广角、潜望变焦的出现，一次次突破人们对于手机摄影光学器件的想象。面对复杂光线、暗光场景、极限夜景以及众多视频拍摄场景时，手机的影像算力、芯片功耗都需要进一步升级进化。

最终，vivo与手机SoC厂商深度合作，历时24个月、投入超300人研发，用自研专业影像芯片V1给出了答案。

作为一款全定制的特殊规格集成芯片，专业影像芯片V1与主芯片协作，效果体验兼容兼得，拥有高算力、低时延、低功耗的特性。

在既定的业务下，V1既可以像CPU一样高速处理复杂运算，也可以像GPU和DSP一样，完成数据的并行处理。面对大量复杂运算，V1在能效比上相比DSP和CPU有指数级提升。

为实现其同期处理能力最大化，vivo优化数据在芯片内部的储存架构和高速读写电路，实现等效32MB的超大缓存，全片上储存。超越目前部分旗舰级桌面电脑处理器，做到低时延实时降噪插帧。

此外，在主芯片ISP强大成像能力的基础上，叠加专业影像芯片V1内计算成像算法，在高速处理同等计算量任务时，相比软件实现的方式，V1的专用算法使硬件电路功耗降低50%。

得益于V1高速数据处理，实现夜景实时预览成片

在手机影像的道路上，vivo对极致影像的技术突破不断探索。专业影像芯片V1的亮相，是vivo芯片战略的第一步，未来vivo将会在芯片领域进行更全面的探索，针对特定场景拓展，最终实现全场景目标。

超低色散高透玻璃镜片突破手机光学器件天花板

受制于空间限制，手机拍照要实现进一步跨越，做到镜头的升级，难度更大。此次vivo投入巨大研发成本，与蔡司团队经过多轮验证，最终克服了工艺、良品率等技术限制，在手机上实现了高规格玻璃镜片，做到高透光率、超低色散、热稳定强的效果。大幅降低了夜景拍摄时眩光鬼影的出现。

相较塑料镜片，玻璃镜片有着天然的低色散优势。vivo的超低色散高透玻璃镜片，进一步降低色散，在衡量色散能力的权威指标阿贝数上，得到了突破手机镜头阿贝数值的行业最高分81.6，比肩专业相机镜片，有效解决高反差场景的紫边、伪色等问题。

超低色散高透玻璃镜片同样达到了更高的纯净度，中心透过率提高至最大95%。采用AOA动态光学校准工艺，调整镜片厚度误差和镜片偏心误差引起的清晰度降低问题，保证最终镜头的光学品质。

多重镀膜抑制眩光鬼影，与蔡司共同树立行业高标准

自诞生以来，蔡司T*镀膜一直是蔡司的看家本领，也是高画质成像的有力保障。得益于此，vivo蔡司携手将先进的镀膜技术应用在手机镜头中，带来媲美专业相机的成像效果。

面对炫光和鬼影等行业传统难题，vivo创新引入SWC镀膜技术。基于仿生学原理，充分抑制反射光，反射率最低降低至0.1%，大幅提升纯净度。此外，vivo独家首发ALD原子层沉积工艺，在超高透玻璃镜片上形成纳米级镀膜，进一步降低光线反射。

花瓣鬼影问题同样是手机拍照甩不掉的阴影。vivo在镜头中采用色素旋涂技术，解决色素与蓝玻璃的附着力问题，涂层厚度薄至2um，经过10次以上的不同工艺参数调试，最终实现量产。可以说，不论是工艺还是材质，vivo都是当前手机光学器件的行业翘楚。

忠实还原人眼所见演绎蔡司自然色彩

vivo在历经3年10款机型的打磨中，形成了自己“鲜活”、“明快”、“有质感”的独有风格——vivo色彩。在此次分享会上，vivo对于色彩，又有了新的解读。

“专业创作者更倾向于忠实还原人眼所见的自然色彩”。为此vivo携手蔡司深入探讨制定了所见即所得的真实色彩理念，通过140个色卡表现以及引入3D色彩映射矩阵算法调教262144个参数，使色相进一步准确，饱和度处理更加精细，最终使照片色相准确度ΔE提升约15.5%，领先业界带来蔡司自然色彩。

在人像赛道中，vivo与蔡司持续进行研发与调教。于人像模式中内置蔡司镜头风格，深度还原蔡司经典的Biotar和Sonnar等镜头效果，带来蔡司质感人像，赋能大众创作，让人人都可以成为人像摄影大师。

坚定vivo影像长赛道让每个人都能享受创作带来的乐趣

vivo将影像上的技术研发，看作系统性的技术工程。通过平台、器件、算法等各方面的共同协作，提升最后的成像品质。专业影像芯片V1芯片的亮相，开启了手机影像行业的下一个时代——硬件级算法时代。

vivo希望通过对手机影像不断的人文思考和技术探索，为用户带来场景、人、影像的无界体验。即不给场景设限，何时何地想拍就拍；不给人设限，让所有人都能拍出更好的作品；不给影像设限，让手机影像的表达更加有力、直抵人心。

坚持影像长赛道，不断满足消费者需求，vivo在技术研发上突破想象力，在光学设计上追求极致，在人性化的专业影像道路上大步前行，让每个人都有机会成为创作者。

专业影像旗舰vivo X70系列将于9月9日19点30分正式亮相。届时搭载专业影像芯片V1的首款旗舰新品将正式到来，邀请您持续关注。

7. 优化算法笔记（二）优化算法的分类

（以下描述，均不是学术用语，仅供大家快乐的阅读）

在分类之前，我们先列举一下常见的优化算法（不然我们拿什么分类呢？）。
1遗传算法Genetic algorithm
2粒子群优化算法Particle Swarm Optimization
3差分进化算法Differential Evolution
4人工蜂群算法Artificial Bee Colony
5蚁群算法Ant Colony Optimization
6人工鱼群算法Artificial Fish Swarm Algorithm
7杜鹃搜索算法Cuckoo Search
8萤火虫算法Firefly Algorithm
9灰狼算法Grey Wolf Optimizer
10鲸鱼算法Whale Optimization Algorithm
11群搜索算法Group search optimizer
12混合蛙跳算法Shuffled Frog Leaping Algorithm
13烟花算法fireworks algorithm
14菌群优化算法Bacterial Foraging Optimization
以上优化算法是我所接触过的算法，没接触过的算法不能随便下结论，知之为知之，不知为不知。其实到目前为止优化算法可能已经有几百种了，我们不可能也不需要全面的了解所有的算法，而且优化算法之间也有较大的共性，深入研究几个之后再看其他优化算法上手速度会灰常的快。
优化算法从提出到现在不过50-60年（遗传算法1975年提出），虽种类繁多但大多较为相似，不过这也很正常，比较香蕉和人的基因相似度也有50%-60%。当然算法之间的相似度要比香蕉和人的相似度更大，毕竟人家都是优化算法，有着相同的目标，只是实现方式不同。就像条条大路通罗马，我们可以走去，可以坐汽车去，可以坐火车去，也可以坐飞机去，不管使用何种方式，我们都在去往罗马的路上，也不会说坐飞机去要比走去更好，交通工具只是一个工具，最终的方案还是要看我们的选择。

上面列举了一些常见的算法，即使你一个都没见过也没关系，后面会对它们进行详细的介绍，但是对后面的分类可能会有些许影响，不过问题不大，就先当总结看了。
再对优化算法分类之前，先介绍一下算法的模型，在笔记（一）中绘制了优化算法的流程，不过那是个较为简单的模型，此处的模型会更加复杂。上面说了优化算法有较大的相似性，这些相似性主要体现在算法的运行流程中。
优化算法的求解过程可以看做是一个群体的生存过程。

有一群原始人，他们要在野外中寻找食物，一个原始人是这个群体中的最小单元，他们的最终目标是寻找这个环境中最容易获取食物的位置，即最易存活下来的位置。每个原始人都去独自寻找食物，他们每个人每天获取食物的策略只有采集果实、制作陷阱或者守株待兔，即在一天之中他们不会改变他们的位置。在下一天他们会根据自己的策略变更自己的位置。到了某一天他们又聚在了一起，选择了他们到过的最容易获取食物的位置定居。
一群原始人=优化算法中的种群、群体；
一个原始人=优化算法中的个体；
一个原始人的位置=优化算法中个体的位置、基因等属性；
原始人变更位置=优化算法中总群的更新操作；
该位置获取食物的难易程度=优化算法中的适应度函数；
一天=优化算法中的一个迭代；
这群原始人最终的定居位置=优化算法所得的解。
优化算法的流程图如下：

对优化算法分类得有个标准，按照不同的标准分类也会得到不一样的结果。首先说一下我所使用的分类标准（动态更新，有了新的感悟再加）：

按由来分类比较好理解，就是该算法受何种现象启发而发明，本质是对现象分类。

可以看出算法根据由来可以大致分为有人类的理论创造而来，向生物学习而来，受物理现象启发。其中向生物学习而来的算法最多，其他类别由于举例有偏差，不是很准确，而且物理现象也经过人类总结，有些与人类现象相交叉，但仍将其独立出来。
类别分好了，那么为什么要这么分类呢？

当然是因为要凑字数啦，啊呸，当然是为了更好的理解学习这些算法的原理及特点。
向动物生存学习而来的算法一定是一种行之有效的方法，能够保证算法的效率和准确性，因为，如果使用该策略的动物无法存活到我们可以对其进行研究，我们也无法得知其生存策略。（而这也是一种幸存者偏差，我们只能看到行之有效的策略，但并不是我们没看到的策略都是垃圾，毕竟也发生过小行星撞地球这种小概率毁灭性事件。讲个冷笑话开cou心一shu下:一只小恐龙对他的小伙伴说，好开心，我最喜欢的那颗星星越来越亮了（完）。）但是由于生物的局限性，人们所创造出的算法也会有局限性：我们所熟知的生物都生存在三维空间，在这些环境中，影响生物生存的条件比较有限，反应到算法中就是这些算法在解决较低维度的问题时效果很好，当遇到超高维（维度>500）问题时，结果可能不容乐观，没做过实验，我也不敢乱说。

按更新过程分类相对复杂一点，主要是根据优化算法流程中更新位置操作的方式来进行分类。更新位置的操作按我的理解可大致分为两类：1.跟随最优解；2.不跟随最优解。
还是上面原始人的例子，每天他有一次去往其他位置狩猎的机会，他们采用何种方式来决定今天自己应该去哪里呢？
如果他们的策略是“跟随最优解”，那么他们选取位置的方式就是按一定的策略向群体已知的最佳狩猎位置（历史最佳）或者是当前群体中的最佳狩猎位置（今天最佳）靠近，至于是直线跑过去还是蛇皮走位绕过去，这个要看他们群体的策略。当然，他们的目的不是在最佳狩猎位置集合，他们的目的是在过去的途中看是否能发现更加好的狩猎位置，去往已经到过的狩猎地点再次狩猎是没有意义的，因为每个位置获取食物的难易程度是固定的。有了目标，大家都会朝着目标前进，总有一日，大家会在谋个位置附近相聚，相聚虽好但不利于后续的觅食容易陷入局部最优。
什么是局部最优呢？假设在当前环境中有一“桃花源”，拥有上帝视角的我们知道这个地方就是最适合原始人们生存的，但是此地入口隐蔽“山有小口，仿佛若有光”、“初极狭，才通人。”，是一个难以发现的地方。如果没有任何一个原始人到达了这里，大家向着已知的最优位置靠近时，也难以发现这个“桃源之地”，而当大家越聚越拢之后，“桃源”被发现的可能性越来越低。虽然原始人们得到了他们的解，但这并不是我们所求的“桃源”，他们聚集之后失去了寻求“桃源”的可能，这群原始人便陷入了局部最优。

如果他们的策略是“不跟随最优解”，那么他们的策略是什么呢？我也不知道，这个应该他们自己决定。毕竟“是什么”比“不是什么”的范围要小的多。总之不跟随最优解时，算法会有自己特定的步骤来更新个体的位置，有可能是随机在自己附近找，也有可能是随机向别人学习。不跟随最优解时，原始人们应该不会快速聚集到某一处，这样一来他们的选择更具多样性。
按照更新过程对上面的算法分类结果如下

可以看出上面不跟随最优解的算法只有遗传算法和差分进化算法，他们的更新策略是与进化和基因的重组有关。因此这些不跟随最优解的算法，他们大多依据进化理论更新位置（基因）我把他们叫做进化算法，而那些跟随群体最优解的算法，他们则大多依赖群体的配合协作，我把这些算法叫做群智能算法。

目前我只总结了这两种，分类方法，如果你有更加优秀的分类方法，我们可以交流一下：

目录
上一篇优化算法笔记（一）优化算法的介绍
下一篇优化算法笔记（三）粒子群算法（1）

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：841

制作脚本网站发布：2025-10-20 08:17:34 浏览：1104

python中的init方法发布：2025-10-20 08:17:33 浏览：811

图案密码什么意思发布：2025-10-20 08:16:56 浏览：976

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：866

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1215

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：439

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：318

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：995

python股票数据获取发布：2025-10-20 07:39:44 浏览：962

算法相亮

与算法相亮相关的资讯