低角跟踪算法

发布时间: 2023-06-04 13:45:16

1. 目前最流行的机器学习算法是什么

毫无疑问，机器学习在过去几年越来越受欢迎。由于大数据是目前技术行业最热门的趋势，机器学习是非常强大的，可以根据大量数据进行预测或计算推理。
如果你想学习机器算法，要从何下手呢？
监督学习
1. 决策树：决策树是一种决策支持工具，使用的决策及其可能产生的后果，包括随机事件的结果，资源消耗和效用的树状图或模型。
从业务决策的角度来看，决策树是人们必须要选择是/否的问题，以评估大多数时候作出正确决策的概率。它允许您以结构化和系统的方式来解决问题，以得出逻辑结论。
2.朴素贝叶斯分类：朴素贝叶斯分类器是一种简单的概率分类器，基于贝叶斯定理，其特征之间具有强大（朴素）的独立性假设。
特征图像是方程 - P（A | B）是后验概率，P（B | A）是似然度，P（A）是类先验概率，P（B）是预测先验概率。
一些现实世界的例子是：
判断邮件是否为垃圾邮件
分类技术，将新闻文章氛围政治或体育类
检查一段表达积极情绪或消极情绪的文字
用于面部识别软件
3.普通最小二乘回归：如果你了解统计学，你可能已经听说过线性回归。最小二乘法是一种执行线性回归的方法。
您可以将线性回归视为拟合直线穿过点状分布的任务。有多种可能的策略可以做到这一点，“普通最小二乘法”策略就像这样 -你可以画一条线，然后把每个数据点，测量点和线之间的垂直距离，添加上去;拟合线将是距离总和的尽可能小的线。
线性是指您正在使用的模型来迎合数据，而最小二乘可以最小化线性模型误差。
4.逻辑回归： Logistic回归是一个强大的统计学方法，用一个或多个解释变量建模二项式结果。它通过使用逻辑函数估计概率，来衡量分类因变量与一个或多个独立变量之间的关系，后者是累积逻辑分布。
逻辑回归用于生活中：
信用评级
衡量营销活动的成功率
预测某一产品的收入
某一天会有地震吗
5.支持向量机： SVM是二元分类算法。给定N维空间中两种种类型的点，SVM生成（N-1）维的超平面将这些点分成2组。
假设你有一些可以线性分离的纸张中的两种类型的点。SVM将找到一条直线，将这些点分成两种类型，并尽可能远离所有这些点。
在规模上，使用SVM解决的一些特大的问题（包括适当修改的实现）是：广告、人类基因剪接位点识别、基于图像的性别检测，大规模图像分类...
6.集成方法：集成方法是构建一组分类器的学习算法，然后通过对其预测进行加权投票来对新的数据点进行分类。原始的集成方法是贝叶斯平均法，但更新的算法包括纠错输出编码、bagging和boosting。
那么集成方法如何工作，为什么它们优于单个模型？
均衡偏差：如果你均衡了大量的倾向民主党的投票和大量倾向共和党的投票，你总会得到一个不那么偏颇的结果。
降低方差：集合大量模型的参考结果，噪音会小于单个模型的单个结果。在金融领域，这被称为投资分散原则(diversification)——一个混搭很多种股票的投资组合，比单独的股票更少变故。
不太可能过度拟合：如果您有单个模型不完全拟合，您以简单的方式（平均，加权平均，逻辑回归）结合每个模型建模，那么一般不会发生过拟合。
无监督学习
7. 聚类算法：聚类是对一组对象进行分组的任务，使得同一组（集群）中的对象彼此之间比其他组中的对象更相似。
每个聚类算法是不同的，比如：
基于Centroid的算法
基于连接的算法
基于密度的算法
概率
降维
神经网络/深度学习
8. 主成分分析： PCA是使用正交变换将可能相关变量的观察值转换为主成分的线性不相关变量值的一组统计过程。
PCA的一些应用包括压缩、简化数据、便于学习、可视化。请注意，领域知识在选择是否继续使用PCA时非常重要。数据嘈杂的情况（PCA的所有组件都有很大差异）的情况不适用。
9.奇异值分解：在线性代数中，SVD是真正复杂矩阵的因式分解。对于给定的m * n矩阵M，存在分解，使得M =UΣV，其中U和V是酉矩阵，Σ是对角矩阵。
PCA实际上是SVD的简单应用。在计算机视觉技术中，第一个人脸识别算法使用PCA和SVD，以将面部表示为“特征脸”的线性组合，进行降维，然后通过简单的方法将面部匹配到身份;虽然这种方法更复杂，但仍然依赖于类似的技术。
10.独立成分分析： ICA是一种统计技术，用于揭示随机变量、测量或信号集合的隐藏因素。ICA定义了观察到的多变量数据的生成模型，通常将其作为大型样本数据库。
在模型中，假设数据变量是一些未知潜在变量的线性混合，混合系统也是未知的。潜变量被假定为非高斯和相互独立的，它们被称为观测数据的独立成分。
ICA与PCA相关，但它是一种更强大的技术，能够在这些经典方法完全失败时找到潜在的源因素。其应用包括数字图像、文档数据库、经济指标和心理测量。

2. 德云系：扩展模块的目标跟踪算法有哪些

你好，分为了以下四种：
1. KCF：TrackerKCF 使用目标周围区域的循环矩阵采集正负样本,利用脊回归训练目标检测器,并成功的利用循环矩阵在傅里叶空间可对角化的性质将矩阵的运算转化为向量的Hadamad积,即元素的点乘,大大降低了运算量,提高了运算速度,使算法满足实时性要求.
2.MIL：TrackerMIL 以在线方式训练分类器将对象与背景分离;多实例学习避免鲁棒跟踪的漂移问题
3. OLB：TrackerBoosting 基于AdaBoost算法的在线实时对象跟踪.分类器在更新步骤中使用周围背景作为反例以避免漂移问题.
4.MedianFlow：TrackerMedianFlow 跟踪器适用于非常平滑和可预测的运动,物体在整个序列中可见.
5.TLD：TrackerTLD 将长期跟踪任务分解为跟踪，学习和检测.跟踪器在帧之间跟踪对象.探测器本地化所观察到的所有外观,并在必要时纠正跟踪器.学习估计检测器的错误并进行更新以避免再出现这些错误.追踪器能够处理快速运动,部分遮挡,物体缺失等情况.

3. 计算机视觉中，目前有哪些经典的目标跟踪算法

第一章介绍运动的分类、计算机视觉领域中运动分析模型、计算机视觉领域运动检测和目标跟踪技术研究现状、计算机视觉领域中运动分析技术的难点等内容；
第二章介绍传统的运动检测和目标跟踪算法，包括背景差分法、帧间差分法、光流场评估算法等；
第三章介绍具有周期性运动特征的低速目标运动检测和跟踪算法，并以CCD测量系统为例介绍该算法的应用；
第四章介绍高速运动目标识别和跟踪算法，并以激光通信十信标光捕获和跟踪系统为例介绍该算法的应用；
第五章介绍具有复杂背景的目标运动检测过程中采用的光流场算法，包括正规化相关的特性及其改进光流场评估算法，并介绍改进光流场算法的具体应用；
第六章介绍互补投票法实现可信赖运动向量估计。

4. 目标跟踪检测算法（一）——传统方法

姓名：刘帆；学号：20021210609；学院：电子工程学院

https://blog.csdn.net/qq_34919792/article/details/89893214

【嵌牛导读】目标跟踪算法研究难点与挑战在于实际复杂的应用环境、背景相似干扰、光照条件的变化、遮挡等外界因素以及目标姿态变化，外观变形，尺度变化、平面外旋转、平面内旋转、出视野、快速运动和运动模糊等。而且当目标跟踪算法投入实际应用时，不可避免的一个问题——实时性问题也是非常的重要。正是有了这些问题，才使得算法研究充满着难点和挑战。

【嵌牛鼻子】目标跟踪算法，传统算法

【嵌牛提问】利用目标跟踪检测算法要达到何目的?第一阶段的单目标追踪算法包括什么?具体步骤有哪些?它们有何特点?

【嵌牛正文】

第一阶段

目标跟踪分为两个部分，一个是对指定目标寻找可以跟踪的特征，常用的有颜色，轮廓，特征点，轨迹等，另一个是对目标特征进行跟踪。

1、静态背景

1）背景差：对背景的光照变化、噪声干扰以及周期性运动等进行建模。通过当前帧减去背景图来捕获运动物体的过程。

2）帧差：由于场景中的目标在运动，目标的影像在不同图像帧中的位置不同。该类算法对时间上连续的两帧或三帧图像进行差分运算，不同帧对应的像素点相减，判断灰度差的绝对值，当绝对值超过一定阈值时，即可判断为运动目标，从而实现目标的检测功能。

与二帧差分法不同的是，三帧差分法（交并运算）去除了重影现象，可以检测出较为完整的物体。帧间差分法的原理简单，计算量小，能够快速检测出场景中的运动目标。但帧间差分法检测的目标不完整，内部含有“空洞”，这是因为运动目标在相邻帧之间的位置变化缓慢，目标内部在不同帧图像中相重叠的部分很难检测出来。帧间差分法通常不单独用在目标检测中，往往与其它的检测算法结合使用。

3）Codebook

算法为图像中每一个像素点建立一个码本，每个码本可以包括多个码元（对应阈值范围），在学习阶段，对当前像素点进行匹配，如果该像素值在某个码元的学习阈值内，也就是说与之前出现过的某种历史情况偏离不大，则认为该像素点符合背景特征，需要更新对应点的学习阈值和检测阈值。

如果新来的像素值与每个码元都不匹配，则可能是由于动态背景导致，这种情况下，我们需要为其建立一个新的码元。每个像素点通过对应多个码元，来适应复杂的动态背景。

在应用时，每隔一段时间选择K帧通过更新算法建立CodeBook背景模型，并且删除超过一段时间未使用的码元。

4）GMM

混合高斯模型（Gaussian of Micture Models，GMM）是较常用的背景去除方法之一（其他的还有均值法、中值法、滑动平均滤波等）。

首先我们需要了解单核高斯滤波的算法步骤：

混合高斯建模GMM（Gaussian Mixture Model）作为单核高斯背景建模的扩展，是目前使用最广泛的一种方法，GMM将背景模型描述为多个分布，每个像素的R、G、B三个通道像素值的变化分别由一个混合高斯模型分布来刻画，符合其中一个分布模型的像素即为背景像素。作为最常用的一种背景建模方法，GMM有很多改进版本，比如利用纹理复杂度来更新差分阈值，通过像素变化的剧烈程度来动态调整学习率等。

5）ViBe（2011）

ViBe算法主要特点是随机背景更新策略，这和GMM有很大不同。其步骤和GMM类似。具体的思想就是为每个像素点存储了一个样本集，样本集中采样值就是该像素点过去的像素值和其邻居点的像素值，然后将每一个新的像素值和样本集进行比较来判断是否属于背景点。

其中pt（x）为新帧的像素值，R为设定值，p1、p2、p3….为样本集中的像素值，以pt（x）为圆心R为半径的圆被认为成一个集，当样本集与此集的交集大于设定的阈值#min时，可认为此为背景像素点（交集越大，表示新像素点与样本集越相关）。我们可以通过改变#min的值与R的值来改变模型的灵敏度。

Step1：初始化单帧图像中每个像素点的背景模型。假设每一个像素和其邻域像素的像素值在空域上有相似的分布。基于这种假设，每一个像素模型都可以用其邻域中的像素来表示。为了保证背景模型符合统计学规律，邻域的范围要足够大。当输入第一帧图像时，即t=0时，像素的背景模型。其中，NG（x,y）表示空域上相邻的像素值，f(xi,yi)表示当前点的像素值。在N次的初始化的过程中，NG（x,y）中的像素点(xi,yi)被选中的可能次数为L=1,2,3,…,N。

Step2：对后续的图像序列进行前景目标分割操作。当t=k时，像素点(x,y)的背景模型为BKm(x,y)，像素值为fk(x,y)。按照下面判断该像素值是否为前景。这里上标r是随机选的；T是预先设置好的阈值。当fk(x,y)满足符合背景#N次时，我们认为像素点fk(x,y)为背景，否则为前景。

Step3：ViBe算法的更新在时间和空间上都具有随机性。每一个背景点有1/ φ的概率去更新自己的模型样本值，同时也有1/ φ的概率去更新它的邻居点的模型样本值。更新邻居的样本值利用了像素值的空间传播特性，背景模型逐渐向外扩散，这也有利于Ghost区域的更快的识别。同时当前景点计数达到临界值时将其变为背景，并有1/ φ的概率去更新自己的模型样本值（为了减少缓慢移动物体的影响和摄像机的抖动）。

可以有如下总结，ViBe中的每一个像素点在更新的时候都有一个时间和空间上随机影响的范围，这个范围很小，大概3x3的样子，这个是考虑到摄像头抖动时会有坐标的轻微来回变化，这样虽然由于ViBe的判别方式仍认为是背景点，但是也会对后面的判别产生影响，为了保证空间的连续性，随机更新减少了这个影响。而在样本值保留在样本集中的概率随着时间的增大而变小，这就保证了像素模型在时间上面的延续特性。

6）光流

光流是由物体或相机的运动引起的图像对象在两个连续帧之间的视在运动模式。它是2D矢量场，其中每个矢量是一个位移矢量，显示点从第一帧到第二帧的移动。

光流实际上是一种特征点跟踪方法，其计算的为向量，基于三点假设：

1、场景中目标的像素在帧间运动时亮度（像素值或其衍生值）不发生变化；2、帧间位移不能太大；3、同一表面上的邻近点都在做相同的运动；

光流跟踪过程：1）对一个连续视频帧序列进行处理；2）对每一帧进行前景目标检测；3）对某一帧出现的前景目标，找出具有代表性的特征点（Harris角点）；4）对于前后帧做像素值比较，寻找上一帧在当前帧中的最佳位置，从而得到前景目标在当前帧中的位置信息；5）重复上述步骤，即可实现目标跟踪

2、运动场（分为相机固定，但是视角变化和相机是运动的）

1）运动建模（如视觉里程计运动模型、速度运动模型等）

运动学是对进行刚性位移的相机进行构型，一般通过6个变量来描述，3个直角坐标，3个欧拉角（横滚、俯仰、偏航）。

Ⅰ、对相机的运动建模

由于这个不是我们本次所要讨论的重点，但是在《概率机器人》一书中提出了很多很好的方法，相机的运动需要对图像内的像素做位移矩阵和旋转矩阵的坐标换算。除了对相机建立传统的速度运动模型外，也可以用视觉里程计等通关过置信度的更新来得到概率最大位置。

Ⅱ、对于跟踪目标的运动建模

该方法需要提前通过先验知识知道所跟踪的目标对象是什么，比如车辆、行人、人脸等。通过对要跟踪的目标进行建模，然后再利用该模型来进行实际的跟踪。该方法必须提前知道要跟踪的目标对象是什么，然后再去跟踪指定的目标，这是它的局限性，因而其推广性相对比较差。（比如已知跟踪的物体是羽毛球，那很容易通过前几帧的取点，来建立整个羽毛球运动的抛物线模型）

2）核心搜索算法（常见的预测算法有Kalman(卡尔曼)滤波、扩展卡尔曼滤波、粒子滤波）

Ⅰ、Kalman 滤波

Kalman滤波器是通过前一状态预测当前状态，并使用当前观测状态进行校正，从而保证输出状态平稳变化，可有效抵抗观测误差。因此在运动目标跟踪中也被广泛使用。

在视频处理的运动目标跟踪里，每个目标的状态可表示为(x,y,w,h)，x和y表示目标位置，w和h表示目标宽高。一般地认为目标的宽高是不变的，而其运动速度是匀速，那么目标的状态向量就应该扩展为(x,y,w,h,dx,dy)，其中dx和dy是目标当前时刻的速度。通过kalman滤波器来估计每个时刻目标状态的大致过程为：

对视频进行运动目标检测，通过简单匹配方法来给出目标的第一个和第二个状态，从第三个状态开始，就先使用kalman滤波器预测出当前状态，再用当前帧图像的检测结果作为观测值输入给kalman滤波器，得到的校正结果就被认为是目标在当前帧的真实状态。(其中，Zt为测量值，为预测值，ut为控制量，Kt为增益。)

Ⅱ、扩展卡尔曼滤波（EKF）和无迹卡尔曼滤波（UKF）

由于卡尔曼滤波的假设为线性问题，无法直接用在非线性问题上，EKF和UKF解决了这个问题（这个线性问题体现在用测量量来计算预测量的过程中）。EKF是通过构建线性函数g(x)，与非线性函数相切，并对每一时刻所求得的g（x）做KF，如下图所示。

UKF与EKF去求解雅可比矩阵拟合线性方程的方法不同，通过对那个先验分布中的采集点，来线性化随机变量的非线性函数。与EKF所用的方法不同，UKF产生的高斯分布和实际高斯分布更加接近，其引起的近似误差也更小。

Ⅲ、粒子滤波

1、初始状态：基于粒子滤波的目标追踪方法是一种生成式跟踪方法，所以要有一个初始化的阶段。对于第一帧图像，人工标定出待检测的目标，对该目标区域提出特征；

2、搜索阶段：现在已经知道了目标的特征，然后就在目标的周围撒点(particle), 如：a)均匀的撒点;b)按高斯分布撒点，就是近的地方撒得多，远的地方撒的少。论文里使用的是后一种方法。每一个粒子都计算所在区域内的颜色直方图，如初始化提取特征一样，然后对所有的相似度进行归一化。文中相似性使用的是巴氏距离；

3、重采样：根据粒子权重对粒子进行筛选，筛选过程中，既要大量保留权重大的粒子，又要有一小部分权重小的粒子；

4、状态转移：将重采样后的粒子带入状态转移方程得到新的预测粒子；

5、测量及更新：对目标点特征化，并计算各个粒子和目标间的巴氏距离，更新粒子的权重；

6、决策阶段：每个粒子都获得一个和目标的相似度，相似度越高，目标在该范围出现的可能性越高，将保留的所有粒子通过相似度加权后的结果作为目标可能的位置。

3）Meanshift算法

MeanShift算法属于核密度估计法，它不需要任何先验知识而完全依靠特征空间中样本点的计算其密度函数值。对于一组采样数据，直方图法通常把数据的值域分成若干相等的区间，数据按区间分成若干组，每组数据的个数与总参数个数的比率就是每个单元的概率值；核密度估计法的原理相似于直方图法，只是多了一个用于平滑数据的核函数。采用核函数估计法，在采样充分的情况下，能够渐进地收敛于任意的密度函数，即可以对服从任何分布的数据进行密度估计。

Meanshift算法步骤

1、通过对初始点（或者上一帧的目标点）为圆心，绘制一个半径为R的圆心，寻找特征和该点相似的点所构成的向量；

2、所有向量相加，可以获得一个向量叠加，这个向量指向特征点多的方向；

3、取步骤二的向量终点为初始点重复步骤一、二，直到得到的向量小于一定的阈值，也就是说明当前位置是特征点密度最密集的地方，停止迭代，认为该点为当前帧的目标点；

4）Camshift算法

Camshift算法是MeanShift算法的改进，称为连续自适应的MeanShift算法。Camshift 是由Meanshift 推导而来 Meanshift主要是用在单张影像上，但是独立一张影像分析对追踪而言并无意义，Camshift 就是利用MeanShift的方法，对影像串行进行分析。

1、首先在影像串行中选择目标区域。

2、计算此区域的颜色直方图（特征提取）。

3、用MeanShift算法来收敛欲追踪的区域。

4、通过目标点的位置和向量信息计算新的窗口大小，并标示之。

5、以此为参数重复步骤三、四。

Camshift 关键就在于当目标的大小发生改变的时候，此算法可以自适应调整目标区域继续跟踪。

3、小结

第一阶段的单目标追踪算法基本上都是传统方法，计算量小，在嵌入式等设备中落地较多，opencv中也预留了大量的接口。通过上面的两节的介绍，我们不难发现，目标检测算法的步骤分为两部分，一部分是对指定目标寻找可以跟踪的特征，常用的有颜色，轮廓，特征点，轨迹等，另一部分是对目标特征进行跟踪，如上文所提及的方法。所以目标检测方法的发展，也可总结为两个方面，一个是如何去获得更加具有区分性的可跟踪的稳定特征，另一个是如何建立帧与帧之间的数据关联，保证跟踪目标是正确的。

随着以概率为基础的卡尔曼滤波、粒子滤波或是以Meanshift为代表向量叠加方法在目标检测的运用，使得目标检测不再需要假设自身的一个状态为静止的，而是可以是运动的，更加符合复杂场景中的目标跟踪。

5. 无人机视频全景拼接，移动物体检测和追踪

近年来，无人驾驶飞行器（UAV）在许多领域得到越来越广泛的应用。通过无人机航拍视频，可以方便地获取更多的静态和动态信息，掌握现场情况。帧配准、全景图像拼接、运动目标检测和跟踪是航拍视频分析处理的关键和基础。首先，我们使用 l_q-estimation 方法去除异常值并稳健地匹配特征点。然后我们利用移动直接线性变换 (MDLT) 方法更准确地找到帧的单应性，并将帧序列拼接成全景图。最后，我们在扭曲的帧上应用 5 帧差分方法来检测运动对象，并使用长期视觉跟踪方法在复杂场景中跟踪感兴趣的对象。

与有人驾驶飞机相比，无人机更小、更轻、更便宜，更适合执行危险任务。搭载视觉传感器的小型无人机是反恐、交通监控、救灾、战场监视等的理想平台。全景图像拼接、运动物体检测和跟踪是完成这些任务的关键技术。由于平台的运动，除了前景物体外，背景也在运动，因此背景的运动补偿是无人机航拍视频分析处理的必要步骤。背景运动补偿模块接收后对视频帧进行注册并生成相应的对齐图像，可以将帧序列拼接在一起以生成全景图以掌握整体信息。此外，可碧辩悄以通过帧减法检测运动物体，并通过跟踪模块跟踪感兴趣的物体。在本文中，我们首先提取相邻帧的 Harris 特征，然后介绍一种基于异常值去除和稳健特征匹配的 - 估计器，之后，利用 MDLT 方法找到帧的单应性。根据单应性，帧被注册并补偿平台的自我运动，并且全景由帧序列拼接。最后，使用5帧减法完成运动物体检测，并通过基于相关滤波器的视觉跟踪算法跟踪感兴趣的物体。

图像配准是悔渣利用匹配策略在两幅图像中找到对应特征点的正确位置，然后得到两幅图像之间的单应性进行配准。本文的图像配准算法包括几个部分：Harris特征点的提取和描述，用于稳健特征匹配的 - 估计器，用于估计单应性的 MDLT 方法。首先从两幅图像中提取和描述特征点，得到匹配点，然后去除离群点，对特征进行鲁棒匹配 - 估计器。最后，我们使用MDLT方法对满足图像不同部分的单应性进行加权估计，得到准确的投影模型参数来配准图像帧。

对于要匹配的图像对，我们执行Harris等特征匹配方法来确定N个初始匹配对应关系：

其中，是匹配特征点的二维坐标，如果是内点，则满足以下关系：

变换可用对内点匹配对最小二乘估计：

但这些点可能存在异常值，应去除异常值以正确估计变换。目前的方法通常使用两步策略或假设和验证技术（如RANSAC）来解决问题，这些方法总是非常耗时甚至无法得到合理的结果。

基于鲁棒性的特征匹配方法 -估计器直接估计与异常值的初始对应关系的转换。为了将残差向量自动分类为异常值集和内部值集，经典最小二乘损失函数对异常值敏感。范数适合解决这样的问题，但由于观察中包含噪声，因此不可靠。通常情况下范数被改编为最接近的凸松灶镇弛正则化进行权衡。估计器对于特征匹配更加健壮和有效。损失函数是

其中是范数的操作符。

将通过对初始特征点应用全局变换来去除异常值。

对于低空航拍视频，帧之间的视图不完全因旋转不同，也不完全是平面场景，使用基本单应扭曲不可避免地会产生错位或视差错误。Julio Zaragoza等提出的APAP(As-Projective-As-Possible)图像拼接方法假设图像的细节满足不同的单应性，并使用位置相关单应性来扭曲每个像素，使用MDLT加权估计单应性方法，可以减轻未对准和视差误差的影响。

直接线性变换（DLT）是从一组噪声点匹配中估计单应性的基本方法。将单应矩阵向量化为向量后，只有两行线性无关，令为第个点匹配计算的 LHS 矩阵的前两行。对所有垂直堆叠到矩阵A。

那么优化目标是

整个图像只使用一个单应性重建用于翘曲。

通过从加权问题估计单应性来改进MDLT方法，

权重给更接近的第个点匹配给予更高的重要性。

为了防止估计中的数值问题，他们用一个在0和1之间的小值来抵消权重。

计算每个像素的单应性是不必要的浪费。因此，我们将图像均匀地划分为多个单元格的网格，并将每个单元格的中心作为。

将航拍视频帧全景拼接后，就可以得到大尺度场景的静态图像，掌握整体信息。

首先，我们使用单应性扭曲要拼接的两个帧，将像素映射到全景中的位置，依次拼接帧，然后融合两个扭曲的图像以避免在接缝线附近出现正面差异。通常，相邻帧的重叠率，在实际应用中，我们根据移动速度选择一定时间间隔的帧进行拼接，可以降低计算复杂度。对于较早的拼接图像，我们只选择最后一帧而不是整个拼接图像来提取特征点，也是为了计算速度。

对于对齐的帧，采用改进的5帧差分法检测运动目标。传统的3帧差分法可以检测出物体的基本轮廓，但轮廓总是不连续的，物体的重叠不易检测。根据帧差分法的理论，通过多帧差分的信息融合可以用于提取更完整的运动对象。5帧差分法可以部分克服3帧差分法的不足。对于相邻的 5 个帧，我们首先使用中值滤波器去除椒盐噪声，然后分别对中间帧和其他4帧进行差分运算。结果如下：

在对差分结果进行滤波后，我们引入Otsu动态阈值分割方法获得二值图像，然后使用“与”操作来抑制对象重叠问题。

然后我们在和上使用“或”操作以避免在对象轮廓中带来孔洞。

二值图像也可能有噪声和小孔，这可能会导致错误的对象边界框。最后，可以通过形态学腐蚀和膨胀来掩盖运动物体区域，去除噪声并填充孔洞，从而获得物体的位置和尺度。

运动物体检测步骤会检测到多个物体区域，我们只选择一个感兴趣的目标，使用基于相关滤波器的长期视觉跟踪算法对所选物体进行跟踪，以获得目标的位置和尺度。实时对象。跟踪器由检测操作中检测到的边界框初始化。

基于相关滤波器的长期视觉跟踪算法在核相关滤波器跟踪器的框架下，集成了定向梯度直方图、颜色命名和强度，创建了鲁棒的对象外观模型。在随后的帧中，可以通过分别最大化平移滤波器和尺度滤波器的相关性分数来估计对象的新位置和尺度，并通过新的位置和尺度更新滤波器。同时，我们实时检测跟踪状态，并在跟踪失败的情况下使用在线CUR过滤器重新检测对象。该算法对于长期视觉跟踪的复杂场景具有鲁棒性。跟踪流程图如图1所示。

实验中的数据集选自DARPA提出的身份视频验证（VIVID）公共数据集中的航拍视频数据。这些数据集包括纹理较少和纹理良好的视频的背景。我们为我们的实验选择了两个典型的视频egtest01和egtest05。分辨率为640x480，帧率为30fps。实验在MATLAB R2016a 中实现，在 Intel Core i5-7300HQ、2.5GHz CPU、8GB RAM 计算机上。

我们首先提取待配准的2帧中的Harris特征，利用描述符的欧氏距离进行粗匹配，然后使用估计方法来去除异常值。最终匹配结果如图2所示。

从图2可以看出，无论是在纹理较少还是纹理良好的背景场景中，特征点都是均匀分布的，并且点主要集中在背景中，这有助于获得准确的配准结果。

我们使用MDLT方法根据匹配的特征点获得2帧的变换，然后对图像进行扭曲，对参考图像和扭曲图像进行拼接和融合。最后，将帧依次拼接在一起，得到如图3所示的全景图。

帧配准后，我们使用5帧差分法得到差分结果，然后去除细方噪声，做形态学运算得到物体区域，最后可以得到运动物体的位置和尺度区域的边界框，如图4所示。

跟踪算法可以在完全遮挡或视野外的情况下更新对象的比例并重新检测丢失的对象。图 5显示了不同帧中的跟踪结果。

我们已经开发了一些基于小型无人机平台的航空侦察关键图像处理算法的实现。算法包括注册视频帧，使用帧差异进行运动物体检测，将帧拼接成全景图，跟踪检测到的物体之一。实验结果表明，所提出的方法在纹理较少的背景和纹理良好的背景场景中都可以很好地进行配准、拼接、检测，以及在复杂场景中进行跟踪。

6. 如何使用opencv实现金字塔光流lk跟踪算法

#include <stdio.h>
#include <windows.h>
#include "cv.h"
#include "cxcore.h"
#include "highgui.h"
#include <opencv2\opencv.hpp>
using namespace cv;

static const double pi = 3.14159265358979323846;
inline static double square(int a)
{
return a * a;
}
/*该函数目的：给img分配内存空间，并设定format，如位深以及channel数*/
inline static void allocateOnDemand(IplImage **img, CvSize size, int depth, int channels)
{
if (*img != NULL) return;
*img = cvCreateImage(size, depth, channels);
if (*img == NULL)
{
fprintf(stderr, "Error: Couldn't allocate image. Out of memory?\n");
exit(-1);
}
}
/*主函数，原程序是读取avi视频文件，然后处理，我简单改成从摄像头直接读取数据*/
int main(int argc, char *argv[])
{

//读取摄像头
VideoCapture cap(0);
//读取视频文件

//VideoCapture cap; cap.open("optical_flow_input.avi");
if (!cap.isOpened())
{
return -1;
}
Mat frame;

/*
bool stop = false;
while (!stop)
{
cap >> frame;
// cvtColor(frame, edges, CV_RGB2GRAY);
// GaussianBlur(edges, edges, Size(7, 7), 1.5, 1.5);
// Canny(edges, edges, 0, 30, 3);
// imshow("当前视频", edges);
imshow("当前视频", frame);
if (waitKey(30) >= 0)
stop = true;
}
*/

//CvCapture *input_video = cvCaptureFromFile( "optical_flow_input.avi" );
//cv::VideoCapture cap = *(cv::VideoCapture *) userdata;

//if (input_video == NULL)
// {
// fprintf(stderr, "Error: Can't open video device.\n");
// return -1;
// }

/*先读取一帧，以便得到帧的属性，如长、宽等*/
//cvQueryFrame(input_video);

/*读取帧的属性*/
CvSize frame_size;
frame_size.height = cap.get(CV_CAP_PROP_FRAME_HEIGHT);
frame_size.width = cap.get(CV_CAP_PROP_FRAME_WIDTH);

/*********************************************************/

/*用于把结果写到文件中去,非必要
int frameW = frame_size.height; // 744 for firewire cameras
int frameH = frame_size.width; // 480 for firewire cameras
VideoWriter writer("VideoTest.avi", -1, 25.0, cvSize(frameW, frameH), true);

/*开始光流法*/
//VideoWriter writer("VideoTest.avi", CV_FOURCC('D', 'I', 'V', 'X'), 25.0, Size(640, 480), true);

while (true)
{
static IplImage *frame = NULL, *frame1 = NULL, *frame1_1C = NULL,
*frame2_1C = NULL, *eig_image = NULL, *temp_image = NULL,
*pyramid1 = NULL, *pyramid2 = NULL;

Mat framet;
/*获取第一帧*/
// cap >> framet;
cap.read(framet);
Mat edges;
//黑白抽象滤镜模式
// cvtColor(framet, edges, CV_RGB2GRAY);
// GaussianBlur(edges, edges, Size(7, 7), 1.5, 1.5);
// Canny(edges, edges, 0, 30, 3);

//转换mat格式到lpiimage格式
frame = &IplImage(framet);
if (frame == NULL)
{
fprintf(stderr, "Error: Hmm. The end came sooner than we thought.\n");
return -1;
}

/*由于opencv的光流函数处理的是8位的灰度图，所以需要创建一个同样格式的
IplImage的对象*/
allocateOnDemand(&frame1_1C, frame_size, IPL_DEPTH_8U, 1);

/* 把摄像头图像格式转换成OpenCV惯常处理的图像格式*/
cvConvertImage(frame, frame1_1C, 0);

/* 我们需要把具有全部颜色信息的原帧保存，以备最后在屏幕上显示用*/
allocateOnDemand(&frame1, frame_size, IPL_DEPTH_8U, 3);
cvConvertImage(frame, frame1, 0);

/* 获取第二帧 */
//cap >> framet;
cap.read(framet);
// cvtColor(framet, edges, CV_RGB2GRAY);
// GaussianBlur(edges, edges, Size(7, 7), 1.5, 1.5);
// Canny(edges, edges, 0, 30, 3);
frame = &IplImage(framet);
if (frame == NULL)
{
fprintf(stderr, "Error: Hmm. The end came sooner than we thought.\n");
return -1;
}

/*原理同上*/
allocateOnDemand(&frame2_1C, frame_size, IPL_DEPTH_8U, 1);
cvConvertImage(frame, frame2_1C, 0);

/*********************************************************
开始shi-Tomasi算法，该算法主要用于feature selection,即一张图中哪些是我
们感兴趣需要跟踪的点(interest point)
input:
* "frame1_1C" 输入图像.
* "eig_image" and "temp_image" 只是给该算法提供可操作的内存区域.
* 第一个".01" 规定了特征值的最小质量，因为该算法要得到好的特征点，哪就
需要一个选择的阈值
* 第二个".01" 规定了像素之间最小的距离，用于减少运算复杂度，当然也一定
程度降低了跟踪精度
* "NULL" 意味着处理整张图片，当然你也可以指定一块区域
output:
* "frame1_features" 将会包含fram1的特征值
* "number_of_features" 将在该函数中自动填充上所找到特征值的真实数目,
该值<= 400
**********************************************************/

/*开始准备该算法需要的输入*/

/* 给eig_image,temp_image分配空间*/
allocateOnDemand(&eig_image, frame_size, IPL_DEPTH_32F, 1);
allocateOnDemand(&temp_image, frame_size, IPL_DEPTH_32F, 1);

/* 定义存放frame1特征值的数组，400只是定义一个上限 */
CvPoint2D32f frame1_features[400];
int number_of_features = 400;

/*开始跑shi-tomasi函数*/
cvGoodFeaturesToTrack(frame1_1C, eig_image, temp_image,
frame1_features, &number_of_features, .01, .01, NULL);

/**********************************************************
开始金字塔Lucas Kanade光流法，该算法主要用于feature tracking,即是算出
光流，并跟踪目标。
input:
* "frame1_1C" 输入图像，即8位灰色的第一帧
* "frame2_1C" 第二帧，我们要在其上找出第一帧我们发现的特征点在第二帧
的什么位置
* "pyramid1" and "pyramid2" 是提供给该算法可操作的内存区域，计算中间
数据
* "frame1_features" 由shi-tomasi算法得到的第一帧的特征点.
* "number_of_features" 第一帧特征点的数目
* "optical_flow_termination_criteria" 该算法中迭代终止的判别，这里是
epsilon<0.3，epsilon是两帧中对应特征窗口的光度之差的平方，这个以后的文
章会讲
* "0" 这个我不知道啥意思，反正改成1就出不来光流了，就用作者原话解释把
means disable enhancements. (For example, the second array isn't
pre-initialized with guesses.)
output:
* "frame2_features" 根据第一帧的特征点，在第二帧上所找到的对应点
* "optical_flow_window" lucas-kanade光流算法的运算窗口,具体lucas-kanade
会在下一篇详述
* "5" 指示最大的金字塔层数，0表示只有一层，那就是没用金字塔算法
* "optical_flow_found_feature" 用于指示在第二帧中是否找到对应特征值，
若找到，其值为非零
* "optical_flow_feature_error" 用于存放光流误差
**********************************************************/

/*开始为pyramid lucas kanade光流算法输入做准备*/
CvPoint2D32f frame2_features[400];

/* 该数组相应位置的值为非零，如果frame1中的特征值在frame2中找到 */
char optical_flow_found_feature[400];

/* 数组第i个元素表对应点光流误差*/
float optical_flow_feature_error[400];

/*lucas-kanade光流法运算窗口,这里取3*3的窗口,可以尝试下5*5,区别就是5*5
出现aperture problem的几率较小,3*3运算量小，对于feature selection即shi-tomasi算法来说足够了*/
CvSize optical_flow_window = cvSize(5, 5);
// CvSize optical_flow_window = cvSize(5, 5);
/* 终止规则，当完成20次迭代或者当epsilon<=0.3，迭代终止，可以尝试下别的值*/
CvTermCriteria optical_flow_termination_criteria= cvTermCriteria(CV_TERMCRIT_ITER | CV_TERMCRIT_EPS, 20, .3);

/*分配工作区域*/
allocateOnDemand(&pyramid1, frame_size, IPL_DEPTH_8U, 1);
allocateOnDemand(&pyramid2, frame_size, IPL_DEPTH_8U, 1);

/*开始跑该算法*/
cvCalcOpticalFlowPyrLK(frame1_1C, frame2_1C, pyramid1, pyramid2,frame1_features, frame2_features, number_of_features,
optical_flow_window, 5, optical_flow_found_feature,optical_flow_feature_error, optical_flow_termination_criteria, 0);

/*画光流场，画图是依据两帧对应的特征值，
这个特征值就是图像上我们感兴趣的点，如边缘上的点P(x,y)*/
for (int i = 0; i< number_of_features; i++)
{
/* 如果没找到对应特征点 */
if (optical_flow_found_feature[i] == 0)
continue;
int line_thickness;
line_thickness = 1;

/* CV_RGB(red, green, blue) is the red, green, and blue components
* of the color you want, each out of 255.
*/
CvScalar line_color;
line_color = CV_RGB(255, 0, 0);

/*画箭头,因为帧间的运动很小，所以需要缩放，不然看不见箭头，缩放因子为3*/
CvPoint p, q;
p.x = (int)frame1_features[i].x;
p.y = (int)frame1_features[i].y;
q.x = (int)frame2_features[i].x;
q.y = (int)frame2_features[i].y;

double angle;
angle = atan2((double)p.y - q.y, (double)p.x - q.x);
double hypotenuse;
hypotenuse = sqrt(square(p.y - q.y) + square(p.x - q.x));

/*执行缩放*/
q.x = (int)(p.x - 5 * hypotenuse * cos(angle));
q.y = (int)(p.y - 5 * hypotenuse * sin(angle));

/*画箭头主线*/
/* "frame1"要在frame1上作画.
* "p" 线的开始点.
* "q" 线的终止点.
* "CV_AA" 反锯齿.
* "0" 没有小数位.
*/
cvLine(frame1, p, q, line_color, line_thickness, CV_AA, 0);

/* 画箭的头部*/
p.x = (int)(q.x + 9 * cos(angle + pi / 4));
p.y = (int)(q.y + 9 * sin(angle + pi / 4));
cvLine(frame1, p, q, line_color, line_thickness, CV_AA, 0);
p.x = (int)(q.x + 9 * cos(angle - pi / 4));
p.y = (int)(q.y + 9 * sin(angle - pi / 4));
cvLine(frame1, p, q, line_color, line_thickness, CV_AA, 0);
}
/*显示图像*/

/*创建一个名为optical flow的窗口，大小自动改变*/
cvNamedWindow("Optical Flow", CV_WINDOW_NORMAL);
cvFlip(frame1, NULL, 2);
cvShowImage("Optical Flow", frame1);

/*延时，要不放不了*/
cvWaitKey(33);

/*写入到文件中去*/

// cv::Mat m = cv::cvarrToMat(frame1);//转换lpimgae到mat格式
// writer << m;//opencv3.0 version writer

}
cap.release();
cvWaitKey(33);
system("pause");
}

7. 无人驾驶(三)行人跟踪算法

姓名：王梦妮

学号：20021210873

学院：电子工程学院

【嵌牛导读】本文主要介绍了无人驾驶中所需的行人跟踪算法

【嵌牛鼻子】无人驾驶环境感知计算机视觉卡尔曼滤波粒子滤波均值漂移

【嵌牛提问】无人驾驶中所用到的行人跟踪算法有哪些

【嵌牛正文】

行人跟踪一直是视觉领域的一个难点，实际应用环境复杂、遮挡以及行人姿态变化等外界因素都影响着行人跟踪算法的研究。行人跟踪算法模型主要分为生成模型和判别模型。

（一）生成式模型

生成式模型是一种通过在线学习行人目标特征，建立行人跟踪模型，然后使用模型来搜索误差最小的目标区域，从而完成对行人的跟踪。这种算法在构建模型只考虑了行人本身的特征，忽略了背景信息，没有做到有效利用图像中的全部信息。其中比较经典的算法主要有卡尔曼滤波，粒子滤波，mean-shift等。

（1）卡尔曼滤波算法

卡尔曼滤波算法是一种通过对行人构建状态方程和观测方程为基础，计算最小均方误差来实现跟踪的最优线性递归滤波算法，通过递归行人的运动状态来预测行人轨迹的变化。

首先设定初始参数，读取视频序列。然后进行背景估计，产生初始化背景图像。然后依次读取视频序列，利用Kahnan滤波算法，根据上一帧估计的背景和当前帧数据得到当前帧的前景目标。然后对前景目标进行连通计算，检测出运动目标的轨迹。经典的卡尔曼滤波算法．只能对线性运动的行人实现跟踪，之后学者改进了卡尔曼滤波算法，能够实现对非线性运动的行人进行跟踪，计算量小，能实现实时跟踪，但是跟踪效果不理想。

（2）粒子滤波

粒子滤波的核心就是贝叶斯推理和重要性采样。粒子滤波可用于非线性非高斯模型，这是由于贝叶斯推理采用蒙特卡洛法，以某个时间点事件出现的频率表示其概率。通过一组粒子对整个模型的后验概率分布进行近似的表示，通过这个表示来估计整个非线性非高斯系统的状态。重要性采用就是通过粒子的置信度来赋予不同的权重，置信度高的粒子，赋予较大的权重，通过权重的分布形式表示相似程度。

（3）均值漂移（mean-shift）

Mean-shift算法属于核密度估计法。不必知道先验概率，密度函数值由采样点的特征空间计算。通过计算当前帧目标区域的像素特征值概率来描述目标模型，并对候选区域进行统一描述，使用相似的函数表示目标模型与候选模板之间的相似度，然后选择在具有相似函数值最大的候选模型中，您将获得关于目标模型的均值漂移向量，该向量表示目标从当前位置移动到下一个位置的向量。通过连续迭代地计算均值偏移矢量，行人跟踪算法将最终收敛到行人的实际位置，从而实现行人跟踪。

（二）判别式模型

判别模型与生成模型不同，行人跟踪被视为二分类问题。提取图像中的行人和背景信息，并用于训练分类器。通过分类将行人从图像背景中分离出来，以获取行人的当前位置。以行人区域为正样本，背景区域为负样本，通过机器学习算法对正样本和负样本进行训练，训练后的分类器用于在下一帧中找到相似度最高的区域，以完成行人轨迹更新。判别式模型不像生成式模型仅仅利用了行人的信息，还利用了背景信息，因此判别式模型的跟踪效果普遍优于生成式模型。

（1）基于相关滤波的跟踪算法

核相关滤波(KCF)算法是基于相关滤波的经典跟踪算法，具有优良的跟踪效果和跟踪速度。这是由于其采用了循环移位的方式来进行样本生产，用生成的样本来训练分类器，通过高斯核函数来计算当前帧行人与下一帧中所有候选目标之间的相似概率图，找到相似概率图最大的那个候选目标，就得到了行人的新位置。KCF算法为了提高跟踪精度，使用HOG特征对行人进行描述，同时结合了离散傅里叶变换来降低计算量。

（2）基于深度学习的跟踪算法

近年来，深度学习在图像和语音方面取得了较大的成果，因此有许多科研人员将深度学习与行人跟踪相结合，取得了比传统跟踪算法更好的性能。DLT就是一个基于深度学习的行人跟踪算法，利用深度模型自动编码器通过离线训练的方式，在大规模行人数据集上得到一个行人模型，然后在线对行人进行跟踪来微调模型。首先通过粒子滤波获取候选行人目标，然后利用自动编码器进行预测，最终得到行人的预测位置即最大输出值的候选行人目标位置。2015年提出的MDNet算法采用了分域训练的方式。对于每个类别，一个单独的全连接层用于分类，并且全连接层前面的所有层都是共享，用于特征提取。2017年提出的HCFT算法使用深度学习对大量标定数据进行训练，得到强有力的特征表达模型，结合基于相关滤波的跟踪算法，用于解决在线进行跟踪过程中行人样本少、网络训练不充分的问题。此外，通过深度学习提取特征，利用数据关联的方法来实现跟踪的算法，其中最为着名的就JPDAF与MHT这两种方法。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：1050

制作脚本网站发布：2025-10-20 08:17:34 浏览：1331

python中的init方法发布：2025-10-20 08:17:33 浏览：1012

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1191

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：1061

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1415

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：626

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：519

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1191

python股票数据获取发布：2025-10-20 07:39:44 浏览：1194

低角跟踪算法

与低角跟踪算法相关的资讯