数据降维算法
‘壹’ 有监督学习和无监督学习算法怎么理解
在判断是有监督学习还是在无监督学习上,我们可以具体是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。
什么是学习(learning)?
一个成语就可概括:举一反三。机器学习的思路有点类似高考一套套做模拟试题,从而熟悉各种题型,能够面对陌生的问题时算出答案。
简而言之,机器学习就是看能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考题目),而这种根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。
常用的无监督学习算法主要有三种:聚类、离散点检测和降维,包括主成分分析方法PCA等,等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。
从原理上来说,PCA等数据降维算法同样适用于深度学习,但是这些数据降维方法复杂度较高,所以现在深度学习中采用的无监督学习方法通常采用较为简单的算法和直观的评价标准。比如无监督学习中最常用且典型方法聚类。
在无监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据。这时就需要某种算法帮助我们寻找一种结构。
监督学习(supervised learning),是从给定的有标注的训练数据集中学习出一个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。 常见任务包括分类与回归。
无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。比如,一组颜色各异的积木,它可以按形状为维度来分类,也可以按颜色为维度来分类。(这一点比监督学习方法的用途要广。如分析一堆数据的主分量,或分析数据集有什么特点都可以归于无监督学习方法的范畴) ,而有监督学习则是通过已经有的有标签的数据集去训练得到一个最优模型。
‘贰’ 如何实现降维处理
降维方法分为线性核非线性降维,非线性降维又分为基于核函数和基于特征值的方法。
线性降维方法:PCA ICALDA LFA LPP(LE的线性表示)
于核函数的非线性降维方法:KPCA KICAKDA
基于特征值的非线性降维方法(流型学习):ISOMAP LLE LE LPP LTSA MVU
‘叁’ pca算法指的是什么
PCA(principle component analysis),即主成分分析法,是一个非监督的机器学习算法,是一种用于探索高维数据结构的技术,主要用于对数据的降维,通过降维可以发现更便于人理解的特征,加快对样本有价值信息的处理速度,此外还可以应用于可视化(降到二维)和去噪。
PCA与LDA算法的基本思想
数据从原来的坐标系转换到新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。我们会发现,大部分方差都包含在最前面的几个新坐标轴中。因此,我们可以忽略余下的坐标轴,即对数据进行降维处理。
‘肆’ 降维的概念
若原特征空间是D维的,现希望降至d维的 降维方法分为线性核非线性降维,非线性降维又分为基于核函数和基于特征值的方法。
1、线性降维方法:PCA 、ICA LDA、LFA、LPP(LE的线性表示)
2、非线性降维方法:
(1)基于核函数的非线性降维方法:KPCA 、KICA、KDA
(2)基于特征值的非线性降维方法(流型学习):ISOMAP、LLE、LE、LPP、LTSA、MVU 1、LLE(Locally Linear Embedding)算法(局部线性嵌入):
每一个数据点都可以由其近邻点的线性加权组合构造得到。
算法的主要步骤分为三步:
(1)寻找每个样本点的k个近邻点(k是一个预先给定的值);
(2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;
(3)由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值,定义一个误差函数。
‘伍’ matlab中的降维函数是什么
drttoolbox : Matlab Toolbox for Dimensionality Rection是Laurens van der Maaten数据降维的工具箱。
里面囊括了几乎所有的数据降维算法:
- Principal Component Analysis ('PCA')
- Linear Discriminant Analysis ('LDA')
- Independent Component Analysis ('ICA')
- Multidimensional scaling ('MDS')
- Isomap ('Isomap')
- Landmark Isomap ('LandmarkIsomap')
- Locally Linear Embedding ('LLE')
- Locally Linear Coordination ('LLC')
- Laplacian Eigenmaps ('Laplacian')
- Hessian LLE ('HessianLLE')
- Local Tangent Space Alignment ('LTSA')
- Diffusion maps ('DiffusionMaps')
- Kernel PCA ('KernelPCA')
- Generalized Discriminant Analysis ('KernelLDA')
- Stochastic Neighbor Embedding ('SNE')
- Neighborhood Preserving Embedding ('NPE')
- Linearity Preserving Projection ('LPP')
- Stochastic Proximity Embedding ('SPE')
- Linear Local Tangent Space Alignment ('LLTSA')
- Simple PCA ('SPCA')
‘陆’ PCA的算法是什么
PCA是主成分分析法,目的就是对高维数据进行降维,提取主要成分。我也是最近才开始看这个的,我也不是很明白。网上应该有这方面的代码。可以去程序员联合开发网看看,http://www.pudn.com/downloads188/sourcecode/windows/detail882107.html
http://www.pudn.com/downloads102/sourcecode/graph/texture_mapping/detail415764.html
‘柒’ 请问当今比较流行的数据降维算法有哪些
这个要看你的需求和数据的data distribution,找到最合适的算法解决你的问题。
如果数据分布比较简单,线性映射降维就够了,比如PCA、ICA。
如果数据分布比较复杂,可能需要用到manifold learning,具体算法比如SOM、MDS、ISOMAP、LLE,另外deep learning也可以用来做降维。
‘捌’ 降维是什么意思
意思如下:
维,在几何学上指空间独立而互相正交的方位数,通常的空间有三维,平面或曲面有二维,直线或曲线只有一维。
在商业领域,企业的竞争力可以体现在若干个维度的累加上,这些维度包括核心技术、成本优势、管理优势、人才优势、地域优势等多个方面。
降维就是把竞争对手拉入到一个更低维度的竞争模式中,让对手因为失去原有的竞争力而无所适从。
降维方法
降维方法分为线性和非线性降维,非线性降维又分为基于核函数和基于特征值的方法。
1、线性降维方法:PCA 、ICA LDA、LFA、LPP(LE的线性表示)
2、非线性降维方法:
(1)基于核函数的非线性降维方法:KPCA 、KICA、KDA
(2)基于特征值的非线性降维方法(流型学习):ISOMAP、LLE、LE、LPP、LTSA、MVU
方法介绍
1、LLE(Locally Linear Embedding)算法(局部线性嵌入):
每一个数据点都可以由其近邻点的线性加权组合构造得到。
算法的主要步骤分为三步:
(1)寻找每个样本点的k个近邻点(k是一个预先给定的值);
(2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;
(3)由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值,定义一个误差函数。
‘玖’ LBP和PCA算法的区别
LBP算法:全称Local binary pattern ,是机器视觉领域非常重要的一种特征。LBP可以有效地处理光照变化,在纹理分析,纹理识别方面被广泛应用。LBP 的算法非常简单,简单来说,就是对图像中的某一像素点的灰度值与其邻域的像素点的灰度值做比较。
PCA算法:全称principle component analysis,在力求数据信息丢失最少的原则下,对高纬度的变量空间降维 ,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留信息。主要用于对数据的降维,通过降维可以发现更便于人理解的特征,加快对样本有价值信息的处理速度,此外还可以应用于可视化(降到二维)和去噪。
若帮助到您,求采纳~