样本熵算法
㈠ 信息熵的计算公式,麻烦通俗地讲一下。
信息熵的计算公式:H(x) = E[I(xi)] = E[ log(2,1/P(xi)) ] = -∑P(xi)log(2,P(xi)) (i=1,2,..n)。
其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
信息熵是数学方法和语言文字学的结合,基本计算公式是未H = - LOG2(P)。其中,H 表示信息熵,P 表示某种语言文字的字符出现的概率,LOG2是以二为底的对数,用的是二进制,因而,信息熵的单位是比特(BIT,即二进制的0和1)。信息熵值就是信息熵的数值。
(1)样本熵算法扩展阅读:
信息熵的相关介绍:
一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。不确定性函数f是概率P的减函数;两个独立符号所产生的不确定性应等于各自不确定性之和。
人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。
直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是C.E.香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信息论之父克劳德·艾尔伍德·香农第一次用数学语言阐明了概率与信息冗余度的关系。
㈡ 一个八进制信源的最大熵怎么算
一个八进制信源的最大熵算法:当信源各符号无相关性、等概散布时,信源嫡为最大值。八进制信源的最大嫡为3bit/符号。
㈢ 熵值法得出的结果全是0
熵值法的计算公式上会有取对数,因此如果小于等于0的数字取对数,则会出现null值。
此种情况共有两种办法。 第一种:对数值为0的指标非负平移,如果某列(某指标)数据出现小于等于0,则让该列数据同时加上一个‘平移值’【该值为某列数据最小值的绝对值+0.01】,以便让数据全部都大于0,因而满足算法要求。 第二种:研究者也可以手工查看数据并将小于等于0的数据设置为异常值,这种做法会让样本减少。 SPSSAU这两种方法都有提供,在综合评价》熵值法,可以进行分析。
㈣ 熵值法平移取值一般加几
熵值法的计算公式上会有取对数,因此如果小于等于0的数字取对数,则会出现null值。
此种情况共有两种办法。第一种:对数值为0的指标非负平移,如果某列(某指标)数据出现小于等于0,则让该列数据同时加上一个‘平移值’【该值为某列数据最小值的绝对值+0.01】,以便让数据全部都大于0,因而满足算法要求。第二种:研究者也可以手工查看数据并将小于等于0的数据设置为异常值,这种做法会让样本减少。SPSSAU这两种方法都有提供,在综合评价》熵值法,可以进行分析。
㈤ 熵怎么计算
热力学中表征物质状态的参量之一,通常用符号S表示。在经典热力学中,可用增量定义为dS=(dQ/T),式中T为物质的热力学温度;dQ为熵增过程中加入物质的热量;下标“可逆”表示加热过程所引起的变化过程是可逆的。若过程是不可逆的,则dS>(dQ/T)不可逆。单位质量物质的熵称为比熵,记为 s。熵最初是根据热力学第二定律引出的一个反映自发过程不可逆性的物质状态参量。热力学第二定律是根据大量观察结果总结出来的规律,有下述表述方式:①热量总是从高温物体传到低温物体,不可能作相反的传递而不引起其他的变化;②功可以全部转化为热,但任何热机不能全部地、连续不断地把所接受的热量转变为功(即无法制造第二类永动机);③在孤立系统中,实际发生的过程,总使整个系统的熵值增大,此即熵增原理。摩擦使一部分机械能不可逆地转变为热,使熵增加。热量dQ由高温(T1)物体传至低温(T2)物体,高温物体的熵减少dS1=dQ/T1,低温物体的熵增加dS2=dQ/T2,把两个物体合起来当成一个系统来看,熵的变化是dS=dS2-dS1>0,即熵是增加的。
物理学上指热能除以温度所得的商,标志热量转化为功的程度。物质都有自己的标准熵,一个反应可以根据各种物质的熵来计算熵变。ΔH-TΔs是计算自由能的公式,用来判断反应的自发性。
㈥ 熵值法步骤
(1)方法原理及适用场景
熵值法属于一种客观赋值法,其利用数据携带的信息量大小计算权重,得到较为客观的指标权重。熵值是不确定性的一种度量,熵越小,数据携带的信息量越大,权重越大;相反熵越大,信息量越小,权重越小。
适用场景:熵值法广泛应用于各个领域,对于普通问卷数据(截面数据)或面板数据均可计算。在实际研究中,通常情况下是与其他权重计算方法配合使用,如先进行因子或主成分分析得到因子或主成分的权重,即得到高维度的权重,然后再使用熵值法进行计算,想得到具体各项的权重。
(2)操作步骤
使用SPSSAU【综合评价-熵值法】。
使用熵值法计算权重时,需将数据整理为以下格式:
(3)注意事项
熵值法的计算公式上会有取对数,因此如果小于等于0的数字取对数,则会出现null值。此种情况共有两种办法。
第一种:SPSSAU非负平移功能是指,如果某列(某指标)数据出现小于等于0,则让该列数据同时加上一个‘平移值’【该值为某列数据最小值的绝对值+0.01】,以便让数据全部都大于0,因而满足算法要求。
第二种:研究者也可以手工查看数据并将小于等于0的数据设置为异常值,但此种做法会让样本减少。
㈦ 常见的监督学习算法
K-近邻算法:K-近邻是一种分类算法,其思路是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
ID3算法:划分数据集的最大原则就是将数据变得更加有序。熵(entropy)是描述信息不确定性(杂乱程度)的一个值。
(7)样本熵算法扩展阅读:
注意事项:
分类:当数据被用于预测类别时,监督学习也可处理这类分类任务。给一张图片贴上猫或狗的标签就是这种情况。当分类标签只有两个时,这就是二元分类,超过两个则是多元分类。
预测:这是一个基于过去和现在的数据预测未来的过程,其最大应用是趋势分析。一个典型实例是根据今年和前年的销售业绩以预测下一年的销售业绩。
㈧ 熵值法的步骤
(1)选取n个国家,m个指标,则为第i个国家的第j个指标的数值。(i=1,2…,n; j=1,2,…,m)
(2) 指标的标准化处理:异质指标同质化
由于各项指标的计量单位并不统一,因此在用它们计算综合指标前,我们先要对它们进行标准化处理,即把指标的绝对值转化为相对值,并令,从而解决各项不同质指标值的同质化问题。而且,由于正向指标和负向指标数值代表的含义不同(正向指标数值越高越好,负向指标数值越低越好) ,因此,对于高低指标我们用不同的算法进行数据
标准化处理。其具体方法如下:
正向指标:
负向指标:
则为第i个国家的第j个指标的数值。(i=1,2…,n; j=1,2,…,m)。为了方便起见,仍记数据。
(3)计算第 j 项指标下第 i 个国家占该指标的比重。
(4)计算第 j 项指标的熵值。
(5)计算第j项指标的差异系数。对第项指标,指标值的差异越大,对方案评价的左右就越大,熵值就越小,定义差异系数。
(6)求权值。
(7)计算各国家的综合得分。
㈨ 笔记:模糊熵、样本熵、近似熵都是什么反映了什么
转帖
从原理上能看出来,这三个数据都是评价波形前后部分之间的混乱程度的。所以这三个数据都是评价波形前后重复性的,也就是频率。熵越大,波形中各个频率越多,熵越小,波形中乱七八糟的频率越小。三个之间的区别的话近似熵,1991年的算法。样本熵,2000年的算法。近似熵在比较的时候有一个自身比较的数值在里面,这个算法优化了。模糊熵,2007年的算法。前面两个算法在评价时加入了一个阈值:大于阈值就混乱,小于就不混乱。模糊熵加入了一个fuzzy的思想在里面。更科学一些。啥叫fuzzy,就比如说,原来分男女,只有 是 或者 不是 这种。现在加入了模糊思想,就告诉你,这货有0.8的概率是男的,有0.2的概率是女的这种。这种软分类其实更科学的。更多的可以参考fuzzy c means算法。模糊熵就把阈值分割的0或者1变成了0.4,0.5这种数据,更科学一些。
㈩ 求信息熵的计算方法!!
H(x)=lb,应该是求平均互信息熵。
熵的计算