相似演算法

發布時間: 2023-03-06 06:07:37

① 圖像視頻相似度演算法

前段時間公司項目用到了語音識別,圖像識別,視頻識別等,其實不能說是識別,應該說是相似度對比吧,畢竟相似度對比還上升不了到識別哈,等以後有了更深的理解再來討論修改下!這次就當做一個總結吧!

其實它的原理就是一個把需要的特徵總結在一個指紋碼裡面,進行降維成指紋碼,假如個指紋碼一模一樣,那兩張圖片就想似了.下面有寫怎麼編譯成唯一標識,再用漢明距離計算兩個指紋碼的相似度.

圖片是採用phash演算法,一共分為四步吧.

1.將圖片縮放到16*16大小,這是我們選擇的合適的大小,假如寬高不一樣,直接將其壓到16*16,去掉細節,只保留宏觀;

2.圖片一共是16*16的,共256個像素,我們將圖片進行灰度化,灰度化就是只有黑白灰三種,從白到黑,一共分了255層;

3.灰度化之後將圖片進行DCT轉換(離散餘弦變化),因為為了識別有的圖片旋轉,這個DCT轉換是將圖片進行了一種壓縮演算法;

4.我們對這個演算法進行了優化,因為之前是計算像素的均值,我們為了更准確,我們取RGB,rgb一共分為255個像素,我們將255個像素分為16段,如果像素大於0-16記為0,17到32記為1,直到255,這樣就得到255位的二進制,這就是這張圖片的指紋碼.

得到唯一標識的指紋碼之後怎麼去計算像素度呢?

通過漢明距離比較兩個二進制距離,如果距離小於<10的話,我們就判定兩張圖片相似.如果兩個指紋碼(二進制)一模一樣,我們就判定兩個是一張圖片,或者類似;

視頻的話我們是通過ffmpeg(ff am pig),它是一個專門處理視頻的框架,可以從視頻中按針提取圖片.然後就按照圖片的相似度取對比了...

② 相似三角形判定演算法

相似三角形
(1)定義：對應角相等，對應邊的比相等的三角形，叫做相似三角形．
(2)相似符號：相似用符號「∽」表示，讀作「相似於」．
(3)相似特徵：兩個三角形的形狀一樣，但大小不一定一樣．
(4)相似性質：相似三角形對應角相等，對應邊的比相等．
(5)相似比：相似三角形對應邊的比叫做相似比(或相似系數)．
2、相似三角形的基本定理
(1)定理：平行於三角形一邊的直線和其他兩邊(或兩邊延長線)相交所構成的三角形與原三角形相似．
(2)定理的基本圖形，如圖所示．

∵DE∥BC，∴△ABC∽△ADE．
3、相似三角形的判定方法
(1)定義法：對應角相等，對應邊的比相等的兩個三角形相似．
(2)平行法：平行於三角形一邊的直線和其他兩邊(或兩邊的延長線)相交，所構成的三角形與原三角形相似．
(3)判定定理1：如果兩個三角形的三組對應邊的比相等，那麼這兩個三角形相似．
(4)判定定理2：如果兩個三角形的兩組對應邊的比相等，並且相應的夾角相等，那麼這兩個三角形相似．
(5)判定定理3：如果一個三角形的兩個角與另一個三角形的兩個角對應相等，那麼這兩個三角形相似．
二、重難點知識講解
1、記兩個三角形相似時，通常把表示對應頂點的字母寫在對應位置上，這樣寫比較容易找到相似三角形的對應角和對應邊；②與全等三角形對應角(邊)的識別有類似之處，相等的對應角所對的邊是成比例的對應邊；反之成比例的對應邊所對的角是相等的對應角．
2、相似三角形的相似比是有順序的．
如：△ABC∽△A′B′C′，它們的相似比為k，則

，如果寫成△A′B′C′∽△ABC，它們的相似比為k′，

，因此，

．
3、全等三角形是相似比為1的相似三角形，但相似三角形並不一定是全等三角形．
4、傳遞性：若△ABC∽△A′B′C′，且△A′B′C′∽△A″B″C″，則△ABC∽△A″B″C″．
5、判定定理1和全等三角形的「邊邊邊」定理類似，即三組對應邊的比相等，就可以判定兩個三角形相似．
6、當兩個三角形有兩組對應邊的比相等時，可考慮用判定定理2證明兩個三角形相似；定理可類比全等三角形的「邊角邊」定理，要特別注意「夾角」的含義，一定要扣住「對應」二字，寫三角形相似時要把對應頂點寫在對應的位置上．
7、判定定理3是判定三角形相似的常用的方法．在兩個三角形中，只要滿足兩個角對應相等，那麼這兩個三角形相似，證明時，關鍵是尋找對應角；一般地，公共角、對頂角、同角的餘角(或補角)都是相等的，在證明過程中要特別注意．
8、有關三角形的相似的基本圖形．
（1）平行線型(如圖)

（2）雙直角三角形中的相似三角形(如圖)

③ 全面歸納距離和相似度計算方法

距離(distance，差異程度)、相似度(similarity，相似程度)方法可以看作是以某種的距離函數計算元素間的距離，這些方法作為機器學習的基礎概念，廣泛應用於如：Kmeans聚類、協同過濾推薦演算法、相似度演算法、MSE損失函數等等。本文對常用的距離計算方法進行歸納以及解析，分為以下幾類展開：

對於點x=(x1,x2...xn) 與點y=(y1,y2...yn) , 閔氏距離可以用下式表示：

閔氏距離是對多個距離度量公式的概括性的表述，p=1退化為曼哈頓距離；p=2退化為歐氏距離；切比雪夫距離是閔氏距離取極限的形式。

曼哈頓距離公式：

歐幾里得距離公式：

如下圖藍線的距離即是曼哈頓距離（想像你在曼哈頓要從一個十字路口開車到另外一個十字路口實際駕駛距離就是這個「曼哈頓距離」，此即曼哈頓距離名稱的來源，也稱為城市街區距離），紅線為歐幾里得距離：

切比雪夫距離起源於國際象棋中國王的走法，國際象棋中國王每次只能往周圍的8格中走一步，那麼如果要從棋盤中A格(x1,y1)走到B格(x2,y2)最少需要走幾步？你會發現最少步數總是max(|x2-x1|,|y2-y1|)步。有一種類似的一種距離度量方法叫切比雪夫距離。

切比雪夫距離就是當p趨向於無窮大時的閔氏距離：

距離函數並不一定是距離度量，當距離函數要作為距離度量，需要滿足：

由此可見，閔氏距離可以作為距離度量，而大部分的相似度並不能作為距離度量。

閔氏距離也是Lp范數（如p==2為常用L2范數正則化）的一般化定義。
下圖給出了一個Lp球（ ||X||p = 1 ）的形狀隨著P的減少的可視化圖：

距離度量隨著空間的維度d的不斷增加，計算量復雜也逐增，另外在高維空間下，在維度越高的情況下，任意樣本之間的距離越趨於相等（樣本間最大與最小歐氏距離之間的相對差距就趨近於0），也就是維度災難的問題，如下式結論：

對於維度災難的問題，常用的有PCA方法進行降維計算。

假設各樣本有年齡，工資兩個變數，計算歐氏距離（p=2）的時候，(年齡1-年齡2)² 的值要遠小於(工資1-工資2)² ，這意味著在不使用特徵縮放的情況下，距離會被工資變數（大的數值）主導, 特別當p越大，單一維度的差值對整體的影響就越大。因此，我們需要使用特徵縮放來將全部的數值統一到一個量級上來解決此問題。基本的解決方法可以對數據進行「標准化」和「歸一化」。

另外可以使用馬氏距離（協方差距離），與歐式距離不同其考慮到各種特性之間的聯系是（量綱）尺度無關 (Scale Invariant) 的，可以排除變數之間的相關性的干擾，缺點是誇大了變化微小的變數的作用。馬氏距離定義為：

馬氏距離原理是使用矩陣對兩兩向量進行投影後，再通過常規的歐幾里得距離度量兩對象間的距離。當協方差矩陣為單位矩陣，馬氏距離就簡化為歐氏距離；如果協方差矩陣為對角陣，其也可稱為正規化的歐氏距離。

根據向量x,y的點積公式：

我們可以利用向量間夾角的cos值作為向量相似度[1]：

餘弦相似度的取值范圍為：-1~1，1 表示兩者完全正相關，-1 表示兩者完全負相關，0 表示兩者之間獨立。餘弦相似度與向量的長度無關，只與向量的方向有關，但餘弦相似度會受到向量平移的影響（上式如果將 x 平移到 x+1, 餘弦值就會改變）。

另外，歸一化後計算歐氏距離，等價於餘弦值：兩個向量x,y, 夾角為A，歐氏距離D=(x-y)^2 = x^2+y 2-2|x||y|cosA = 2-2cosA

協方差是衡量多維數據集中，變數之間相關性的統計量。如下公式X，Y的協方差即是，X減去其均值乘以 Y減去其均值，所得每一組數值的期望（平均值）。

如果兩個變數之間的協方差為正值，則這兩個變數之間存在正相關，若為負值，則為負相關。

皮爾遜相關系數數值范圍也是[-1，1]。皮爾遜相關系數可看作是在餘弦相似度或協方差基礎上做了優化（變數的協方差除以標准差）。它消除每個分量標准不同（分數膨脹）的影響，具有平移不變性和尺度不變性。

卡方檢驗X2，主要是比較兩個分類變數的關聯性、獨立性分析。如下公式，A代表實際頻數；E代表期望頻數：

Levenshtein 距離是編輯距離 (Editor Distance) 的一種，指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數。允許的編輯操作包括將一個字元替換成另一個字元，插入一個字元，刪除一個字元。
像hallo與hello兩個字元串編輯距離就是1，我們通過替換」a「為」e「，就可以完成轉換。

漢明距離為兩個等長字元串對應位置的不同字元的個數，也就是將一個字元串變換成另外一個字元串所需要替換的字元個數。例如：1011101 與 1001001 之間的漢明距離是 2，「toned」與「roses」之間的漢明距離是 3

另外的，對於字元串距離來說，不同字元所佔的份量是不一樣的。比如」我樂了「與【「我怒了」，」我樂了啊」】的Levenshtein 距離都是1，但其實兩者差異還是很大的，因為像「啊」這種語氣詞的重要性明顯不如「樂」，考慮字元（特徵）權重的相似度方法有：TF-IDF、BM25、WMD演算法。

Jaccard 取值范圍為0~1，0 表示兩個集合沒有重合，1 表示兩個集合完全重合。

但Dice不滿足距離函數的三角不等式，不是一個合適的距離度量。

基礎地介紹下信息熵，用來衡量一個隨機變數的不確定性程度。對於一個隨機變數 X，其概率分布為：

互信息用於衡量兩個變數之間的關聯程度，衡量了知道這兩個變數其中一個，對另一個不確定度減少的程度。公式為：

如下圖，條件熵表示已知隨機變數X的情況下，隨機變數Y的信息熵，因此互信息實際上也代表了已知隨機變數X的情況下，隨機變數Y的(信息熵)不確定性的減少程度。

JS 散度解決了 KL 散度不對稱的問題，定義為：

群體穩定性指標（Population Stability Index，PSI），可以看做是解決KL散度非對稱性的一個對稱性度量指標，用於度量分布之間的差異（常用於風控領域的評估模型預測的穩定性）。

psi與JS散度的形式是非常類似的，如下公式：

PSI的含義等同P與Q，Q與P之間的KL散度之和。

DTW 距離用於衡量兩個序列之間的相似性，適用於不同長度、不同節奏的時間序列。DTW採用了動態規劃DP（dynamic programming）的方法來進行時間規整的計算，通過自動warping扭曲時間序列（即在時間軸上進行局部的縮放），使得兩個序列的形態盡可能的一致，得到最大可能的相似度。(具體可參考[5])

圖結構間的相似度計算，有圖同構、最大共同子圖、圖編輯距離、Graph Kernel 、圖嵌入計算距離等方法（具體可參考[4][6]）。

度量學習的對象通常是樣本特徵向量的距離，度量學習的關鍵在於如何有效的度量樣本間的距離，目的是通過訓練和學習，減小或限制同類樣本之間的距離，同時增大不同類別樣本之間的距離，簡單歸類如下[2]：

最後，附上常用的距離和相似度度量方法[3]：

④ 計算圖像相似度的演算法有哪些

SIM = Structural SIMilarity（結構相似性），這是一種用來評測圖像質量的一種方法。由於人類視覺很容易從圖像中抽取出結構信息,因此計算兩幅圖像結構信息的相似性就可以用來作為一種檢測圖像質量的好壞.

首先結構信息不應該受到照明的影響,因此在計算結構信息時需要去掉亮度信息,即需要減掉圖像的均值;其次結構信息不應該受到圖像對比度的影響,因此計算結構信息時需要歸一化圖像的方差;最後我們就可以對圖像求取結構信息了,通常我們可以簡單地計算一下這兩幅處理後的圖像的相關系數.

然而圖像質量的好壞也受到亮度信息和對比度信息的制約,因此在計算圖像質量好壞時,在考慮結構信息的同時也需要考慮這兩者的影響.通常使用的計算方法如下,其中C1,C2,C3用來增加計算結果的穩定性:
2u(x)u(y) + C1
L(X,Y) = ------------------------ ,u(x), u(y)為圖像的均值
u(x)^2 + u(y)^2 + C1

2d(x)d(y) + C2
C(X,Y) = ------------------------,d(x),d(y)為圖像的方差
d(x)^2 + d(y)^2 + C2

d(x,y) + C3
S(X,Y) = ----------------------,d(x,y)為圖像x,y的協方差
d(x)d(y) + C3

而圖像質量Q = [L(X,Y)^a] x [C(X,Y)^b] x [S(X,Y)^c]，其中a，b，c分別用來控制三個要素的重要性，為了計算方便可以均選擇為1，C1，C2，C3為比較小的數值，通常C1=(K1 x L)^2, C2=(K2 xL)^2, C3 = C2/2, K1 << 1, K2 << 1, L為像素的最大值(通常為255).
希望對你能有所幫助。

⑤ 常見的相似度度量演算法

本文目錄：

定義在兩個向量（兩個點）上：點x和點y的歐式距離為：

常利用歐幾里得距離描述相似度時，需要取倒數歸一化，sim = 1.0/(1.0+distance)，利用numpy實現如下：

python實現歐式距離

從名字就可以猜出這種距離的計算方法了。想像你在曼哈頓要從一個十字路口開車到另外一個十字路口，駕駛距離是兩點間的直線距離嗎？顯然不是，除非你能穿越大樓。實際駕駛距離就是這個「曼哈頓距離」。而這也是曼哈頓距離名稱的來源，曼哈頓距離也稱為城市街區距離(City Block distance)。

(1)二維平面兩點a(x1,y1)與b(x2,y2)間的曼哈頓距離

(2)兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的曼哈頓距離

python實現曼哈頓距離：

國際象棋玩過么？國王走一步能夠移動到相鄰的8個方格中的任意一個。那麼國王從格子(x1,y1)走到格子(x2,y2)最少需要多少步？自己走走試試。你會發現最少步數總是max( | x2-x1 | , | y2-y1 | ) 步。有一種類似的一種距離度量方法叫切比雪夫距離。

(1)二維平面兩點a(x1,y1)與b(x2,y2)間的切比雪夫距離

(2)兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的切比雪夫距離

python實現切比雪夫距離：

閔氏距離不是一種距離，而是一組距離的定義。

兩個n維變數a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的閔可夫斯基距離定義為：

其中p是一個變參數。

當p=1時，就是曼哈頓距離

當p=2時，就是歐氏距離

當p→∞時，就是切比雪夫距離

根據變參數的不同，閔氏距離可以表示一類的距離。

閔氏距離，包括曼哈頓距離、歐氏距離和切比雪夫距離都存在明顯的缺點。

舉個例子：二維樣本(身高,體重)，其中身高范圍是150 190，體重范圍是50 60，有三個樣本：a(180,50)，b(190,50)，c(180,60)。那麼a與b之間的閔氏距離（無論是曼哈頓距離、歐氏距離或切比雪夫距離）等於a與c之間的閔氏距離，但是身高的10cm真的等價於體重的10kg么？因此用閔氏距離來衡量這些樣本間的相似度很有問題。

簡單說來，閔氏距離的缺點主要有兩個：

(1)將各個分量的量綱(scale)，也就是「單位」當作相同的看待了。

(2)沒有考慮各個分量的分布（期望，方差等)可能是不同的。

標准歐氏距離的定義

標准化歐氏距離是針對簡單歐氏距離的缺點而作的一種改進方案。標准歐氏距離的思路：既然數據各維分量的分布不一樣，好吧！那我先將各個分量都「標准化」到均值、方差相等吧。均值和方差標准化到多少呢？這里先復習點統計學知識吧，假設樣本集X的均值(mean)為m，標准差(standard deviation)為s，那麼X的「標准化變數」表示為：

而且標准化變數的數學期望為0，方差為1。因此樣本集的標准化過程(standardization)用公式描述就是：

標准化後的值 = ( 標准化前的值－分量的均值 ) /分量的標准差

經過簡單的推導就可以得到兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的標准化歐氏距離的公式：

如果將方差的倒數看成是一個權重，這個公式可以看成是一種加權歐氏距離(Weighted Euclidean distance)。

有M個樣本向量X1~Xm，協方差矩陣記為S，均值記為向量μ，則其中樣本向量X到u的馬氏距離表示為：

而其中向量Xi與Xj之間的馬氏距離定義為：

若協方差矩陣是單位矩陣（各個樣本向量之間獨立同分布）,則公式就成了：

也就是歐氏距離了。

若協方差矩陣是對角矩陣，公式變成了標准化歐氏距離。

馬氏距離的優缺點：量綱無關，排除變數之間的相關性的干擾。

幾何中夾角餘弦可用來衡量兩個向量方向的差異，機器學習中借用這一概念來衡量樣本向量之間的差異。

在二維空間中向量A(x1,y1)與向量B(x2,y2)的夾角餘弦公式：

兩個n維樣本點a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夾角餘弦

類似的，對於兩個n維樣本點a(x11,x12,…,x1n)和b(x21,x22,…,x2n)，可以使用類似於夾角餘弦的概念來衡量它們間的相似程度。

即：

夾角餘弦取值范圍為[-1,1]。夾角餘弦越大表示兩個向量的夾角越小，夾角餘弦越小表示兩向量的夾角越大。當兩個向量的方向重合時夾角餘弦取最大值1，當兩個向量的方向完全相反夾角餘弦取最小值-1。

python實現餘弦相似度：

兩個等長字元串s1與s2之間的漢明距離定義為將其中一個變為另外一個所需要作的最小替換次數。例如字元串「1111」與「1001」之間的漢明距離為2。

應用：信息編碼（為了增強容錯性，應使得編碼間的最小漢明距離盡可能大）。

python實現漢明距離：

兩個集合A和B的交集元素在A，B的並集中所佔的比例，稱為兩個集合的傑卡德相似系數，用符號J(A,B)表示。

傑卡德相似系數是衡量兩個集合的相似度一種指標。

與傑卡德相似系數相反的概念是傑卡德距離(Jaccard distance)。傑卡德距離可用如下公式表示：

傑卡德距離用兩個集合中不同元素占所有元素的比例來衡量兩個集合的區分度。

可將傑卡德相似系數用在衡量樣本的相似度上。

樣本A與樣本B是兩個n維向量，而且所有維度的取值都是0或1。例如：A(0111)和B(1011)。我們將樣本看成是一個集合，1表示集合包含該元素，0表示集合不包含該元素。

p ：樣本A與B都是1的維度的個數

q ：樣本A是1，樣本B是0的維度的個數

r ：樣本A是0，樣本B是1的維度的個數

s ：樣本A與B都是0的維度的個數

這里p+q+r可理解為A與B的並集的元素個數，而p是A與B的交集的元素個數。

而樣本A與B的傑卡德距離表示為：

皮爾遜相關系數即為相關系數 ( Correlation coefficient )與相關距離(Correlation distance)

相關系數的定義

相關系數是衡量隨機變數X與Y相關程度的一種方法，相關系數的取值范圍是[-1,1]。相關系數的絕對值越大，則表明X與Y相關度越高。當X與Y線性相關時，相關系數取值為1（正線性相關）或-1（負線性相關）。

1. 機器學習中的相似性度量

2. 推薦演算法入門（1）相似度計算方法大全

3. Python Numpy計算各類距離

4. 皮爾遜積矩相關系數

⑥ 文本、語音相似度演算法

前段時間公司項目用到了語音識別,圖像識別,視頻識別等,其實不能說是識別,應該說是相似度對比吧,畢竟相似度對比還上升不了到識別哈,等以後有了更深的理解再來討論修改下!這次就當做一個總結吧!

其實它的原理和視頻圖像相似度演算法類似，將一系列的向量,特徵,權重,進行合並,然後降維降到一維,其實這個演算法也就是採用降維技術,將所有的特徵都用一個唯一標識來表示.然後這個標識是經過這個演算法內部的計算,再利用海明距離計算相似度，視頻和圖片是經過漢明距離計算的

文本我們是採用simhash演算法：

1.我們給文本裡面的詞進行分詞,我們是用ik演算法,這個演算法就是while循環,讀取一行,然後調用ik智能分詞的類,智能去切割裡面的分詞;

2.根據裡面的詞頻,simhash演算法會加一個權重,當然,得詞頻達到多少個的時候才會有有權重,這也是它的缺點,一般文本數據較少的時候,他是不準確的,一般數據量在500+;演算法內部的話會將一系列的向量,特徵,權重,進行合並,然後降維降到一維,其實這個演算法也就是採用降維技術,將所有的特徵都用一個唯一標識來表示.然後這個標識是經過這個演算法內部的計算,然後得到的一個指紋簽名；

3.然後對比兩個文本的相似度就是將兩個指紋簽名進行海明距離計算,如果海明距離<8(根據業務和場景去判斷這個值，8是建議，參考)的話,表示兩個相似,小於3的話.表示兩個文本重復.

simhash演算法我們還可以做語音相似度,它的基本原理就是根據傅里葉變換處理得到聲波的形狀。

語音的坡度如果向上我們就用1表示,向下我們就用0表示,這樣的話,我們也可以用二進制碼去描述一首歌曲.得到一個唯一的指紋簽名,對比兩個音頻的相似度就是將兩個指紋簽名進行海明距離計算<8的話,我們就默認兩個音頻相似.

總結：都是把特徵降到一維，然後採用海明距離計算。計算的值小於多少時，就當做是相似。我這邊講的太淺了，實在領悟有限，時間有限，觸摸不深，等下次有新的領悟再來補充！

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：837

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1101

python中的init方法發布：2025-10-20 08:17:33 瀏覽：807

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：972

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：861

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1212

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：434

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：314

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：990

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：956

相似演算法

與相似演算法相關的資訊