當前位置:首頁 » 操作系統 » 哈希演算法碰撞

哈希演算法碰撞

發布時間: 2022-09-23 08:24:53

1. 區塊鏈中哈希演算法的特點是什麼

哈希演算法可以作為一個很小的計算機程序來看待,無論輸入數據的大小及類型如何,它都能將輸入數據轉換成固定長度的輸出。哈希演算法在任何時候都只能接受單條數據的輸入,並依靠輸入數據創建哈希值。
根據最終產生的哈希值的長度不同,有不同的哈希演算法。
在區塊鏈中使用的為加密哈希演算法,其特點有:
1、能夠為任何類型的數據快速創建哈希值
2、確定性
3、偽隨機
4、單向函數
5、防碰撞

2. hash演算法原理詳解

散列方法的主要思想是根據結點的關鍵碼值來確定其存儲地址:以關鍵碼值K為自變數,通過一定的函數關系h(K)(稱為散列函數),計算出對應的函數值來,把這個值解釋為結點的存儲地址,將結點存入到此存儲單元中。檢索時,用同樣的方法計算地址,然後到相應的單元里去取要找的結點。通過散列方法可以對結點進行快速檢索。散列(hash,也稱「哈希」)是一種重要的存儲方式,也是一種常見的檢索方法。

按散列存儲方式構造的存儲結構稱為散列表(hash table)。散列表中的一個位置稱為槽(slot)。散列技術的核心是散列函數(hash function)。 對任意給定的動態查找表DL,如果選定了某個「理想的」散列函數h及相應的散列表HT,則對DL中的每個數據元素X。函數值h(X.key)就是X在散列表HT中的存儲位置。插入(或建表)時數據元素X將被安置在該位置上,並且檢索X時也到該位置上去查找。由散列函數決定的存儲位置稱為散列地址。 因此,散列的核心就是:由散列函數決定關鍵碼值(X.key)與散列地址h(X.key)之間的對應關系,通過這種關系來實現組織存儲並進行檢索。

一般情況下,散列表的存儲空間是一個一維數組HT[M],散列地址是數組的下標。設計散列方法的目標,就是設計某個散列函數h,0<=h( K ) < M;對於關鍵碼值K,得到HT[i] = K。 在一般情況下,散列表的空間必須比結點的集合大,此時雖然浪費了一定的空間,但換取的是檢索效率。設散列表的空間大小為M,填入表中的結點數為N,則稱為散列表的負載因子(load factor,也有人翻譯為「裝填因子」)。建立散列表時,若關鍵碼與散列地址是一對一的關系,則在檢索時只需根據散列函數對給定值進行某種運算,即可得到待查結點的存儲位置。但是,散列函數可能對於不相等的關鍵碼計算出相同的散列地址,我們稱該現象為沖突(collision),發生沖突的兩個關鍵碼稱為該散列函數的同義詞。在實際應用中,很少存在不產生沖突的散列函數,我們必須考慮在沖突發生時的處理辦法。

在以下的討論中,我們假設處理的是值為整型的關鍵碼,否則我們總可以建立一種關鍵碼與正整數之間的一一對應關系,從而把該關鍵碼的檢索轉化為對與其對應的正整數的檢索;同時,進一步假定散列函數的值落在0到M-1之間。散列函數的選取原則是:運算盡可能簡單;函數的值域必須在散列表的范圍內;盡可能使得結點均勻分布,也就是盡量讓不同的關鍵碼具有不同的散列函數值。需要考慮各種因素:關鍵碼長度、散列表大小、關鍵碼分布情況、記錄的檢索頻率等等。下面我們介紹幾種常用的散列函數。

顧名思義,除余法就是用關鍵碼x除以M(往往取散列表長度),並取余數作為散列地址。除余法幾乎是最簡單的散列方法,散列函數為: h(x) = x mod M。

使用此方法時,先讓關鍵碼key乘上一個常數A (0< A < 1),提取乘積的小數部分。然後,再用整數n乘以這個值,對結果向下取整,把它做為散列的地址。散列函數為: hash ( key ) = _LOW( n × ( A × key % 1 ) )。 其中,「A × key % 1」表示取 A × key 小數部分,即: A × key % 1 = A × key - _LOW(A × key), 而_LOW(X)是表示對X取下整

由於整數相除的運行速度通常比相乘要慢,所以有意識地避免使用除余法運算可以提高散列演算法的運行時間。平方取中法的具體實現是:先通過求關鍵碼的平方值,從而擴大相近數的差別,然後根據表長度取中間的幾位數(往往取二進制的比特位)作為散列函數值。因為一個乘積的中間幾位數與乘數的每一數位都相關,所以由此產生的散列地址較為均勻。

假設關鍵字集合中的每個關鍵字都是由 s 位數字組成 (u1, u2, …, us),分析關鍵字集中的全體,並從中提取分布均勻的若干位或它們的組合作為地址。數字分析法是取數據元素關鍵字中某些取值較均勻的數字位作為哈希地址的方法。即當關鍵字的位數很多時,可以通過對關鍵字的各位進行分析,丟掉分布不均勻的位,作為哈希值。它只適合於所有關鍵字值已知的情況。通過分析分布情況把關鍵字取值區間轉化為一個較小的關鍵字取值區間。

舉個例子:要構造一個數據元素個數n=80,哈希長度m=100的哈希表。不失一般性,我們這里只給出其中8個關鍵字進行分析,8個關鍵字如下所示:

K1=61317602 K2=61326875 K3=62739628 K4=61343634

K5=62706815 K6=62774638 K7=61381262 K8=61394220

分析上述8個關鍵字可知,關鍵字從左到右的第1、2、3、6位取值比較集中,不宜作為哈希地址,剩餘的第4、5、7、8位取值較均勻,可選取其中的兩位作為哈希地址。設選取最後兩位作為哈希地址,則這8個關鍵字的哈希地址分別為:2,75,28,34,15,38,62,20。

此法適於:能預先估計出全體關鍵字的每一位上各種數字出現的頻度。

將關鍵碼值看成另一種進制的數再轉換成原來進制的數,然後選其中幾位作為散列地址。

例Hash(80127429)=(80127429)13=8 137+0 136+1 135+2 134+7 133+4 132+2*131+9=(502432641)10如果取中間三位作為哈希值,得Hash(80127429)=432
為了獲得良好的哈希函數,可以將幾種方法聯合起來使用,比如先變基,再折疊或平方取中等等,只要散列均勻,就可以隨意拼湊。

有時關鍵碼所含的位數很多,採用平方取中法計算太復雜,則可將關鍵碼分割成位數相同的幾部分(最後一部分的位數可以不同),然後取這幾部分的疊加和(捨去進位)作為散列地址,這方法稱為折疊法。

分為:

盡管散列函數的目標是使得沖突最少,但實際上沖突是無法避免的。因此,我們必須研究沖突解決策略。沖突解決技術可以分為兩類:開散列方法( open hashing,也稱為拉鏈法,separate chaining )和閉散列方法( closed hashing,也稱為開地址方法,open addressing )。這兩種方法的不同之處在於:開散列法把發生沖突的關鍵碼存儲在散列表主表之外,而閉散列法把發生沖突的關鍵碼存儲在表中另一個槽內。

(1)拉鏈法

開散列方法的一種簡單形式是把散列表中的每個槽定義為一個鏈表的表頭。散列到一個特定槽的所有記錄都放到這個槽的鏈表中。圖9-5說明了一個開散列的散列表,這個表中每一個槽存儲一個記錄和一個指向鏈表其餘部分的指針。這7個數存儲在有11個槽的散列表中,使用的散列函數是h(K) = K mod 11。數的插入順序是77、7、110、95、14、75和62。有2個值散列到第0個槽,1個值散列到第3個槽,3個值散列到第7個槽,1個值散列到第9個槽。

閉散列方法把所有記錄直接存儲在散列表中。每個記錄關鍵碼key有一個由散列函數計算出來的基位置,即h(key)。如果要插入一個關鍵碼,而另一個記錄已經占據了R的基位置(發生碰撞),那麼就把R存儲在表中的其它地址內,由沖突解決策略確定是哪個地址。

閉散列表解決沖突的基本思想是:當沖突發生時,使用某種方法為關鍵碼K生成一個散列地址序列d0,d1,d2,... di ,...dm-1。其中d0=h(K)稱為K的基地址地置( home position );所有di(0< i< m)是後繼散列地址。當插入K時,若基地址上的結點已被別的數據元素佔用,則按上述地址序列依次探查,將找到的第一個開放的空閑位置di作為K的存儲位置;若所有後繼散列地址都不空閑,說明該閉散列表已滿,報告溢出。相應地,檢索K時,將按同值的後繼地址序列依次查找,檢索成功時返回該位置di ;如果沿著探查序列檢索時,遇到了開放的空閑地址,則說明表中沒有待查的關鍵碼。刪除K時,也按同值的後繼地址序列依次查找,查找到某個位置di具有該K值,則刪除該位置di上的數據元素(刪除操作實際上只是對該結點加以刪除標記);如果遇到了開放的空閑地址,則說明表中沒有待刪除的關鍵碼。因此,對於閉散列表來說,構造後繼散列地址序列的方法,也就是處理沖突的方法。

形成探查的方法不同,所得到的解決沖突的方法也不同。下面是幾種常見的構造方法。

(1)線性探測法

將散列表看成是一個環形表,若在基地址d(即h(K)=d)發生沖突,則依次探查下述地址單元:d+1,d+2,......,M-1,0,1,......,d-1直到找到一個空閑地址或查找到關鍵碼為key的結點為止。當然,若沿著該探查序列檢索一遍之後,又回到了地址d,則無論是做插入操作還是做檢索操作,都意味著失敗。 用於簡單線性探查的探查函數是: p(K,i) = i

例9.7 已知一組關鍵碼為(26,36,41,38,44,15,68,12,06,51,25),散列表長度M= 15,用線性探查法解決沖突構造這組關鍵碼的散列表。 因為n=11,利用除余法構造散列函數,選取小於M的最大質數P=13,則散列函數為:h(key) = key%13。按順序插入各個結點: 26: h(26) = 0,36: h(36) = 10, 41: h(41) = 2,38: h(38) = 12, 44: h(44) = 5。 插入15時,其散列地址為2,由於2已被關鍵碼為41的元素佔用,故需進行探查。按順序探查法,顯然3為開放的空閑地址,故可將其放在3單元。類似地,68和12可分別放在4和13單元中.

(2)二次探查法

二次探查法的基本思想是:生成的後繼散列地址不是連續的,而是跳躍式的,以便為後續數據元素留下空間從而減少聚集。二次探查法的探查序列依次為:12,-12,22 ,-22,...等,也就是說,發生沖突時,將同義詞來回散列在第一個地址的兩端。求下一個開放地址的公式為:

(3)隨機探查法

理想的探查函數應當在探查序列中隨機地從未訪問過的槽中選擇下一個位置,即探查序列應當是散列表位置的一個隨機排列。但是,我們實際上不能隨機地從探查序列中選擇一個位置,因為在檢索關鍵碼的時候不能建立起同樣的探查序列。然而,我們可以做一些類似於偽隨機探查( pseudo-random probing )的事情。在偽隨機探查中,探查序列中的第i個槽是(h(K) + ri) mod M,其中ri是1到M - 1之間數的「隨機」數序列。所有插入和檢索都使用相同的「隨機」數。探查函數將是 p(K,i) = perm[i - 1], 這里perm是一個長度為M - 1的數組,它包含值從1到M – 1的隨機序列。

例子:
例如,已知哈希表長度m=11,哈希函數為:H(key)= key % 11,則H(47)=3,H(26)=4,H(60)=5,假設下一個關鍵字為69,則H(69)=3,與47沖突。如果用線性探測再散列處理沖突,下一個哈希地址為H1=(3 + 1)% 11 = 4,仍然沖突,再找下一個哈希地址為H2=(3 + 2)% 11 = 5,還是沖突,繼續找下一個哈希地址為H3=(3 + 3)% 11 = 6,此時不再沖突,將69填入5號單元,參圖8.26 (a)。如果用二次探測再散列處理沖突,下一個哈希地址為H1=(3 + 12)% 11 = 4,仍然沖突,再找下一個哈希地址為H2=(3 - 12)% 11 = 2,此時不再沖突,將69填入2號單元,參圖8.26 (b)。如果用偽隨機探測再散列處理沖突,且偽隨機數序列為:2,5,9,……..,則下一個哈希地址為H1=(3 + 2)% 11 = 5,仍然沖突,再找下一個哈希地址為H2=(3 + 5)% 11 = 8,此時不再沖突,將69填入8號單元,參圖8.26 (c)。

(4)雙散列探查法

偽隨機探查和二次探查都能消除基本聚集——即基地址不同的關鍵碼,其探查序列的某些段重疊在一起——的問題。然而,如果兩個關鍵碼散列到同一個基地址,那麼採用這兩種方法還是得到同樣的探查序列,仍然會產生聚集。這是因為偽隨機探查和二次探查產生的探查序列只是基地址的函數,而不是原來關鍵碼值的函數。這個問題稱為二級聚集( secondary clustering )。

為了避免二級聚集,我們需要使得探查序列是原來關鍵碼值的函數,而不是基位置的函數。雙散列探查法利用第二個散列函數作為常數,每次跳過常數項,做線性探查。

3. hash函數強抗碰撞性和弱碰撞性的區別

假如有兩個不同的數據(或字元串)生成的散列值相同,這就說明哈希值碰撞了,這時候就需要單獨開一個表,用另一種哈希演算法重新提取這兩個數據(或字元串)的散列值放入其中,這個新散列表中的數據還可以用相同的方法再開新表,開出的新表越多抗碰撞性就越強

4. 證明一個Hash演算法若是強抗碰撞的必然是弱抗碰撞的提示說可以用反證法證明。

這難道不是顯然的嗎?
反證法,假設不是弱抗的,那麼隨意選個x,就能找到與之碰撞的y。
所以也就找到了一對x和y的碰撞,也就不是強抗的了。

5. hash演算法是什麼

Hash,就是把任意長度的輸入(又叫做預映射,pre-image),通過散列演算法,變換成固定長度的輸出,該輸出就是散列值。這種轉換是一種壓縮映射,也就是,散列值的空間通常遠小於輸入的空間,不同的輸入可能會散列成相同的輸出,而不可能從散列值來唯一的確定輸入值。簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數。

使用哈希查找有兩個步驟:

1、使用哈希函數將被查找的鍵轉換為數組的索引。在理想的情況下,不同的鍵會被轉換為不同的索引值,但是在有些情況下我們需要處理多個鍵被哈希到同一個索引值的情況。所以哈希查找的第二個步驟就是處理沖突。

2、處理哈希碰撞沖突。有很多處理哈希碰撞沖突的方法,本文後面會介紹拉鏈法和線性探測法。

6. 本人沒有學過高等數學,不知可有高手用最通俗的方法闡述什麼是哈系演算法(hash)

比如字典里按筆畫數來查字,或是KTV里按歌名分三字歌,四字歌等,這樣的一個把字轉成筆畫數或歌名分類的演算法可以比喻成非常簡單的哈希演算法。

哈希演算法不可逆:就好比「大」字變成筆畫數後是3一樣,你不能通過3來確定它就是大字。
哈希演算法用於校驗:好比「大」字是3畫,你要是改變了這個字,變成了「太」字,於是結果是4畫,從而你知道這個字被改動了。

哈希演算法的碰撞:比如「大」「小」變成筆畫後都是3,這就是產生了碰撞。

當然這上面的比喻是非常淺顯的,也不是非常切合,只是助於理解一下概念。

7. 哈希演算法是什麼呢

哈希演算法就是一種特殊的函數,不論輸入多長的一串字元,只要通過這個函數都可以得到一個固定長度的輸出值,這就好像身份證號碼一樣,永遠都是十八位而且全國唯一。哈希演算法的輸出值就叫做哈希值。

原理:

哈希演算法有三個特點,它們賦予了區塊鏈不可篡改、匿名等特性,並保證了整個區塊鏈體系的完整。

第一個特點是具有單向性。比如輸入一串數據,通過哈希演算法可以獲得一個哈希值,但是通過這個哈希值是沒有辦法反推回來得到輸入的那串數據的。這就是單向性,也正是基於這一點,區塊鏈才有效保護了我們信息的安全性。

哈希演算法的第二個特點是抗篡改能力,對於任意一個輸入,哪怕是很小的改動,其哈希值的變化也會非常大。

它的這個特性,在區塊與區塊的連接中就起到了關鍵性的作用。區塊鏈的每個區塊都會以上一個區塊的哈希值作為標示,除非有人能夠破解整條鏈上的所有哈希值,否則數據一旦記錄在鏈上,就不可能進行篡改。

哈希演算法的第三個特點就是抗碰撞能力。所謂碰撞,就是輸入兩個不同的數據,最後得到了一個相同的輸入。

就跟我們逛街時撞衫一樣,而坑碰撞就是大部分的輸入都能得到一個獨一無二的輸出。在區塊鏈的世界中,任何一筆交易或者賬戶的地址都是完全依託於哈希演算法生產的。這也就保證了交易或者賬戶地址在區塊鏈網路中的唯一性。

無論這筆轉賬轉了多少錢,轉給了多少個人,在區塊鏈這個大賬本中都是唯一的存在。它就像人體體內的白細胞,不僅區塊鏈的每個部分都離不開它,而且它還賦予了區塊鏈種種特點,保護著整個區塊鏈體系的安全。

8. 哈希的演算法是什麼

哈希演算法是一個廣義的演算法,也可以認為是一種思想,使用Hash演算法可以提高存儲空間的利用率,可以提高數據的查詢效率,也可以做數字簽名來保障數據傳遞的安全性。所以Hash演算法被廣泛地應用在互聯網應用中。

哈希演算法也被稱為散列演算法,Hash演算法雖然被稱為演算法,但實際上它更像是一種思想。Hash演算法沒有一個固定的公式,只要符合散列思想的演算法都可以被稱為是Hash演算法。

特點:

加密哈希跟普通哈希的區別就是安全性,一般原則是只要一種哈希演算法出現過碰撞,就會不被推薦成為加密哈希了,只有安全度高的哈希演算法才能用作加密哈希。

同時加密哈希其實也能當普通哈希來用,Git 版本控制工具就是用 SHA-1 這個加密哈希演算法來做完整性校驗的。一般來講越安全的哈希演算法,處理速度也就越慢,所以並不是所有的場合都適合用加密哈希來替代普通哈希。



9. 哈希演算法是什麼呢

哈希演算法就是一種特殊的函數,不論輸入多長的一串字元,只要通過這個函數都可以得到一個固定長度的輸出值,這就好像身份證號碼一樣,永遠都是十八位而且全國唯一。

哈希演算法的輸出值就叫做哈希值。哈希演算法也被稱為「散列」,是區塊鏈的四大核心技術之一。是能計算出一個數字消息所對應的、長度固定的字元串。

哈希演算法原理:

Hash演算法的原理是把輸入空間的值映射到Hash空間內,由於Hash值的空間遠小於輸入的空間,而且藉助抽屜原理 ,可以得出一定會存在不同的輸入被映射成相同輸出的情況,如果一個Hash演算法足夠好,那麼他就一定會有更小的發生沖突的概率,也就是說,一個好的Hash演算法應該具有優秀的 抗碰撞能力。

10. 什麼是哈希演算法

舉個更形象點的例子。 這東西其實就像字典(其實就是)。你給出來的字元串是一個單詞,他在字典裡面所屬的條目是A-Z其中一個字母。不管你給的單詞有多長,他總屬於字典中某一個目錄下(也就是首字母。。)。你現在有兩個單詞,你不知道他們都是什麼,但是你知道一個在「A」裡面一個在「E」裡面。這樣你就知道這倆肯定不是同樣的單詞。不過由於每個條目下都有一大堆的單詞,所以你還是不知道這兩個單詞具體是什麼。 當然也有很大的概率兩個單詞都在E裡面,這種情況叫做一種「碰撞」。兩個不同的東西生成了同樣的結果。拿到360的例子上來說就是,你開了家網站,起了個特別詭異的名字,用奇虎的哈希演算法算出來的結果和某個不良網站一樣。那麼你的網站就被當不良網站屏蔽掉了。 一個好的哈希演算法要保證盡可能的少產生碰撞。還是說你之前查字典的例子。這次你把字典拆了。給裡面每個首字母下面又加了26個條目,分別是A-Z,裡面裝著以這些當結尾的單詞。這樣你隨便挑兩個單詞是一個坑裡出來的概率就小多了。 然後突然你有一天覺醒了。感覺就差倆單詞太費勁了。所以你買了本空字典,把天下單詞挨個試一遍,終於把所有目錄裡面都填滿了。然後你以後找單詞就很方便了。別人給你一個單詞首字母是A,你就隨便從A裡面找個應附上。雖然不知道是不是他說的那個,但至少看起來是一個坑裡出來的就過關了。這字典就叫彩虹表。這東西寫起來比較耗時。沒准你算了二十年發現試過的那些單詞首字母全是XYZ,但是人家每次給的都是ETA,那之前的活都白幹了。 雖然這種方法得到的不是原始記錄,而僅僅是與之具有相同特徵的記錄。而且有這個特徵的記錄可能有一大堆。有的時候你碰巧拿到的就是原來的那個,但大多數拿到的都是垃圾。如果你的表很全的話,那很有可能一堆記錄裡面有個和原來的那條一模一樣的。這時候你可以根據別的什麼信息猜猜找的是什麼。比如你倆正打架,然後找出來他給你的單詞是F開頭的,那基本上就能猜出來了。 這就是哈希演算法。一個好的哈希演算法僅僅知道結果的話是極難反算出原始數據來的,特別是有意義的原始數據。

熱點內容
sql刪除所有存儲過程 發布:2025-07-01 08:18:34 瀏覽:965
管理權力如何配置 發布:2025-07-01 08:09:59 瀏覽:158
安卓系統date什麼意思 發布:2025-07-01 07:58:06 瀏覽:482
linuxtr 發布:2025-07-01 07:57:59 瀏覽:657
假裝編程 發布:2025-07-01 07:39:44 瀏覽:214
python項目開發實例 發布:2025-07-01 07:39:44 瀏覽:63
php字元串截取中文 發布:2025-07-01 07:26:46 瀏覽:436
8266連接阿里雲伺服器 發布:2025-07-01 07:23:38 瀏覽:4
php提交方式 發布:2025-07-01 07:23:36 瀏覽:355
對java理解 發布:2025-07-01 07:22:16 瀏覽:911