當前位置:首頁 » 文件管理 » 壓縮演算法java

壓縮演算法java

發布時間: 2025-04-27 23:24:21

壓縮文件*.rar和*.zip的區別 用哪個好詳細介紹謝謝

樓上的見解比較狹隘。我來全面的解釋一下。

一、目錄表(TOC)與分卷(Volume)

拋開壓縮演算法不談,我認為zip、rar在文件格式上最大的差異就在目錄表(Table of Contents,TOC):zip有TOC,而rar沒有。

TOC這個詞其實是從出版界借用過來的,指的就是每一本書正文前面的「目錄」,它的作用地球人都知道:如果想快速找到書中某一內容,可以先查TOC,然後按照TOC指明的頁碼直接翻即可。

在紙質書里TOC是印刷出來的一張表,而在電子文件里則是由結構化數據構成的一張表,它的目的同樣是為了快速定位:如果想找文件中的某一內容,可以先查TOC,知道感興趣的內容在文件的什麼位置,直接跳過去就行了。最常見的運用就是avi、rm等多媒體文件:播放的時候經常有人在播放條上點來點去跳著看(即「隨機訪問」),如果沒有TOC,在長達幾百兆的文件里來回定位會慢死。

具體到zip文件里,TOC是放在文件尾部的一張表,裡面列出了zip包中每一個文件的屬性(文件名、長度等)和在zip包中的存放位置。如果需要隨機訪問zip包中的某一個文件,只需在TOC里找到這個文件的存放位置,直接跳過去即可。

而RAR文件里則沒有TOC,在文件頭之後所有文件按順序連續存放。

這種差異造成的結果就是:隨機訪問時zip比rar快,而順序訪問時rar比zip快。

所謂隨機訪問,就是前面說過的隨機訪問壓縮包中某個指定的文件。舉一個簡單的例子:一本反編譯或下載到的網頁電子書,有大量HTML、圖像、css、js,然後打成壓縮包。現在要求在不解包的情況下訪問其中的頁面:可以想像,打開每個HTML頁面的時候,它所附帶的圖像、css、js等文件可能隨機分布在整個壓縮包里,如果沒有TOC,查找每個文件的時候都要從頭開始找,將會有多慢。 所以各位可以理解為什麼jar包就是標准zip包,而我也只用zip格式保存反編譯出來的電子書、漫畫、PDG書等一切可能需要隨機訪問的東西。

所謂順序訪問,就是將整個壓縮包從頭解到尾。在這方面RAR具有天然的優勢。而且為了節省WinRAR列文件的時間,對於單個RAR我一般都直接通過右鍵菜單解壓縮,很少雙擊壓縮包打開再解壓。

由於rar的原作者已經去世,造成這種差異的確切原因我相信已不可考,但我個人猜測可能與DOS時代的備份軟體之爭有關:在DOS時代,電腦硬碟不像現在這樣奢侈,20MB就算很大了。這樣的容量用兩盒軟盤 即可備份,備份成本相對數據本身的價值來說非常低廉。因此在DOS時代,很多公司和機構都制定有定期硬碟備份政策,以免因為人為或非人為的因素 (早期硬碟可沒有如今可靠)而造成不可挽回的數據損失。在備份軟體方面,雖然微軟已經隨DOS提供了BackupRestore工具,但是他們基本不具備數據壓縮能力,因此在壓縮軟體中提供備份功能,就成為DOS時代的一個時尚。由於DOS時代的備份介質多為軟盤,因此壓縮 軟體的備份功能其實就轉化成如今很常見的一個功能:分卷壓縮功能,即按照軟盤容量進行分卷壓縮,然後將分卷壓縮文件備份(Backup)到軟盤,需要的時候再解壓,或恢復(Restore)到硬碟。

DOS時代最有名的zip工具是pkzip,出現得比DOS版的RAR早。在分卷壓縮時,pkzip按照zip文件規范,將TOC存放在最後,即存儲在最後一卷,由此帶來如下問題:

1、恢復時,每解壓一張盤,都要先將最後一張盤插進去一次,讀一次TOC。
2、只要最後一張盤上的TOC壞了,就算其它盤都是好的,也不能正常解壓。

這兩個缺點,尤其是第一個缺點實在是太臭名昭著了,因此當時出現了非常強烈的改革呼聲。在這個關鍵時刻,DOS版的RAR出現了:不僅壓縮率比pkzip高(這點在DOS時代非常重要,畢竟軟盤又貴容量又小),而且由於吸取了當時對zip格式的批評,取消了TOC,因此:

1、在恢復分卷壓縮的備份文件時,不需要頻繁插入帶有TOC的分卷,按順序換盤即可。
2、即使某個分卷損壞,也可以跳過,從完好的分卷再開始解壓。

由於這些原因(當然還有其它原因),RAR推出後迅速取得了成功,pkzip在DOS時代就開始流失用戶,到Windows時代基本消聲匿跡。在Windows時代推出的Winzip,則徹底放棄了分卷壓縮功能(zip格式永遠的痛?)。 而從我看到的源自WinRAR的UnRAR源代碼來看,現在WinRAR的解壓思路明顯還是把文件按順序從頭解到尾,看來當年備份恢復工具之爭的影響,還真是深遠。

二、固實(solid)壓縮方式

在壓縮演算法方面,我覺得rar格式最特色的是固實(solid)壓縮方式。WinRAR v3.42的幫助文件中對固實壓縮的說明如下:

固實壓縮文件是 RAR 的一種特殊壓縮方式存儲的壓縮文件,它把壓縮文件中的全部文件都當成一個連續數據流來看待。

這段說明其實揭示了固實壓縮格式能夠提高壓縮比的奧秘:數據壓縮的基礎是「重復」,例如aaaabbb這個字元串,裡面就有重復,如果表示為a4b3,看起來是不是變短了?這就是「數據壓縮」。「重復」是一個具有相對意義的概念,在某一范圍內看起來沒有重復,或重復不多的數據,把范圍擴大,說不定就能找到更多重復的數據了,這就是固實壓縮的奧秘。

舉一個簡單的例子:用zip和普通rar壓縮一堆jpg文件,很難壓下去,但是用固實壓縮方式的rar就可以,其原因就在於:jpg文件本身已經是壓縮格式了,單個jpg文件里很難再 找到可利用的重復數據,因此不論是用zip還是普通的rar都很難再壓縮,因為他們都將需要壓縮的文件分隔開來一個一個處理。但是對於固實rar來說,是將 所有需要壓縮的jpg文件當作一個整體來壓縮,這些jpg之間就存在重復的數據,如他們都有相同的文件頭(其中包括各種數據表)等,這就出現了可壓縮的空間。從我看到的資料來看,Flash文件也採用了類似的技術對jpg進行壓縮:如果在Flash文件中使用了多個jpg文件,它們可以共用一個文件頭。

當然天下不會有白吃的午餐,固實壓縮方式在提高壓縮比的同時,也有一些限制,在WinRAR v3.42幫助文件中的說法是:

固實壓縮可增加壓縮性能,特別是在添加大量的小文件的時候,但它也有一些重要的不利因素

對已存在的固實壓縮文件更新時較慢;
要從固實的壓縮文件解壓單個文件時,它之前的文件都需先經過分析。這造成當從固實的壓縮文件內取出文件時會比一般壓縮文件取出文件慢一些。但是,當從固實的壓縮文件解壓全部的文件時,解壓速度並沒有影響。
如果在固實壓縮文件中的任何文件損壞了,要從損壞的范圍中解壓全部的文件是不可能的。因此,如果固實壓縮文件是保存在例如軟盤等媒介時,推薦你在製作時使用「恢復記錄」。
固實壓縮的適用場合為

壓縮文件很少更新的時候;
不需要經常從壓縮文件中解壓一個文件或是部分文件的時候;
壓縮效率比壓縮速度更為重要的時候。
與前面說的「隨機訪問」對應,固實壓縮的RAR文件可能是世界上最不適合隨機訪問的:如果需要訪問固實RAR包中的某個文件,就要從文件頭開始解壓,一直解到這個文件。

三、安全性

這里的安全性包含幾個方面的含義:文件系統安全性、密碼保護安全性和文件數據安全性。

由於制訂zip格式規范的時候操作系統本身的文件安全性還沒有引起足夠的重視,因此zip格式只記錄最基本的文件屬性,包括只讀屬性等,沒有其它附加的安全屬性。

rar格式剛推出的時候,文件系統的安全性只能參照DOS,和zip差不多。但是rar畢竟是一種封閉的格式,想怎麼改作者一個人說了就算,因此當Windows中出現NTFS,並且引入擴展的文件系統安全屬性時,rar也積極跟進,所以現在應該說rar格式在這方面比zip強 。

在zip和rar格式中均提供了密碼保護功能,但是密碼保護的安全強度不同。

zip由於格式開放、代碼開源,因此zip密碼破解軟體出現得比較早,也比較多。初期以暴力破解為主,威脅不大,真正對zip密碼安全的致命一擊是known plain text(已知明文)攻擊法:如果知道加密zip文件中某段內容(密文,ciphertext)解密後的真正內容(明文,plain text),就可以反推出zip加密口令。在這種攻擊方法的威脅,及某些國家的法律對密碼技術的限制下, 著名開源組織zlib宣布永久放棄對加密zip的支持,詳見zlib網站上的相關說明(不過在zlib發行的源代碼里仔細找找,還是能找到原來的加解密相關代碼)。

記得rar剛推出的時候也和zip一樣,雖然不能列出加密文件中的文件內容,但可以列出加密文件中的文件名。後來大概也是被known plain text攻擊法嚇到了,增加了一個「加密文件名」選項,乾脆連加密rar文件里有哪些文件都看不見,讓攻擊者想猜明文都無從猜起。

rar格式比zip晚推出,在安全方面吸取了足夠的教訓,因此採用的是美國國家標准與技術局(National Institute of Standard and Technology, NIST)推薦的、目前公認安全程度比較高的AES對稱加密演算法 ,密鑰長度128位。在ASE被攻破以前(NIST認為30年內無法攻破),大家都只能在暴力法上兜圈子,所以密碼安全性應該說比zip高。對此WinRAR 3.42的幫助文件是這樣描述的:

ZIP 格式使用私有加密演算法。 RAR 壓縮文件使用更強大的 AES-128 標准加密。如果你需要加密重要的信息,選擇 RAR 壓縮文件格式會比較好一些。為了確實的安全性,密碼長度請最少要 8 個字元。不要使用任何語言的單詞作為密碼,最好是任意的隨機組合字元和數字,並且要注意密碼的大小寫。請記住,如果你遺失你的密碼,你將無法取出加密的文件,就算是 WinRAR 的作者本身也無法解壓加密過的文件。

在數據安全性方面,RAR格式本身支持一種特殊的附加信息類型,叫做「恢復記錄」。如果RAR文件有恢復記錄,在介質物理損壞或其它原因造成數據丟失時,WinRAR可以按照「恢復記錄」嘗試對數據進行修復。而zip格式無恢復記錄,因此在數據安全性方面應該說比RAR弱。

雖然RAR文件本身支持恢復記錄,但是在WinRAR里此選項預設是關閉的,而打開後會導致壓縮出來的RAR文件體積增加(增加的百分比與設置有關),可能會令某些人感到不習慣(我就親眼見到有人在論壇上抱怨為什麼壓出來的RAR文件會如此龐大),所以這個功能基本上形同虛設。

四、開放性

開放性的對比很明顯:zip格式不僅文件格式完全公開,而且有專門的開源組織提供操作源代碼,跨平台使用也沒有多大限制;rar格式完全保密,作者只提供解壓所需源代碼,不提供壓縮所需源代碼 ,跨平台使用有點麻煩。

zip開源組織中,最出名的是zlib和InfoZip,二者各有側重:zlib偏重對內存緩沖區的壓縮,因此被png等開源組織用做內部壓縮演算法,連java的jar程序內核都來自zlib,打出來的jar包自然也是一個標準的zip文件;InfoZip偏重對文件的操作 (包括口令保護),應用似乎不如zlib廣泛,但我個人覺得其實它還是滿好用的,前提是需要對它的源代碼進行一些必要的修改。

在png組織的網頁中有說到png格式的來歷,我覺得也很有意思:做png的一班人,其實原來都是做gif格式的,但是由於Unisys公司開始對gif格式的核心——LZW壓縮演算法徵收專利費,這幫人怒了,乾脆提出png格式:大結構方面還是採用分段結構,但是核心壓縮演算法採用開源的zlib,壓縮 效果在多數情況下比gif的LZW更強。由於沒有版許可權制,在靜態圖形領域png得到廣泛應用,如果不是及時提出動畫支持並因此在web上大行其道,我估計gif早就死掉了。

RAR的解壓源代碼在其官方網站www.rarlab.com上提供,通常比WinRAR的正式版本晚一點,不過據說是直接從WinRAR的源代碼中摳出來的,所以兼容性應該沒有什麼問題。

五、結論

以下觀點純屬個人觀點,僅供參考,不具有如何指導意義:

如果經常需要對壓縮包進行隨機訪問,應該選zip而不是rar。雖然將下載到的rar重新壓縮成zip會麻煩一次,但是以後會減少無數的麻煩。
如果需要分卷壓縮(如某些網站對上傳文件大小有限制),則只能用rar。事實上,這也是我唯一會使用rar格式的場合,其它時候一律zip沒商量。

㈡ java最常用的幾種加密演算法

簡單的Java加密演算法有:
第一種. BASE
Base是網路上最常見的用於傳輸Bit位元組代碼的編碼方式之一,大家可以查看RFC~RFC,上面有MIME的詳細規范。Base編碼可用於在HTTP環境下傳遞較長的標識信息。例如,在Java Persistence系統Hibernate中,就採用了Base來將一個較長的唯一標識符(一般為-bit的UUID)編碼為一個字元串,用作HTTP表單和HTTP GET URL中的參數。在其他應用程序中,也常常需要把二進制數據編碼為適合放在URL(包括隱藏表單域)中的形式。此時,採用Base編碼具有不可讀性,即所編碼的數據不會被人用肉眼所直接看到。
第二種. MD
MD即Message-Digest Algorithm (信息-摘要演算法),用於確保信息傳輸完整一致。是計算機廣泛使用的雜湊演算法之一(又譯摘要演算法、哈希演算法),主流編程語言普遍已有MD實現。將數據(如漢字)運算為另一固定長度值,是雜湊演算法的基礎原理,MD的前身有MD、MD和MD。
MD演算法具有以下特點:
壓縮性:任意長度的數據,算出的MD值長度都是固定的。
容易計算:從原數據計算出MD值很容易。
抗修改性:對原數據進行任何改動,哪怕只修改個位元組,所得到的MD值都有很大區別。
弱抗碰撞:已知原數據和其MD值,想找到一個具有相同MD值的數據(即偽造數據)是非常困難的。
強抗碰撞:想找到兩個不同的數據,使它們具有相同的MD值,是非常困難的。
MD的作用是讓大容量信息在用數字簽名軟體簽署私人密鑰前被」壓縮」成一種保密的格式(就是把一個任意長度的位元組串變換成一定長的十六進制數字串)。除了MD以外,其中比較有名的還有sha-、RIPEMD以及Haval等。
第三種.SHA
安全哈希演算法(Secure Hash Algorithm)主要適用於數字簽名標准(Digital Signature Standard DSS)裡面定義的數字簽名演算法(Digital Signature Algorithm DSA)。對於長度小於^位的消息,SHA會產生一個位的消息摘要。該演算法經過加密專家多年來的發展和改進已日益完善,並被廣泛使用。該演算法的思想是接收一段明文,然後以一種不可逆的方式將它轉換成一段(通常更小)密文,也可以簡單的理解為取一串輸入碼(稱為預映射或信息),並把它們轉化為長度較短、位數固定的輸出序列即散列值(也稱為信息摘要或信息認證代碼)的過程。散列函數值可以說是對明文的一種「指紋」或是「摘要」所以對散列值的數字簽名就可以視為對此明文的數字簽名。
SHA-與MD的比較
因為二者均由MD導出,SHA-和MD彼此很相似。相應的,他們的強度和其他特性也是相似,但還有以下幾點不同:
對強行攻擊的安全性:最顯著和最重要的區別是SHA-摘要比MD摘要長 位。使用強行技術,產生任何一個報文使其摘要等於給定報摘要的難度對MD是^數量級的操作,而對SHA-則是^數量級的操作。這樣,SHA-對強行攻擊有更大的強度。
對密碼分析的安全性:由於MD的設計,易受密碼分析的攻擊,SHA-顯得不易受這樣的攻擊。
速度:在相同的硬體上,SHA-的運行速度比MD慢。
第四種.HMAC
HMAC(Hash Message Authentication Code,散列消息鑒別碼,基於密鑰的Hash演算法的認證協議。消息鑒別碼實現鑒別的原理是,用公開函數和密鑰產生一個固定長度的值作為認證標識,用這個標識鑒別消息的完整性。使用一個密鑰生成一個固定大小的小數據塊,即MAC,並將其加入到消息中,然後傳輸。接收方利用與發送方共享的密鑰進行鑒別認證等。

㈢ 幾種無損數據壓縮演算法的探討及在java web程序中的應用

Tomcat是Sun的JSWDK(JavaServer Web Development Kit)中Servlet的運行環境(servlet容器)。Tomcat是Apache Jakarta軟體組織的一個子項目,Tomcat是一個JSP/Servlet容器,它是在SUN公司的JSWDK(Java Server Web Development Kit)基礎上發展起來的一個JSP和Servlet規范的標准實現,使用Tomcat可以體驗JSP和Servlet的最新規范。經過多年的發展,Tomcat不僅是JSP和Servlet規范的標准實現,而且具備了很多商業Java Servlet容器的特性,並被一些企業用於商業用途。

JBoss是一個運行EJB的J2EE應用伺服器。它是開放源代碼的項目,遵循最新的J2EE規范。從JBoss項目開始至今,它已經從一個EJB容器發展成為一個基於的J2EE的一個web 操作系統(operating system for web),它體現了J2EE規范中最新的技術

WebLogic伺服器是企業級的應用伺服器,支持EJB, 集群以及 ERP(企業資源計劃)的連通性 ,開發公司:BEA。

WebSphere產品系列是IBM公司一套典型的電子商務應用開發工具及運行環境

熱點內容
緩存圖片到相冊 發布:2025-04-28 07:51:30 瀏覽:551
為什麼電子稅務局密碼會錯誤 發布:2025-04-28 07:46:23 瀏覽:835
PHP幸運28源碼 發布:2025-04-28 07:34:18 瀏覽:281
人機編程軟體 發布:2025-04-28 07:28:40 瀏覽:730
編譯原理清華大學第二版書 發布:2025-04-28 07:28:05 瀏覽:422
構成c語言的基本單位 發布:2025-04-28 07:25:52 瀏覽:800
讀懂編譯器需要知識 發布:2025-04-28 07:25:11 瀏覽:672
照片壓縮處理 發布:2025-04-28 07:21:35 瀏覽:832
期刊文獻的資料庫 發布:2025-04-28 07:19:18 瀏覽:521
圖庫加密 發布:2025-04-28 07:17:07 瀏覽:444