hadoop壓縮

發布時間: 2022-07-02 18:07:27

㈠如何檢測hadoop中gz壓縮文件是否損壞

執行hive任務的時候，進入到8088的map詳細進度列表，即是RUNNING MAP attempts in job_1456816082333_1354，查看最後出錯的map是哪個節點或者在頁面直接點擊logs進入詳細log日誌查看，或者進入到節點的Hadoop的logs/userlogs目錄
根據jobid找到對應的目錄： application_1456816082333_1354，裡面有錯誤的文件id，然後刪除掉hdfs的對應的損壞文件。

㈡ hadoop壓縮演算法用哪種最好

hadoop壓縮演算法用哪種最好
Test Plan的配置元件中有一些和HTTP屬性相關的元件：HTTP Cache Manager、HTTP Authorization Manager、HTTP Cookie Manager、HTTP Header Manager、HTTP Request Defaults等，這些是什麼呢？
JMeter不是瀏覽器，因此其行為並不和瀏覽器完全一致。這些JMeter提供的HTTP屬性管理器用於盡可能模擬瀏覽器的行為，在HTTP協議層上定製發送給被測應用的HTTP請求。

㈢ hadoop lzo 壓縮比多高

大概 10:1 。

㈣如何安裝hadoop本地壓縮庫

Hadoop安裝配置snappy壓縮

[一]、實驗環境

CentOS 6.3 64位

Hadoop 2.6.0

JDK 1.7.0_75

[二]、 snappy編譯安裝

2.1、下載源碼

到官網 http://code.google.com/p/snappy/ 或者到 https://github.com/google/snappy
下載源碼，目前版本為 1.1.1。

2.2、編譯安裝

解壓 tar -zxvf snappy-1.1.1.tar.gz ,然後以 root 用戶執行標準的三步進行編譯安裝：

/configure

make

make install

默認是安裝到 /usr/local/lib ,這時在此目錄下查看：

[hadoop@micmiu ~]$ ls -lh /usr/local/lib |grep snappy

-rw-r--r-- 1 root root 229K Mar 10 11:28 libsnappy.a

-rwxr-xr-x 1 root root 953 Mar 10 11:28 libsnappy.la

lrwxrwxrwx 1 root root 18 Mar 10 11:28 libsnappy.so ->
libsnappy.so.1.2.0

lrwxrwxrwx 1 root root 18 Mar 10 11:28 libsnappy.so.1 ->
libsnappy.so.1.2.0

-rwxr-xr-x 1 root root 145K Mar 10 11:28 libsnappy.so.1.2.0

安裝過程沒有錯誤同時能看到上面的動態庫，基本表示snappy 安裝編譯成功。

[三]、Hadoop snappy 安裝配置

3.1、hadoop 動態庫重新編譯支持snappy

hadoop動態庫編譯參考：Hadoop2.2.0源碼編譯和 Hadoop2.x在Ubuntu系統中編譯源碼，只是把最後編譯的命令中增加
-Drequire.snappy :

1mvn package -Pdist,native -DskipTests -Dtar -Drequire.snappy

把重新編譯生成的hadoop動態庫替換原來的。

3.2、hadoop-snappy 下載

目前官網沒有軟體包提供，只能藉助 svn 下載源碼：

1svn checkout http://hadoop-snappy.googlecode.com/svn/trunk/
hadoop-snappy

3.3、hadoop-snappy 編譯

1mvn package [-Dsnappy.prefix=SNAPPY_INSTALLATION_DIR]

PS：如果上面 snappy安裝路徑是默認的話，即 /usr/local/lib，則此處
[-Dsnappy.prefix=SNAPPY_INSTALLATION_DIR] 可以省略，或者
-Dsnappy.prefix=/usr/local/lib

編譯成功後，把編譯後target下的 hadoop-snappy-0.0.1-SNAPSHOT.jar 復制到 $HADOOP_HOME/lib
，同時把編譯生成後的動態庫到 $HADOOP_HOME/lib/native/ 目錄下：

1cp -r
$HADOOP-SNAPPY_CODE_HOME/target/hadoop-snappy-0.0.1-SNAPSHOT/lib/native/Linux-amd64-64
$HADOOP_HOME/lib/native/

3.4、編譯過程中常見錯誤處理

① 缺少一些第三方依賴

官方文檔中提到編譯前提需要：gcc c++, autoconf, automake, libtool, java 6, JAVA_HOME set,
Maven 3

②錯誤信息：

[exec] libtool: link: gcc -shared
src/org/apache/hadoop/io/compress/snappy/.libs/SnappyCompressor.o
src/org/apache/hadoop/io/compress/snappy/.libs/SnappyDecompressor.o
-L/usr/local/lib -ljvm -ldl -m64 -Wl,-soname -Wl,libhadoopsnappy.so.0 -o
.libs/libhadoopsnappy.so.0.0.1

[exec] /usr/bin/ld: cannot find -ljvm

[exec] collect2: ld returned 1 exit status

[exec] make: *** [libhadoopsnappy.la] Error 1

或者

[exec] /bin/sh ./libtool --tag=CC --mode=link gcc -g -Wall -fPIC -O2 -m64
-g -O2 -version-info 0:1:0 -L/usr/local/lib -o libhadoopsna/usr/bin/ld: cannot
find -ljvm

[exec] collect2: ld returned 1 exit status

[exec] make: *** [libhadoopsnappy.la] Error 1

[exec] ppy.la -rpath /usr/local/lib
src/org/apache/hadoop/io/compress/snappy/SnappyCompressor.lo
src/org/apache/hadoop/io/compress/snappy/SnappyDecompressor.lo -ljvm -ldl

[exec] libtool: link: gcc -shared
src/org/apache/hadoop/io/compress/snappy/.libs/SnappyCompressor.o
src/org/apache/hadoop/io/compress/snappy/.libs/SnappyDecompressor.o
-L/usr/local/lib -ljvm -ldl -m64 -Wl,-soname -Wl,libhadoopsnappy.so.0 -o
.libs/libhadoopsnappy.so.0.0.1

[ant] Exiting
/home/hadoop/codes/hadoop-snappy/maven/build-compilenative.xml.

這個錯誤是因為沒有把安裝jvm的libjvm.so 鏈接到
/usr/local/lib。如果你的系統時amd64，可以執行如下命令解決這個問題：

1ln -s /usr/java/jdk1.7.0_75/jre/lib/amd64/server/libjvm.so
/usr/local/lib/

[四]、hadoop配置修改

4.1、修改 $HADOOP_HOME/etc/hadoop/hadoop-env.sh，添加：

1export
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HADOOP_HOME/lib/native/Linux-amd64-64/

4.2、修改 $HADOOP_HOME/etc/hadoop/core-site.xml：

XHTML

io.compression.codecs

org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.SnappyCodec

4.3、修改 $HADOOP_HOME/etc/hadoop/mapred-site.xml 中有關壓縮屬性，測試snappy：

XHTML

maprece.map.output.compress

true

maprece.map.output.compress.codec

org.apache.hadoop.io.compress.SnappyCodec[五]、測試驗證

全部配置好後(集群中所有的節點都需要動態庫和修改配置)，重啟hadoop集群環境，運行自帶的測試實例
wordcount，如果maprece過程中沒有錯誤信息即表示snappy壓縮安裝方法配置成功。

當然hadoop也提供了本地庫的測試方法 hadoop checknative ：

[hadoop@micmiu ~]$ hadoop checknative

15/03/17 22:57:59 INFO bzip2.Bzip2Factory: Successfully loaded &
initialized native-bzip2 library system-native

15/03/17 22:57:59 INFO zlib.ZlibFactory: Successfully loaded &
initialized native-zlib library

Native library checking:

hadoop: true
/usr/local/share/hadoop-2.6.0/lib/native/libhadoop.so.1.0.0

zlib: true /lib64/libz.so.1

snappy: true
/usr/local/share/hadoop/lib/native/Linux-amd64-64/libsnappy.so.1

lz4: true revision:99

bzip2: true /lib64/libbz2.so.1

openssl: true /usr/lib64/libcrypto.so

㈤我在解壓hadoop壓縮包的時候遇到這問題怎麼辦

I would go back and re-gzip the tar file though (to save space):
gzip xxxxxx.x.x.tar
tar -zxvf xxxxxx.x.x.tar.gz
想刨根問底的可以查下他的意思，在看下TAR 指令的用法，。
總之：我出現這個錯誤時，就是把指令改為：
tar -xvf xxxx.tar.gz
然後指令就運行了。。

㈥數據壓縮為什麼選擇hadoop

hadoop對於壓縮格式的是透明識別,我們的MapRece任務的執行是透明的，hadoop能夠自動為我們
將壓縮的文件解壓，而不用我們去關心。

㈦ hadoop sequencefile 怎麼使用

1.SequenceFile特點：是 Hadoop 的一個重要數據文件類型，它提供key-value的存儲，但與傳統key-value存儲（比如hash表，btree）不同的是，它是appendonly的，於是你不能對已存在的key進行寫操作。

2.SequenceFile 有三種壓縮態：
1 Uncompressed – 未進行壓縮的狀
2.record compressed - 對每一條記錄的value值進行了壓縮（文件頭中包含上使用哪種壓縮演算法的信息）
3. block compressed – 當數據量達到一定大小後，將停止寫入進行整體壓縮，整體壓縮的方法是把所有的keylength,key,vlength,value 分別合在一起進行整體壓縮
3.結構組成：
3.1 header數據：保存文件的壓縮態標識；
3.2 Metadata數據：簡單的屬性/值對，標識文件的一些其他信息。Metadata 在文件創建時就寫好了，所以也是不能更改
3.3 追加的鍵值對數據
3.4 流存儲結構：流的存儲頭位元組格式：
Header： *位元組頭」SEQ」, 後跟一個位元組表示版本」SEQ4」,」SEQ6」.//這里有點忘了不記得是怎麼處理的了，回頭補上做詳細解釋
*keyClass name
*valueClass name
*compression boolean型的存儲標示壓縮值是否轉變為keys/values值了
*blockcompression boolean型的存儲標示是否全壓縮的方式轉變為keys/values值了
*compressor 壓縮處理的類型，比如我用Gzip壓縮的Hadoop提供的是GzipCodec什麼的..
*元數據這個大家可看可不看的

4.擴展實現：
4.1 MapFile 一個key-value 對應的查找數據結構，由數據文件/data 和索引文件 /index 組成，數據文件中包含所有需要存儲的key-value對，按key的順序排列。索引文件包含一部分key值，用以指向數據文件的關鍵位置
4.2 SetFile – 基於 MapFile 實現的，他只有key，value為不可變的數據。
4.3 ArrayFile – 也是基於 MapFile 實現，他就像我們使用的數組一樣，key值為序列化的數字。
4.4 BloomMapFile – 他在 MapFile 的基礎上增加了一個 /bloom 文件，包含的是二進制的過濾表，在每一次寫操作完成時，會更新這個過濾表。

5.使用如下：主要是Writer和Reader對象完成文件的添加和讀功能，應用demo參照下面鏈接，其中Map端以SequenceFileInputFormat格式接收，Map的key-value應為SequenceFile保持一致。

㈧如何在Scala中讀取Hadoop集群上的gz壓縮文件

（1）一個從文件創建的Scala對象，或（2）一個並行切片（分布在各個節點之間），或（3）從其他RDD轉換得來，或（4）改變已有RDD的持久性，如請求將已有RDD緩存在內存中。Spark應用稱為driver，實現單個節點或一組節點上的操作。

㈨ hadoop集群用不同的操作系統，使用snappy壓縮會慢嗎

Docker最核心的特性之一，就是能夠將任何應用包括Hadoop打包到Docker鏡像中。這篇教程介紹了利用Docker在單機上快速搭建多節點Hadoop集群的詳細步驟。作者在發現目前的HadooponDocker項目所存在的問題之後，開發了接近最小化的Hadoop鏡像，並且支持快速搭建任意節點數的Hadoop集群。GitHub:kiwanlau/hadoop-cluster-docker直接用機器搭建Hadoop集群是一個相當痛苦的過程，尤其對初學者來說。他們還沒開始跑wordcount，可能就被這個問題折騰的體無完膚了。而且也不是每個人都有好幾台機器對吧。你可以嘗試用多個虛擬機搭建，前提是你有個性能杠杠的機器。我的目標是將Hadoop集群運行在Docker容器中，使Hadoop開發者能夠快速便捷地在本機搭建多節點的Hadoop集群。其實這個想法已經有了不少實現，但是都不是很理想，他們或者鏡像太大，或者使用太慢，或者使用了第三方工具使得使用起來過於復雜。下表為一些已知的HadooponDocker項目以及其存在的問題。更快更方便地改變Hadoop集群節點數目另外，alvinhenrick/hadoop-mutinode項目增加節點時需要手動修改Hadoop配置文件然後重新構建hadoop-nn-dn鏡像,然後修改容器啟動腳本，才能實現增加節點的功能。而我通過shell腳本實現自動話，不到1分鍾可以重新構建hadoop-master鏡像，然後立即運行!本項目默認啟動3個節點的Hadoop集群，支持任意節點數的Hadoop集群。另外，啟動Hadoop，運行wordcount以及重新構建鏡像都採用了shell腳本實現自動化。這樣使得整個項目的使用以及開發都變得非常方便快捷。開發測試環境操作系統：ubuntu14.04和ubuntu12.04內核版本:3.13.0-32-genericDocker版本：1.5.0和1.6.2小夥伴們，硬碟不夠，內存不夠，尤其是內核版本過低會導致運行失敗。

㈩ hadoop用什麼壓縮工具最好

hadoop用什麼壓縮工具最好
填充可以按從下到上的順序疊加
選中圖層control+command+m創建蒙版
control+c會出現放大鏡，然後可以方便選擇顏色替換當前選擇對象的顏色
畫布的控制
使用空格進行抓手移動畫布
按command加滑鼠滾輪進行畫布放大和縮小
control+p能夠切換到像素模式查看，相當於輸出png後點開圖片查看的效果。
control+g開啟關閉網格
按住option鍵能夠看到各個對象之間的距離
command+1縮小至能看到所有對象，command+2放大到選中對象到屏幕適合的大小，command+0縮小至100%
Symbol共享元素，一次編輯所有地方都能夠生效。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：724

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：990

python中的init方法發布：2025-10-20 08:17:33 瀏覽：699

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：855

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：756

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1097

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：329

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：205

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：895

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：854

hadoop壓縮

與hadoop壓縮相關的資訊