hadoop2x源碼剖析

發布時間: 2023-02-28 20:38:37

『壹』如何在CentOS6.5下編譯64位的Hadoop2.x

1,安裝gcc，執行如下的幾個yum命令即可

java代碼

yum -y install gcc

yum -y install gcc-c++

yum install make

yum install autoconf automake libtool cmake ncurses-devel openssl-devel gcc*

2,安裝JDK,並設置環境變數，完成後測試安裝成功否

Java代碼

[root@ganglia ~]# java -version

java version "1.5.0"

gij (GNU libgcj) version 4.4.7 20120313 (Red Hat 4.4.7-4)

Copyright (C) 2007 Free Software Foundation, Inc.

This is free software; see the source for ing conditions. There is NO

warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.

[root@ganglia ~]#

3，安裝Maven，安裝完成後測試安裝與否

Java代碼

[root@ganglia ~]# mvn -v

Apache Maven 3.2.1 (; 2014-02-15T01:37:52+08:00)

Maven home: /usr/local/maven

Java version: 1.7.0_25, vendor: Oracle Corporation

Java home: /usr/local/jdk1.7.0_25/jre

Default locale: zh_CN, platform encoding: UTF-8

OS name: "linux", version: "2.6.32-431.el6.x86_64", arch: "amd64", family: "unix"

[root@ganglia ~]#

4, 安裝Ant，安裝完成後，依舊測試成功與否

Java代碼

[root@ganglia ~]# ant -version

Apache Ant(TM) version 1.9.4 compiled on April 29 2014

[root@ganglia ~]#

5,安裝protobuf，安裝方式，從官網下載tar.gz的包，並上傳到linux上解壓，然後進入根目錄下，執行如下的幾個命令:

Java代碼

./configure

make

make check

make install

然後，執行如下命令，進行測試安裝成功與否

Java代碼

[root@ganglia protobuf-2.5.0]# protoc

Missing input file.

[root@ganglia protobuf-2.5.0]#

6,從hadoop官網下載hadoop2.2.0的版本的源碼的src的包，並查看目錄

Java代碼

[root@ganglia ~]# cd hadoop-2.2.0-src

[root@ganglia hadoop-2.2.0-src]# ll

總用量 108

-rw-r--r--. 1 67974 users 9968 10月 7 2013 BUILDING.txt

drwxr-xr-x. 2 67974 users 4096 10月 7 2013 dev-support

drwxr-xr-x. 4 67974 users 4096 6月 9 17:05 hadoop-assemblies

drwxr-xr-x. 3 67974 users 4096 6月 9 17:27 hadoop-client

drwxr-xr-x. 9 67974 users 4096 6月 9 17:14 hadoop-common-project

drwxr-xr-x. 3 67974 users 4096 6月 9 17:26 hadoop-dist

drwxr-xr-x. 7 67974 users 4096 6月 9 17:20 hadoop-hdfs-project

drwxr-xr-x. 11 67974 users 4096 6月 9 17:25 hadoop-maprece-project

drwxr-xr-x. 4 67974 users 4096 6月 9 17:06 hadoop-maven-plugins

drwxr-xr-x. 3 67974 users 4096 6月 9 17:27 hadoop-minicluster

drwxr-xr-x. 4 67974 users 4096 6月 9 17:03 hadoop-project

drwxr-xr-x. 3 67974 users 4096 6月 9 17:05 hadoop-project-dist

drwxr-xr-x. 12 67974 users 4096 6月 9 17:26 hadoop-tools

drwxr-xr-x. 4 67974 users 4096 6月 9 17:24 hadoop-yarn-project

-rw-r--r--. 1 67974 users 15164 10月 7 2013 LICENSE.txt

-rw-r--r--. 1 67974 users 101 10月 7 2013 NOTICE.txt

-rw-r--r--. 1 67974 users 16569 10月 7 2013 pom.xml

-rw-r--r--. 1 67974 users 1366 10月 7 2013 README.txt

[root@ganglia hadoop-2.2.0-src]#

7，修改/root/hadoop-2.2.0-src/hadoop-common-project/hadoop-auth/pom.xml文件，增加，補丁內容，這部分是hadoop2.2.0的bug，如果是其他的2.x的版本，可以視情況而定，內容如下：

Xml代碼

<dependency>

<groupId>org.mockito</groupId>

<artifactId>mockito-all</artifactId>

<scope>test</scope>

</dependency>



<dependency>

<groupId>org.mortbay.jetty</groupId>

<artifactId>jetty-util</artifactId>

<scope>test</scope>

</dependency>



<dependency>

<groupId>org.mortbay.jetty</groupId>

<artifactId>jetty</artifactId>

<scope>test</scope>

</dependency>

8，修改完畢後，回到hadoop-2.2.0-src的跟目錄下執行編譯打包命令:

Java代碼

mvn clean

mvn package -Pdist,native -DskipTests -Dtar

然後等待半個小時左右的編譯時間，網速快的話，時間可能會更短，編譯完成編譯好的hadoop包，

Java代碼

[root@ganglia target]# pwd

/root/hadoop-2.2.0-src/hadoop-dist/target

[root@ganglia target]# ll

總用量 282348

編譯完成後的本地庫，位於如下位置，並查看本地庫支持位數：

至此，我們的編譯已經，成功完成，然後，我們就可以使用在target目錄下，編譯生成的hadoop新的tar.gz包，來部署我們的hadoop集群。

『貳』如何在CentOS6.5下編譯64位的Hadoop2.x

一、預先安裝必要軟體

1、需要的軟體：java, svn, autoconf, automake, libtool, ncurses-devel, openssl-devel, gcc, lzo-devel, zlib-devel, znt, maven, protobuf, cmake
檢測系統中是否已安裝了某一軟體命令：rpm -qa|grep 軟體名，如檢測系統中是否安裝了svn：

$ rpm -qa|grep svn
2、如果已安裝，則跳過，如果沒有安裝，用命令：yum install svn進行安裝，如：

$ yum install svn
如果yum命令安裝失敗（找不到相應的包），則需手動下載相應的軟體包進行安裝，比如maven, protobuf這兩個個軟體；

二、安裝maven

1、軟體包：apache-maven-3.0.5-bin.tar.gz
不要使用最新的Maven3.1.1，與Maven3.0.x存在兼容性問題，所以老是出現java.lang.NoClassDefFoundError: org/sonatype/aether/graph/DependencyFilter之類的錯誤。選擇3.0.5版本：apache-maven-3.0.5-bin.tar.gz
將apache-maven-3.0.5-bin.tar.gz移動到/usr目錄（軟體包所在目錄）：
# mv ./apache-maven-3.0.5-bin.tar.gz /usr
進入/usr目錄，解壓（/usr目錄）：
# tar –zxvf apache-maven-3.0.5-bin.tar.gz ./
刪除解壓後的壓縮包（/usr目錄）：
# rm –rf apache-maven-3.0.5-bin.tar.gz
將/usr / apache-maven-3.0.5/bin加到環境變數中
# vi /etc/profile
在PATH行的最後加上「:/usr/apache-maven-3.0.5/bin」
2、使配置生效：

# source /etc/profile
驗證是否安裝成功：

# mvn –version

三、安裝protobuf
1、軟體包：protobuf-2.5.0.tar.gz
將protobuf-2.5.0.tar.gz移動到/usr目錄（軟體包所在目錄）：
# mv ./ protobuf-2.5.0.tar.gz /usr
進入/usr目錄，解壓（/usr目錄）：

# tar –zxvf protobuf-2.5.0.tar.gz ./
刪除解壓後的壓縮包（/usr目錄）：

# rm –rf protobuf-2.5.0.tar.gz
進入/usr/protobuf-2.5.0目錄：
# cd /usr/protobuf-2.5.0
2、依次執行下列命令：
# ./configure
# make
# make check
# make install
檢測是否安裝成功：
# protoc --version
四、下載hadoop-2.2.0源碼並編譯

在/usr目錄進行
用svn下載hadoop-2.2.0源碼，命令：
$ svn checkout 'http://svn.apache.org/repos/asf/hadoop/common/tags/release-2.2.0'
源碼下載完成後，在/usr目錄下會有一個release-2.2.0目錄，進入該目錄：
$ cd /usr/release-2.2.0
$ ls –la

編譯源碼：
$ mvn package -Pdist,native -DskipTests –Dtar --不生成文檔
$ mvn package -Pdist,native,docs,src -DskipTests –Dtar --生成文檔，需要安裝findbugs，並設置FINDBUGS_HOME環境變數
編譯的時間比較久，編譯過程中會聯網下載所需要的包，機子沒聯網是不會成功編譯的。
編譯結束，最後列印的信息如下，每一項均是『SUCCESS』，則編譯成功：

編譯好的代碼包在/usr/release-2.2.0/hadoop-dist/target目錄下：
$ cd /usr/release-2.2.0/hadoop-dist/target
$ ls –la
因為是在64位系統下編譯的，所以編譯出來的代碼包是64位版本的；可以直接將/usr/release-2.2.0/hadoop-dist/target目錄下的hadoop-2.2.0或者hadoop-2.2.0.tar.gz拷貝到其他linux64位平台進行搭建hadoop集群。

說明：
1、機器得連網，如果沒聯網找可以聯網的機器下載，但是編譯時還是要下載一些東西，所以，實在不行。最好找相同平台（可以是虛擬機）能上網的機器做下面工作，弄好了再把編譯好的代碼包拷回來。
2、命令操作中，『#』開頭的是在root用戶進行，『$』開頭的是在普通用戶下進行

『叄』為什麼編譯 hadoop 源碼

編譯了hadoop，可以方便的查看某個函數的實現。如果不編譯就只是自己去翻源代碼了。更重要的是如果你編譯了hadoop，你可以根據自己的需要改動hadoop的某些實現機制。（hadoop開源的好處）

『肆』 hadoop hdfs 源碼怎麼看

在使用Hadoop的過程中，很容易通過FileSystem類的API來讀取HDFS中的文件內容，讀取內容的過程是怎樣的呢？今天來分析客戶端讀取HDFS文件的過程，下面的一個小程序完成的功能是讀取HDFS中某個目錄下的文件內容，然後輸出到控制台，代碼如下：

[java] view plain
public class LoadDataFromHDFS {
public static void main(String[] args) throws IOException {
new LoadDataFromHDFS().loadFromHdfs("hdfs://localhost:9000/user/wordcount/");
}

public void loadFromHdfs(String hdfsPath) throws IOException {
Configuration conf = new Configuration();

Path hdfs = new Path(hdfsPath);

FileSystem in = FileSystem.get(conf);
//in = FileSystem.get(URI.create(hdfsPath), conf);//這兩行都會創建一個DistributedFileSystem對象

FileStatus[] status = in.listStatus(hdfs);
for(int i = 0; i < status.length; i++) {
byte[] buff = new byte[1024];
FSDataInputStream inputStream = in.open(status[i].getPath());
while(inputStream.read(buff) > 0) {
System.out.print(new String(buff));
}
inputStream.close();
}
}
}

FileSystem in = FileSystem.get(conf)這行代碼創建一個DistributedFileSystem，如果直接傳入一個Configuration類型的參數，那麼默認會讀取屬性fs.default.name的值，根據這個屬性的值創建對應的FileSystem子類對象，如果沒有配置fs.default.name屬性的值，那麼默認創建一個org.apache.hadoop.fs.LocalFileSystem類型的對象。但是這里是要讀取HDFS中的文件，所以在core-site.xml文件中配置fs.default.name屬性的值為hdfs://localhost:9000，這樣FileSystem.get(conf)返回的才是一個DistributedFileSystem類的對象。還有一種創建DistributedFileSystem這種指定文件系統類型對像的方法是使用FileSystem.get(Configuration conf)的一個重載方法FileSystem.get(URI uri, Configuration)，其實調用第一個方法時在FileSystem類中先讀取conf中的屬性fs.default.name的值，再調用的FileSystem.get(URI uri, Configuration)方法。

『伍』 hadoop 源代碼從哪裡可以找到啊怎麼下載，說詳細一點謝謝

你可以用SVN軟體在這里同步到最新的代碼：
http://svn.apache.org/repos/asf/hadoop
其實你同步你研究領域的分支就可以了，全同步實在太大了。
SVN軟體可以用Tortoise SVN，使用方法一下就可以了。
當然也可以到cloudera或Yahoo!的hadoop官網的download鏈接去下載。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：837

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1100

python中的init方法發布：2025-10-20 08:17:33 瀏覽：807

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：972

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：860

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1212

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：433

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：313

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：988

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：956

hadoop2x源碼剖析

與hadoop2x源碼剖析相關的資訊