hadoop2x源码剖析

发布时间: 2023-02-28 20:38:37

‘壹’ 如何在CentOS6.5下编译64位的Hadoop2.x

1,安装gcc，执行如下的几个yum命令即可

java代码

yum -y install gcc

yum -y install gcc-c++

yum install make

yum install autoconf automake libtool cmake ncurses-devel openssl-devel gcc*

2,安装JDK,并设置环境变量，完成后测试安装成功否

Java代码

[root@ganglia ~]# java -version

java version "1.5.0"

gij (GNU libgcj) version 4.4.7 20120313 (Red Hat 4.4.7-4)

Copyright (C) 2007 Free Software Foundation, Inc.

This is free software; see the source for ing conditions. There is NO

warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.

[root@ganglia ~]#

3，安装Maven，安装完成后测试安装与否

Java代码

[root@ganglia ~]# mvn -v

Apache Maven 3.2.1 (; 2014-02-15T01:37:52+08:00)

Maven home: /usr/local/maven

Java version: 1.7.0_25, vendor: Oracle Corporation

Java home: /usr/local/jdk1.7.0_25/jre

Default locale: zh_CN, platform encoding: UTF-8

OS name: "linux", version: "2.6.32-431.el6.x86_64", arch: "amd64", family: "unix"

[root@ganglia ~]#

4, 安装Ant，安装完成后，依旧测试成功与否

Java代码

[root@ganglia ~]# ant -version

Apache Ant(TM) version 1.9.4 compiled on April 29 2014

[root@ganglia ~]#

5,安装protobuf，安装方式，从官网下载tar.gz的包，并上传到linux上解压，然后进入根目录下，执行如下的几个命令:

Java代码

./configure

make

make check

make install

然后，执行如下命令，进行测试安装成功与否

Java代码

[root@ganglia protobuf-2.5.0]# protoc

Missing input file.

[root@ganglia protobuf-2.5.0]#

6,从hadoop官网下载hadoop2.2.0的版本的源码的src的包，并查看目录

Java代码

[root@ganglia ~]# cd hadoop-2.2.0-src

[root@ganglia hadoop-2.2.0-src]# ll

总用量 108

-rw-r--r--. 1 67974 users 9968 10月 7 2013 BUILDING.txt

drwxr-xr-x. 2 67974 users 4096 10月 7 2013 dev-support

drwxr-xr-x. 4 67974 users 4096 6月 9 17:05 hadoop-assemblies

drwxr-xr-x. 3 67974 users 4096 6月 9 17:27 hadoop-client

drwxr-xr-x. 9 67974 users 4096 6月 9 17:14 hadoop-common-project

drwxr-xr-x. 3 67974 users 4096 6月 9 17:26 hadoop-dist

drwxr-xr-x. 7 67974 users 4096 6月 9 17:20 hadoop-hdfs-project

drwxr-xr-x. 11 67974 users 4096 6月 9 17:25 hadoop-maprece-project

drwxr-xr-x. 4 67974 users 4096 6月 9 17:06 hadoop-maven-plugins

drwxr-xr-x. 3 67974 users 4096 6月 9 17:27 hadoop-minicluster

drwxr-xr-x. 4 67974 users 4096 6月 9 17:03 hadoop-project

drwxr-xr-x. 3 67974 users 4096 6月 9 17:05 hadoop-project-dist

drwxr-xr-x. 12 67974 users 4096 6月 9 17:26 hadoop-tools

drwxr-xr-x. 4 67974 users 4096 6月 9 17:24 hadoop-yarn-project

-rw-r--r--. 1 67974 users 15164 10月 7 2013 LICENSE.txt

-rw-r--r--. 1 67974 users 101 10月 7 2013 NOTICE.txt

-rw-r--r--. 1 67974 users 16569 10月 7 2013 pom.xml

-rw-r--r--. 1 67974 users 1366 10月 7 2013 README.txt

[root@ganglia hadoop-2.2.0-src]#

7，修改/root/hadoop-2.2.0-src/hadoop-common-project/hadoop-auth/pom.xml文件，增加，补丁内容，这部分是hadoop2.2.0的bug，如果是其他的2.x的版本，可以视情况而定，内容如下：

Xml代码

<dependency>

<groupId>org.mockito</groupId>

<artifactId>mockito-all</artifactId>

<scope>test</scope>

</dependency>



<dependency>

<groupId>org.mortbay.jetty</groupId>

<artifactId>jetty-util</artifactId>

<scope>test</scope>

</dependency>



<dependency>

<groupId>org.mortbay.jetty</groupId>

<artifactId>jetty</artifactId>

<scope>test</scope>

</dependency>

8，修改完毕后，回到hadoop-2.2.0-src的跟目录下执行编译打包命令:

Java代码

mvn clean

mvn package -Pdist,native -DskipTests -Dtar

然后等待半个小时左右的编译时间，网速快的话，时间可能会更短，编译完成编译好的hadoop包，

Java代码

[root@ganglia target]# pwd

/root/hadoop-2.2.0-src/hadoop-dist/target

[root@ganglia target]# ll

总用量 282348

编译完成后的本地库，位于如下位置，并查看本地库支持位数：

至此，我们的编译已经，成功完成，然后，我们就可以使用在target目录下，编译生成的hadoop新的tar.gz包，来部署我们的hadoop集群。

‘贰’ 如何在CentOS6.5下编译64位的Hadoop2.x

一、预先安装必要软件

1、需要的软件：java, svn, autoconf, automake, libtool, ncurses-devel, openssl-devel, gcc, lzo-devel, zlib-devel, znt, maven, protobuf, cmake
检测系统中是否已安装了某一软件命令：rpm -qa|grep 软件名，如检测系统中是否安装了svn：

$ rpm -qa|grep svn
2、如果已安装，则跳过，如果没有安装，用命令：yum install svn进行安装，如：

$ yum install svn
如果yum命令安装失败（找不到相应的包），则需手动下载相应的软件包进行安装，比如maven, protobuf这两个个软件；

二、安装maven

1、软件包：apache-maven-3.0.5-bin.tar.gz
不要使用最新的Maven3.1.1，与Maven3.0.x存在兼容性问题，所以老是出现java.lang.NoClassDefFoundError: org/sonatype/aether/graph/DependencyFilter之类的错误。选择3.0.5版本：apache-maven-3.0.5-bin.tar.gz
将apache-maven-3.0.5-bin.tar.gz移动到/usr目录（软件包所在目录）：
# mv ./apache-maven-3.0.5-bin.tar.gz /usr
进入/usr目录，解压（/usr目录）：
# tar –zxvf apache-maven-3.0.5-bin.tar.gz ./
删除解压后的压缩包（/usr目录）：
# rm –rf apache-maven-3.0.5-bin.tar.gz
将/usr / apache-maven-3.0.5/bin加到环境变量中
# vi /etc/profile
在PATH行的最后加上“:/usr/apache-maven-3.0.5/bin”
2、使配置生效：

# source /etc/profile
验证是否安装成功：

# mvn –version

三、安装protobuf
1、软件包：protobuf-2.5.0.tar.gz
将protobuf-2.5.0.tar.gz移动到/usr目录（软件包所在目录）：
# mv ./ protobuf-2.5.0.tar.gz /usr
进入/usr目录，解压（/usr目录）：

# tar –zxvf protobuf-2.5.0.tar.gz ./
删除解压后的压缩包（/usr目录）：

# rm –rf protobuf-2.5.0.tar.gz
进入/usr/protobuf-2.5.0目录：
# cd /usr/protobuf-2.5.0
2、依次执行下列命令：
# ./configure
# make
# make check
# make install
检测是否安装成功：
# protoc --version
四、下载hadoop-2.2.0源码并编译

在/usr目录进行
用svn下载hadoop-2.2.0源码，命令：
$ svn checkout 'http://svn.apache.org/repos/asf/hadoop/common/tags/release-2.2.0'
源码下载完成后，在/usr目录下会有一个release-2.2.0目录，进入该目录：
$ cd /usr/release-2.2.0
$ ls –la

编译源码：
$ mvn package -Pdist,native -DskipTests –Dtar --不生成文档
$ mvn package -Pdist,native,docs,src -DskipTests –Dtar --生成文档，需要安装findbugs，并设置FINDBUGS_HOME环境变量
编译的时间比较久，编译过程中会联网下载所需要的包，机子没联网是不会成功编译的。
编译结束，最后打印的信息如下，每一项均是‘SUCCESS’，则编译成功：

编译好的代码包在/usr/release-2.2.0/hadoop-dist/target目录下：
$ cd /usr/release-2.2.0/hadoop-dist/target
$ ls –la
因为是在64位系统下编译的，所以编译出来的代码包是64位版本的；可以直接将/usr/release-2.2.0/hadoop-dist/target目录下的hadoop-2.2.0或者hadoop-2.2.0.tar.gz拷贝到其他linux64位平台进行搭建hadoop集群。

说明：
1、机器得连网，如果没联网找可以联网的机器下载，但是编译时还是要下载一些东西，所以，实在不行。最好找相同平台（可以是虚拟机）能上网的机器做下面工作，弄好了再把编译好的代码包拷回来。
2、命令操作中，‘#’开头的是在root用户进行，‘$’开头的是在普通用户下进行

‘叁’ 为什么编译 hadoop 源码

编译了hadoop，可以方便的查看某个函数的实现。如果不编译就只是自己去翻源代码了。更重要的是如果你编译了hadoop，你可以根据自己的需要改动hadoop的某些实现机制。（hadoop开源的好处）

‘肆’ hadoop hdfs 源码怎么看

在使用Hadoop的过程中，很容易通过FileSystem类的API来读取HDFS中的文件内容，读取内容的过程是怎样的呢？今天来分析客户端读取HDFS文件的过程，下面的一个小程序完成的功能是读取HDFS中某个目录下的文件内容，然后输出到控制台，代码如下：

[java] view plain
public class LoadDataFromHDFS {
public static void main(String[] args) throws IOException {
new LoadDataFromHDFS().loadFromHdfs("hdfs://localhost:9000/user/wordcount/");
}

public void loadFromHdfs(String hdfsPath) throws IOException {
Configuration conf = new Configuration();

Path hdfs = new Path(hdfsPath);

FileSystem in = FileSystem.get(conf);
//in = FileSystem.get(URI.create(hdfsPath), conf);//这两行都会创建一个DistributedFileSystem对象

FileStatus[] status = in.listStatus(hdfs);
for(int i = 0; i < status.length; i++) {
byte[] buff = new byte[1024];
FSDataInputStream inputStream = in.open(status[i].getPath());
while(inputStream.read(buff) > 0) {
System.out.print(new String(buff));
}
inputStream.close();
}
}
}

FileSystem in = FileSystem.get(conf)这行代码创建一个DistributedFileSystem，如果直接传入一个Configuration类型的参数，那么默认会读取属性fs.default.name的值，根据这个属性的值创建对应的FileSystem子类对象，如果没有配置fs.default.name属性的值，那么默认创建一个org.apache.hadoop.fs.LocalFileSystem类型的对象。但是这里是要读取HDFS中的文件，所以在core-site.xml文件中配置fs.default.name属性的值为hdfs://localhost:9000，这样FileSystem.get(conf)返回的才是一个DistributedFileSystem类的对象。还有一种创建DistributedFileSystem这种指定文件系统类型对像的方法是使用FileSystem.get(Configuration conf)的一个重载方法FileSystem.get(URI uri, Configuration)，其实调用第一个方法时在FileSystem类中先读取conf中的属性fs.default.name的值，再调用的FileSystem.get(URI uri, Configuration)方法。

‘伍’ hadoop 源代码从哪里可以找到啊怎么下载，说详细一点谢谢

你可以用SVN软件在这里同步到最新的代码：
http://svn.apache.org/repos/asf/hadoop
其实你同步你研究领域的分支就可以了，全同步实在太大了。
SVN软件可以用Tortoise SVN，使用方法一下就可以了。
当然也可以到cloudera或Yahoo!的hadoop官网的download链接去下载。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：837

制作脚本网站发布：2025-10-20 08:17:34 浏览：1100

python中的init方法发布：2025-10-20 08:17:33 浏览：807

图案密码什么意思发布：2025-10-20 08:16:56 浏览：972

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：860

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1212

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：433

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：313

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：988

python股票数据获取发布：2025-10-20 07:39:44 浏览：956

hadoop2x源码剖析

与hadoop2x源码剖析相关的资讯