hadooplinux下載

發布時間: 2023-03-18 16:28:17

❶ linux中用idea如何安裝Hadoop jar包

（1）准備工作
1）安裝JDK 6或者JDK 7
2）安裝scala 2.10.x (注意版本)
2）下載Intellij IDEA最新版（本文以IntelliJ IDEA Community Edition 13.1.1為例說明，不同版本，界面布局可能不同）：
3）將下載的Intellij IDEA解壓後，安裝scala插件，流程如下：
依次選擇「Configure」–> 「Plugins」–> 「Browse repositories」，輸入scala，然後安裝即可

（2）搭建Spark源碼閱讀環境（需要聯網）
一種方法是直接依次選擇「import project」–> 選擇spark所在目錄 –> 「SBT」，之後intellij會自動識別SBT文件，並下載依賴的外部jar包，整個流程用時非常長，取決於機器的網路環境（不建議在windows下操作，可能遇到各種問題），一般需花費幾十分鍾到幾個小時。注意，下載過程會用到git，因此應該事先安裝了git。
第二種方法是首先在linux操作系統上生成intellij項目文件，然後在intellij IDEA中直接通過「Open Project」打開項目即可。在linux上生成intellij項目文件的方法（需要安裝git，不需要安裝scala，sbt會自動下載）是：在spark源代碼根目錄下，輸入sbt/sbt gen-idea
註：如果你在windows下閱讀源代碼，建議先在linux下生成項目文件，然後導入到windows中的intellij IDEA中。

❷ Linux下面安裝hadoop出現的問題找不到

安裝步驟：
1、安裝賣迅彎JDK7
2、下載hadoop2.6到中悶指定目錄並解壓昌尺
3、修改hadoop配置(此步驟網上很多教程)
4、切換到hadoop目錄輸入格式化命令
bin/hadoop namenode -format
5、啟動
sbin/start-all.sh

❸ 如何在linux下安裝hadoop

如何在linux下安裝hadoop

建議使用自動化部署吧。這個還是不太難做到哦。能否看一下my網名呢？幫助搞定一下

一、前期准備:
下載hadoop: :hadoop.apache./core/releases.
:hadoop.apache./mon/releases.
:apache./dyn/closer.cgi/hadoop/core/
:labs.xiaonei./apache-mirror/hadoop/core/hadoop-0.20.1/hadoop-0.20.1.tar.gz
:labs.xiaonei./apache-mirror/hadoop/
二、硬體環境
共有3台機器，均使用的CentOS，java使用的是jdk1.6.0。
三、安裝JAVA6
sudo apt-get install sun-java6-jdk
/etc/environment
開啟之後加入：#中間是以英文的冒號隔開，記得windows中是以英文的分號做為宏沒分隔的
CLASSPATH=.:/usr/local/java/lib
JAVA_HOME=/usr/local/java
三、配置host表
[root@hadoop ~]# vi /etc/hosts
127.0.0.1 localhost
192.168.13.100 namenode
192.168.13.108 datanode1
192.168.13.110 datanode2
[root@test ~]# vi /etc/hosts
127.0.0.1 localhost
192.168.13.100 namenode
192.168.13.108 datanode1
[root@test2 ~]# vi /etc/host
127.0.0.1 localhost
192.168.13.100 namenode
192.168.13.110 datanode2
新增使用者和使用者組
addgroup hadoop
adser hadoop
usermod -a -G hadoop hadoop
passwd hadoop
配置ssh:
服務端:
su hadoop
ssh-keygen -t rsa
cp id_rsa.pub authorized_keys
客戶端
chmod 700 /home/hadoop
chmod 755 /home/hadoop/.ssh
su hadoop
cd /home
mkdir .ssh
服務端:
chmod 644 /home/hadoop/.ssh/authorized_keys
scp authorized_keys datanode1:/home/hadoop/.ssh/
scp authorized_keys datanode2:/home/hadoop/.ssh/
ssh datanode1
ssh datanode2
如果ssh配置好了就會蔽和納出現以下提示棚纖資訊
The authenticity of host [dbrg-2] can't be established.
Key fingerpr is 1024 5f:a0:0b:65:d3:82:df:ab:44:62:6d:98:9c:fe:e9:52.
Are you sure you want to continue connecting (yes/no)?
OpenSSH告訴你它不知道這台主機但是你不用擔心這個問題你是第次登入這台主機鍵入「yes」這將把
這台主機「識別標記」加到「~/.ssh/know_hosts」檔案中第 2次訪問這台主機時候就不會再顯示這條提示信
不過別忘了測試本機sshdbrg-1

mkdir /home/hadoop/HadoopInstall
tar -zxvf hadoop-0.20.1.tar.gz -C /home/hadoop/HadoopInstall/
cd /home/hadoop/HadoopInstall/
ln -s hadoop-0.20.1 hadoop
export JAVA_HOME=/usr/local/java
export CLASSPATH=.:/usr/local/java/lib
export HADOOP_HOME=/home/hadoop/HadoopInstall/hadoop
export HADOOP_CONF_DIR=/home/hadoop/hadoop-conf
export PATH=$HADOOP_HOME/bin:$PATH
cd $HADOOP_HOME/conf/
mkdir /home/hadoop/hadoop-conf
cp hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml masters slaves /home/hadoop/hadoop-conf
vi $HADOOP_HOME/hadoop-conf/hadoop-env.sh
# The java implementation to use. Required. --修改成你自己jdk安裝的目錄
export JAVA_HOME=/usr/local/java

export HADOOP_CLASSPATH=.:/usr/local/java/lib
# The maximum amount of heap to use, in MB. Default is 1000.--根據你的記憶體大小調整
export HADOOP_HEAPSIZE=200
vi /home/hadoop/.bashrc
export JAVA_HOME=/usr/local/java
export CLASSPATH=.:/usr/local/java/lib
export HADOOP_HOME=/home/hadoop/HadoopInstall/hadoop
export HADOOP_CONF_DIR=/home/hadoop/hadoop-conf
export PATH=$HADOOP_HOME/bin:$PATH
配置
namenode
#vi $HADOOP_CONF_DIR/slaves
192.168.13.108
192.168.13.110
#vi $HADOOP_CONF_DIR/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs:192.168.13.100:9000</value>
</property>
</configuration>
#vi $HADOOP_CONF_DIR/hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
</configuration>
#vi $HADOOP_CONF_DIR/mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.13.100:11000</value>
</property>
</configuration>
~
在slave上的配置檔案如下(hdfs-site.xml不需要配置)：
[root@test12 conf]# cat core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs:namenode:9000</value>
</property>
</configuration>
[root@test12 conf]# cat mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>namenode:11000</value>
</property>
</configuration>
啟動
export PATH=$HADOOP_HOME/bin:$PATH
hadoop namenode -format
start-all.sh
停止s-all.sh
在hdfs上建立danchentest資料夾，上傳檔案到此目錄下
$HADOOP_HOME/bin/hadoop fs -mkdir danchentest
$HADOOP_HOME/bin/hadoop fs -put $HADOOP_HOME/README.txt danchentest
cd $HADOOP_HOME
hadoop jar hadoop-0.20.1-examples.jar wordcount /user/hadoop/danchentest/README.txt output1
09/12/21 18:31:44 INFO input.FileInputFormat: Total input paths to process : 1
09/12/21 18:31:45 INFO mapred.JobClient: Running job: job_200912211824_0002
09/12/21 18:31:46 INFO mapred.JobClient: map 0% rece 0%
09/12/21 18:31:53 INFO mapred.JobClient: map 100% rece 0%
09/12/21 18:32:05 INFO mapred.JobClient: map 100% rece 100%
09/12/21 18:32:07 INFO mapred.JobClient: Job plete: job_200912211824_0002
09/12/21 18:32:07 INFO mapred.JobClient: Counters: 17
09/12/21 18:32:07 INFO mapred.JobClient: Job Counters
09/12/21 18:32:07 INFO mapred.JobClient: Launched rece tasks=1
檢視輸出結果檔案，這個檔案在hdfs上
[root@test11 hadoop]# hadoop fs -ls output1
Found 2 items
drwxr-xr-x - root supergroup 0 2009-09-30 16:01 /user/root/output1/_logs
-rw-r--r-- 3 root supergroup 1306 2009-09-30 16:01 /user/root/output1/part-r-00000
[root@test11 hadoop]# hadoop fs -cat output1/part-r-00000
(BIS), 1
(ECCN) 1
檢視hdfs執行狀態,可以通過web介面來訪問:192.168.13.100:50070/dfshealth.jsp;檢視map-rece資訊，
可以通過web介面來訪問:192.168.13.100:50030/jobtracker.jsp;下面是直接命令列看到的結果。
出現08/01/25 16:31:40 INFO ipc.Client: Retrying connect to server: foo.bar./1.1.1.1:53567. Already tried 1 time(s).
的原因是沒有格式化:hadoop namenode -format

如何在windows下安裝hadoop

建議你在windows上安裝linux的虛擬機器，然後在linux上安裝hadoop

1、安裝Cygwin
下載cygwin的setup.exe，雙擊執行：

選擇從Inter安裝：
設定安裝目錄：

設定安裝包目錄：

設定「Inter Connection」的方式，選擇「Direct Connection」：

選擇一個下載站點：
「下一步」之後，可能會彈出下圖的「Setup Alert」對話方塊，直接「確定」即可
在「Select Packages」對話方塊中，必須保證「Net Category」下的「OpenSSL」被安裝：

如果還打算在eclipse 上編譯Hadoop，則還必須安裝「Base Category」下的「sed」：

「Devel Category」下的subversion 建議安裝：

下載並安裝：

當下載完後，會自動進入到「setup」的對話方塊：

在上圖所示的對話方塊中，選中「Create icon on Desk」，以方便直接從桌面上啟動
Cygwin，然後點選「完成」按鈕。至此，Cgywin 已經安裝完成。
2、配置環境變數
需要配置的環境變數包括PATH 和JAVA_HOME：將JDK 的bin 目錄、Cygwin 的bin 目錄
以及Cygwin 的usrin（ *** in）目錄都新增到PATH 環境變數中；JAVA_HOME 指向JRE 安裝目錄。
3、windows系統上執行hadoop叢集，偽分散式模式安裝步驟：
①啟動cygwin，解壓hadoop安裝包。通過cygdrive（位於Cygwin根目錄中）可以直接對映到windows下的各個邏輯磁碟分割槽。例如hadoop安裝包放在分割槽D：下，則解壓的命令為＄ tar -zxvf /cygdrive/d/hadoop-0.20.2.tar.gz,解壓後可使用ls命令檢視，如下圖：
預設的解壓目錄為使用者根目錄，即D：cygwinhomelsq（使用者帳戶）。
②編輯conf/hadoop-env.sh檔案，將JAVA_HOME變數設定為java的安裝目錄。例如java安裝在目錄C：Program Filesjavajdk1.6.0_13,如果路徑沒空格，直接配置即可。存在空格，需將Program Files縮寫成Progra_1,如下圖：
③依次編輯conf目錄下的core-site.xml、mapred-site.xml和hdfs-site.xml檔案，如下圖：
④安裝配置SSH
點選桌面上的Cygwin圖示，啟動Cygwin，執行ssh-host-config命令，然後按下圖上的選擇輸入：

當提示Do you want to use a different name?輸入yes，這步是配置安裝的sshd服務，以哪個使用者登入，預設是cyg_server這個使用者，這里就不事先新建cyg_server這個使用者，用當前本機的超管本地使用者：chenx，後續根據提示，2次輸入這個賬戶的密碼

出現Host configuration finished. Have fun! 一般安裝順利完成。如下圖：

輸入命令$ start sshd，啟動SSH，如下圖：

註：sshd服務安裝完之後，不會預設啟動，如果啟動報登入失敗，不能啟動，可在服務屬性-Log On視窗手工修改，在前述的過程之中，cygwin不會校驗密碼是否正確，應該只是校驗了2次的輸入是否一致，然後再手工啟動。不知道為什麼，sshd服務如果選擇local system的登入方式，後續會有問題，所以sshd服務最好設定成當前的登入使用者。

⑤配置ssh登入
執行ssh-keygen命令生成金鑰檔案
輸入如下命令：
cd ~/.ssh
ls -l
cat id_rsa.pub >> authorized_keys
完成上述操作後，執行exit命令先退出Cygwin視窗，如果不執行這一步操作，下面的操作可能會遇到錯誤。接下來，重新執行Cygwin，執行ssh localhost命令，在第一次執行ssh localhost時，會有「are you sure you want to continue connection<yes/no>?」提示，輸入yes，然後回車即可。當出現下圖提示，即順利完成該步：

⑥hadoop執行
格式化namenode
開啟cygwin視窗，輸入如下命令：
cd hadoop-0.20.2
mkdir logs
bin/hadoop namenode –format

啟動Hadoop
在Cygwin 中，進入hadoop 的bin 目錄，
執行./start-all.sh 啟動hadoop；
可以執行./hadoop fs -ls /命令，檢視hadoop 的根目錄；
可以執行jps 檢視相關程序；
如下圖：（如果顯示和下圖類似，一般hadoop安裝/啟動成功）

如何在hadoop 環境下安裝hive

不行。安裝 vm 下載：去官網下 VMware-player-5.0.1-894247.zip 安裝和配置ubanto 下載：去官網下 ubuntu-12.10-desk-i386.iso 開啟vm，載入ubanto iso檔案，進行安裝更新進入ubanto，如果是第一個進入，則需要設定root的密碼

如何在ubantu環境下安裝hadoop

上apache的hadoop頁下編譯好的包，解壓，配一些檔案就行了很容易網上教程很多

如何在 Linux 下安裝 PyCharm

PyCharm 是由 Jetbrains 公司開發的一個跨平台編輯器。如果你之前是在 Windows 環境下進行開發，那麼你會立刻認出 Jetbrains 公司，它就是那個開發了 Resharper 的公司。這篇文章將討論如何在 Linux 系統上獲取、安裝和執行 PyCharm 。

如何在linux下安裝opencv

新建一個perl，名為bar.pl
內容如下：
#!/usr/bin/perl
while (<>){
chomp;
s/([^-]+) - .*/1/g;
system "apt-get install ".$_;
}
然後apt-cache search opencv | perl bar.pl

❹ 如何在Linux上安裝與配置Hadoop

Hadoop最早是為了在Linux平台上使用而開發的，但是Hadoop在UNIX、Windows和Mac OS X系統上也運行良好。不過，在Windows上運行Hadoop稍顯復雜，首先必須安裝Cygwin以模擬Linux環境，然後才能安裝Hadoop。Hadoop的安裝非常簡單，大家可以在官網上下載到最近的幾個版本，在Unix上安裝Hadoop的過程與在Linux上安裝基本相同，因此下面不會對其進行詳細介紹。

在Linux上安裝與配置Hadoop

在Linux上安裝Hadoop之前，需要先安裝兩個程序：

1. JDK 1.6或更高版本;

2. SSH(安全外殼源世協議)，推薦安裝OpenSSH。

下面簡述一下安裝這兩個程序的原因：

1. Hadoop是用Java開發的，Hadoop的編譯及MapRece的運行都需要使用JDK。

2. Hadoop需要通過SSH來啟動salve列表中各台雹棚肢主機的守護進程，因此SSH也是必須安裝的，即使是安裝偽分布式版本(因為Hadoop並沒有區分集群式和偽分布式)。對於偽分布式，Hadoop會採用與集群相同的處理方式，即依次序啟動文件conf/slaves中記載的主機上的進程，只不過偽分布式中salve為localhost(即為自身)，所以對於偽分布式Hadoop，SSH一樣是必須的。

一、安裝JDK 1.6

安裝JDK的過程很簡單，下面以Ubuntu為例。

(1)下載和安裝JDK

確保可以連接到互聯網，輸入命令：

sudoapt-getinstallsun-java6-jdk

輸入密碼，確認，然後就可以安裝JDK了。

這里先解釋一下sudo與apt這兩個命令，sudo這個命令允許普通用戶執行某些或全部需要root許可權命令，它提供了詳盡的日誌，可以記錄下每個用戶使用這個命令做了些什麼操作;同時sudo也提供了靈活的管理方式和正，可以限制用戶使用命令。sudo的配置文件為/etc/sudoers。

apt的全稱為the Advanced Packaging Tool，是Debian計劃的一部分，是Ubuntu的軟體包管理軟體，通過apt安裝軟體無須考慮軟體的依賴關系，可以直接安裝所需要的軟體，apt會自動下載有依賴關系的包，並按順序安裝，在Ubuntu中安裝有apt的一個圖形化界面程序synaptic(中文譯名為「新立得」)，大家如果有興趣也可以使用這個程序來安裝所需要的軟體。(如果大家想了解更多，可以查看一下關於Debian計劃的資料。)

(2)配置環境變數

輸入命令：

sudogedit/etc/profile

輸入密碼，打開profile文件。

在文件的最下面輸入如下內容：

#setJavaEnvironment
exportJAVA_HOME=（你的JDK安裝位置，一般為/usr/lib/jvm/java-6-sun）
exportCLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH"
exportPATH="$JAVA_HOME/:$PATH"

這一步的意義是配置環境變數，使你的系統可以找到JDK。

(3)驗證JDK是否安裝成功

輸入命令：

java-version

查看信息：

javaversion"1.6.0_14"
Java(TM)SERuntimeEnvironment(build1.6.0_14-b08)
JavaHotSpot(TM)ServerVM(build14.0-b16,mixedmode)

二、配置SSH免密碼登錄

同樣以Ubuntu為例，假設用戶名為u。

1)確認已經連接上互聯網，輸入命令

sudoapt-getinstallssh

2)配置為可以無密碼登錄本機。

首先查看在u用戶下是否存在.ssh文件夾(注意ssh前面有「.」，這是一個隱藏文件夾)，輸入命令：

ls-a/home/u

一般來說，安裝SSH時會自動在當前用戶下創建這個隱藏文件夾，如果沒有，可以手動創建一個。

接下來，輸入命令：

ssh-keygen-tdsa-P''-f~/.ssh/id_dsa

解釋一下，ssh-keygen代表生成密鑰;-t(注意區分大小寫)表示指定生成的密鑰類型;dsa是dsa密鑰認證的意思，即密鑰類型;-P用於提供密語;-f指定生成的密鑰文件。(關於密鑰密語的相關知識這里就不詳細介紹了，裡面會涉及SSH的一些知識，如果讀者有興趣，可以自行查閱資料。)

在Ubuntu中，~代表當前用戶文件夾，這里即/home/u。

這個命令會在.ssh文件夾下創建兩個文件id_dsa及id_dsa.pub，這是SSH的一對私鑰和公鑰，類似於鑰匙及鎖，把id_dsa.pub(公鑰)追加到授權的key裡面去。

輸入命令：

cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys

這段話的意思是把公鑰加到用於認證的公鑰文件中，這里的authorized_keys是用於認證的公鑰文件。

至此無密碼登錄本機已設置完畢。

3)驗證SSH是否已安裝成功，以及是否可以無密碼登錄本機。

輸入命令：

ssh-version

顯示結果：

OpenSSH_5.1p1Debian-6ubuntu2,OpenSSL0.9.8g19Oct2007
Badescapecharacter'rsion'.

顯示SSH已經安裝成功了。

輸入命令：

sshlocalhost

會有如下顯示：

Theauthenticityofhost'localhost(::1)'can'tbeestablished.
RSAkeyfingerprintis8b:c3:51:a5:2a:31:b7:74:06:9d:62:04:4f:84:f8:77.
(yes/no)?yes
Warning:Permanentlyadded'localhost'(RSA)tothelistofknownhosts.
Linuxmaster2.6.31-14-generic#48-UbuntuSMPFriOct1614:04:26UTC2009i686
,pleasevisit:
http://help.ubuntu.com/
Lastlogin:MonOct1817:12:402010frommaster
admin@Hadoop:~$

這說明已經安裝成功，第一次登錄時會詢問你是否繼續鏈接，輸入yes即可進入。

實際上，在Hadoop的安裝過程中，是否無密碼登錄是無關緊要的，但是如果不配置無密碼登錄，每次啟動Hadoop，都需要輸入密碼以登錄到每台機器的DataNode上，考慮到一般的Hadoop集群動輒數百台或上千台機器，因此一般來說都會配置SSH的無密碼登錄。

三、安裝並運行Hadoop

介紹Hadoop的安裝之前，先介紹一下Hadoop對各個節點的角色定義。

Hadoop分別從三個角度將主機劃分為兩種角色。第一，劃分為master和slave，即主人與奴隸;第二，從HDFS的角度，將主機劃分為NameNode和DataNode(在分布式文件系統中，目錄的管理很重要，管理目錄的就相當於主人，而NameNode就是目錄管理者);第三，從MapRece的角度，將主機劃分為JobTracker和TaskTracker(一個job經常被劃分為多個task，從這個角度不難理解它們之間的關系)。

Hadoop有官方發行版與cloudera版，其中cloudera版是Hadoop的商用版本，這里先介紹Hadoop官方發行版的安裝方法。

Hadoop有三種運行方式：單節點方式、單機偽分布方式與集群方式。乍看之下，前兩種方式並不能體現雲計算的優勢，在實際應用中並沒有什麼意義，但是在程序的測試與調試過程中，它們還是很有意義的。

你可以通過以下地址獲得Hadoop的官方發行版，下載Hadoop-0.20.2.tar.gz並將其解壓，這里會解壓到用戶目錄下，一般為：/home/[你的用戶名]/。

單節點方式配置：

安裝單節點的Hadoop無須配置，在這種方式下，Hadoop被認為是一個單獨的Java進程，這種方式經常用來調試。

偽分布式配置：

你可以把偽分布式的Hadoop看做是只有一個節點的集群，在這個集群中，這個節點既是master，也是slave;既是NameNode也是DataNode;既是JobTracker，也是TaskTracker。

偽分布式的配置過程也很簡單，只需要修改幾個文件，如下所示。

進入conf文件夾，修改配置文件：

Hadoop-env.sh:
exportJAVA_HOME=「你的JDK安裝地址」

指定JDK的安裝位置：

conf/core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

這是Hadoop核心的配置文件，這里配置的是HDFS的地址和埠號。

conf/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

這是Hadoop中HDFS的配置，配置的備份方式默認為3，在單機版的Hadoop中，需要將其改為1。

conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>

這是Hadoop中MapRece的配置文件，配置的是JobTracker的地址和埠。

需要注意的是，如果安裝的是0.20之前的版本，那麼只有一個配置文件，即為Hadoop-site.xml。

接下來，在啟動Hadoop前，需格式化Hadoop的文件系統HDFS(這點與Windows是一樣的，重新分區後的卷總是需要格式化的)。進入Hadoop文件夾，輸入下面的命令：

bin/HadoopNameNode-format

格式化文件系統，接下來啟動Hadoop。

輸入命令：

bin/start-all.sh（全部啟動）

最後，驗證Hadoop是否安裝成功。

打開瀏覽器，分別輸入網址：

http://localhost:50030(MapRece的Web頁面)
http://localhost:50070(HDFS的Web頁面)

如果都能查看，說明Hadoop已經安裝成功。

對於Hadoop來說，安裝MapRece及HDFS都是必須的，但是如果有必要，你依然可以只啟動HDFS(start-dfs.sh)或MapRece(start-mapred.sh)。

❺ windows本地沒有hadoop 下怎麼配置linux 下的hadoop home

Windows下運行Hadoop，通常有兩種方式：一種是用VM方式安裝一個Linux操作系統，這樣基本可以實現全Linux環境的Hadoop運行；另一種是通過Cygwin模擬Linux環境。後者的好處是使用比較方便，安裝過程也簡單。在這里咱們就來看看第二種方案：如何再Windows下快速安裝一個Hadoop環境，並結合Eclipse開發環境研究和調整Hadoop代碼。整個安裝過程包括以下三大步驟：安裝和配置Cygwin（http://cygwin.com/install.html）安裝和配置Hadoop-1.2.1（http://hadoop.apache.org/docs/stable/cluster_setup.html）安裝和配置Eclipse開發環境1安裝和配置Cygwin在Windows下通過安裝Cygwin模擬Linux環境，然後再安裝Hadoop，是一種簡單方便的方式，為Hadoop准備的模擬Linux環境安裝過程如下：1.1下載安裝文件針對不同系統類型下載相應的安裝文件，下載地址：http://cygwin.com/install.html。我這里的系統是window 7所以下載的是setup-x86.exe1.2安裝Cygwin剛剛下載的文件是模擬Linux系統所依賴的軟體包下載和管理工具，以後想要在模擬Linux環境中安裝或更新軟體都需要通過這個工具來完成，下面我們就先運行起來這個工具如下：左鍵雙擊setup-x86.exe文件運行安裝向導：cygwin安裝點擊【下一步】按鈕進入程序引導安裝頁，這里有三個選項，選擇第一項網路安裝：網路安裝：通過網路下載並安裝軟體包下載但不安裝：通過網路下載軟體包本地安裝：是用本地軟體包安裝cygwin安裝點擊【下一步】進入選擇模擬Linux系統的根目錄和用戶的向導頁。在Linux的文件系統中有且只有一個根目錄，在這里選擇目錄就是Linux中的那個根目錄了，這里選擇默認：c:\cygwin；用戶選擇第一項：本系統的所有有效用戶。cygwin安裝點擊【下一步】選擇本地軟體包目錄，該工具會自動記住並將以後下載的所有軟體包都會放到這里指定的目錄。我這里選擇：C:\Users\Administrator\Desktop\1，如果選擇不存在目錄，就好提示是否創建目錄選Yes就OK。cygwin安裝點擊【下一步】選擇您的網路連接，我這里使用的是代理伺服器上網，所以我選擇第二項：使用IE瀏覽器代理設置。經測試選擇第三項輸入代理伺服器地址和埠，不能正常訪問網路，原因不明。cygwin安裝點擊【下一步】，等待下載鏡像站點列表，下載完成後出現選擇下載軟體包的站點。如圖：cygwin安裝根據自己的情況選擇合適的下載地址，我這里選擇了國內的163站點，點擊【下一步】，這個工具就會自動下載軟體包信息列表下載完成後進入安裝軟體包選擇頁，如下圖：cygwin安裝這一步比較重要，以下軟體包要確保被安裝：cygwin安裝註：這個軟體包列表由前到後包括：分類、當前安裝版本，最新版本，安裝可執行文件？，安裝源代碼文件？，大小，包名稱和說明。基礎軟體包：Base及其下面的所有軟體包，操作方法：點擊Base後面的Default為Install。SSH相關軟體包：Net下的OpenSSL和和OpenSSH，用於Hadoop需要的SSH訪問，操作方法：點擊【+】展開Net節點，點擊各個軟體包前的最新版本號列的Keep為版本號即為選中安裝。其他軟體包根據自己的需要選中是否安裝即可，我這里還選中了Emacs、VIM、Perl、Python、Ruby、Science、subversion等常用工具。選擇完軟體包點擊【下一步】，進入自動下載與安裝，如下圖：cygwin安裝點擊【下一步】進入向導結束頁，勾選創建桌面快捷方式點擊【完成即可】，如圖：cygwin安裝到這里，您已經完成了模擬Linux環境的安裝，左鍵雙擊桌面上的圖標打開這個模擬Linux的終端窗口輸入幾個常用Linux命令體驗下這個模擬的Linux系統吧，除了可以執行Linux常用命令外，還可以執行Windows的命令例如：net start service_name等。體驗完成後繼續下面的配置工作。1.3配置Cygwin的SSH服務Cygwin安裝完成後，需要先配置SSH服務，以滿足Hadoop提出的SSH無密碼登入，過程如下：打開模擬Linux的終端，進入Linux環境執行命令：ssh-host-config如圖：Hadoop安裝第一次詢問：「Should privilege separation be used? (yes/no)」，輸入no回車。第二次詢問：「Do you want to install sshd a service?」，輸入yes回車。第三次提示：「Enter the value of CYGWIN for the demon: []」，直接回車。第四次詢問：「Do you want to use a different name? (yes/no)」，輸入no回車。第五次提示：「Please enter the password for user 『cyg_server』:」，輸入密碼回車，在此輸入密碼回車。最後提示配置完成。1.4啟動SSH服務在Linux終端或Windows命令行執行net start sshd或命令cygrunsrv –S sshd啟動SSH服務。測試ssh登入本機：在終端執行命令：ssh localhost提示輸入密碼：輸入密碼回車，如下圖：Hadoop安裝 1.5配置SSH免密碼登入在終端執行命令：ssh-keygen -t dsa -P 」 -f ~/.ssh/id_dsa生成秘鑰。執行命令：cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys生成認證文件。執行命令：ssh localhost測試是否無需輸入密碼即可登入。Hadoop安裝1.6Cygwin使用積累1.6.1在cygwin里訪問Windows盤cd /cygdrive/c1.6.2整合cygwin命令到Windows中假設cygwin安裝在d:/develop/cygwin，則將d:/develop/cygwin/bin添加到系統變數PATH中(最好加在windows前面，這樣的話，有些相同的命令的話，是先執行cygwin的命令，而不是windows命令，比如find)。添加完後就可以直接在cmd.exe下面執行tar czvf xxx.tgz ./基本上所有的命令都可以用了，包括ls,more,less,find,grep等。1.6.3使用TGZ備份將cygwin的BIN加入到PATH建一個BAT文件：@echo offd:cd d:/website/8thmanagetar czvf 8thmanage.tgz 8thmanage1.6.4Windows使用SHELL腳本將cygwin的BIN加入到PATH在$CYGWIN的目錄/var/下面建一腳本t.sh，注意，t.sh裡面的路徑，都是相對於$CYGWIN的，裡面需要訪問C盤的，請用/cygdrive/c/在Windows下執行：d:/cygwin/bin/bash d:/cygwin/var/t.sh(可以定期執行)1.6.5同步Windows系統用戶mkpasswd -l > /etc/passwdmkgroup -l > /etc/group如果有Domain的話，需要加上-d domainname1.6.6安裝系統服務cygrunsrv1.6.7cygwing下使用rsync安裝rsync組件進入cygwin,配置伺服器vi /etc/rsyncd.conf…screts file=/etc/tom.ipaddr.pas配置文件，參考我寫的另外一篇rsync的文章，注意：密碼文件許可權必須是0400chmod 0400 /etc/tom.ipaddr.pas啟動服務端rsync –daemon客戶端同步在客戶端的cygwin下面，運行rsync同步，具體命令，請參考另外一篇rsync的文章。1.6.8cygwin下使用SSHD需要安裝了cygrunsrc,openssh運行ssh-host-config -y一路回車，直到出現CYGWIN=時，輸入tty ntsec，再回車，(或者，增加一系統環境變數CUGWIN=nesec tty)已經安裝好SSHD服務到你的Windows服務中，可以直接在服務中啟動，關閉。(cygrunsrc -S sshd或者net start sshd)1.6.9中文顯示vi ~/.bashrc# 讓ls和dir命令顯示中文和顏色alias ls=』ls –show-control-chars –color』alias dir=』dir -N –color』# 設置為中文環境，使提示成為中文export LANG=」zh_CN.GBK」# 輸出為中文編碼export OUTPUT_CHARSET=」GBK」~/.inputrc為set completion-ignore-case onset meta-flag onset output-meta. onset convert-meta. offcygwin.bat腳本為:@echo offset MAKE_MODE=UNIX

❻ 如何在linux下開發maprece應用程序

1.下載hadhoop：到http://hadoop.apache.org/下載，我下載的是hadoop-0.20.2.tar.gz，解壓；
2. 解壓後，在hadoop-0.20.2/contrib/eclipse-plugin/下有hadoop-0.20.2-eclipse-plugin.jar，將這個jar包拷貝到eclipse安裝目錄下的plugins里，然後打開eclipse，點擊主菜單上的window—preferences，在左邊欄中找段並到Hadoop Map/Rece，點擊後在右邊對話框里設置hadoop的安裝路徑即主目錄；
3.在eclipse中創建一個MapRece Project，點擊eclipse主菜銀衡單上的File—New—Project，在彈出的對話框中選擇MapRece Project，之後輸入Project的名字；
4.測試：在hadoop-0.20.2/src/examples/org/apache/hadoop/examples目錄下有個WordCount.java，將它加到project的src，在project的目錄下創建一個in文件夾，在這個文件夾裡面創建一個文本文件，裡面寫些東西，在run configurations的program arguments中加入in 和out就可以運行握搏跡了；
5.結果：運行完畢後，可以在project的目錄下找到一個out文件夾，打開後，裡面有一個文本文件，打開後就是單詞的統計信息了，如下：

baby 1
come 1
on 1
wero 2
word 3
平台搭建成功，接下來就可以在上面開發自己的應用程序了.......

❼ 怎樣在linux系統上搭建Hadoop集群

（1）下載jdk，在官網下載，下載rpm的包
（2）hadoop包的下載，官網上下載
download hadoop->release->mirror site(鏡像站)->隨便選擇離自己近的（HTTP下的第一個）->選擇2.7.2->下載.tar.gz
（3）將兩個包遠程傳輸到linux虛擬機中
（4）將主機名和ip地址進行適配，讓我們的ip地址和主機名（如bigdata）相匹配：寫到/etc/hosts裡面
vi /etc/hosts
按「i」進入插入狀態將原有的地址注釋掉
在新的一行輸入：ip地址主機名（如172.17.171.42 bigdata）（註：可以雙擊xshell的窗口再打開一個連接窗口，可以在新的窗口查詢ip地址並進行復制）
按「Esc」退出插入狀態
輸入：wq保存退出
修改完之後可以輸入hostname回車，查看是否成功
reboot：重啟，使得剛剛的修改生效
（5）將包放到opt下：cp hadoop-2.7.2.tar.gz /opt/
cp jdk-8u111-linux-x64.rpm /opt/
進入opt：cd /opt/
查看opt下的文件：ll
（6）安裝jdk，配置jdk的環境變數
安裝命令：rpm -ivh jdk-Bu101-linux-x64.rpm
配置環境變數：進入profile進行編輯：vi /etc/profile
並按照上面的方式在最後寫入並保存：JAVA_HOME=/usr/java/default/（/usr/java/default/是jdk的安裝目錄）
列印JAVA_HOME檢驗是否配置好：echo $JAVA_HOME結果發現列印出來的沒有內容因為我們對/etc/profile的修改需要通過以下命令對它生效source /etc/profile。再次輸入echo $JAVA_HOME，列印結果為/usr/java/default/
（7）驗證jdk安裝好：java -version
（8）配置SSH（免密碼登錄）
回到根目錄：cd 安裝SSH秘鑰：ssh-keygen -t rsa會自動在/root/.shh/目錄下生成
查看目錄：ll .ssh/有兩個新生成的文件id_rsa(私鑰)，id_rsa.pub(公鑰)
進入.ssh/:cd .ssh/
將公鑰寫入authorized_key中：cat id_rsa.pub >> authorized_keys
修改authorized_keys文件的許可權：chmod 644 authorized_keys
修改完後退出.ssh的目錄cd進入初始目錄輸入：ssh bigdata（bigdata為你要遠程登錄的主機名或者ip地址）第一次登錄需要確認是否需要繼續登錄輸入yes繼續登錄
退出exit
（9）安裝及配置hadoop
解壓:tar zxf hadoop-2.7.2.tar.gz
查看/opt目錄下是否已經存在解壓的文件：ll（結果為出現hadoop-2.7.2）
繼續查看hadoop-2.7.2里的內容：cd hadoop-2.7.2
配置HADOOP_HOME:修改/etc/profile
進入hadoop的配置文件目錄cd /opt/hadoop-2.7.2/etc/hadoop/，會用的的配置文件如下：
core-site.xml
配置hadoop的文件系統即HDFS的埠是什麼。
配置項1為default.name，值為hdfs://bigdata:9000（主機名：bigdata也可也寫成ip地址，埠9000習慣用）
配置項2為hadoop臨時文件，其實就是配置一個目錄，配置完後要去創建這個目錄，否則會存在問題。
配置項3分布式文件系統的垃圾箱，值為4320表示3分鍾回去清理一次

<property>
<name>fs.default.name</name>
<value>hdfs://bigdata:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.7.2/current/tmp</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>4320</value>
</property>
hdfs-site.xml
配置項1，namenode的細節實際上就是一個目錄
配置項2，datanode的細節，真實環境中datanode的內容不需要再namenode的系統下配置，在此配置的原因是我們的系統是偽分布式系統，namenode和datanode在一台機器上
配置項3，副本的數量，在hdfs中每個塊有幾個副本
配置項4，HDFS是否啟用web
配置項5，HDFS的用戶組
配置項6，HDFS的許可權，現在配置為不開啟許可權

<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hadoop-2.7.2/current/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hadoop-2.7.2/current/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions.superusergroup</name>
<value>staff</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
創建配置文件中不存在的目錄：mkdir -p /opt/hadoop-2.7.2/current/data
mkdir -p /opt/hadoop-2.7.2/current/dfs/name
mkdir -p /opt/hadoop-2.7.2/current/tmp
yarn-site.xml
配置項1，resourcemanager的hostname，值為你運行的那台機器的主機名或IP地址
配置項2，nodemanager相關的東西
配置項3，nodemanager相關的東西
配置項4，resourcemanager的埠，主機名+埠號（IP+埠）
配置項5，resourcemanager調度器的埠
配置項6，resourcemanager.resource-tracker,埠
配置項7，埠
配置項8，埠
配置項9，日誌是否啟動
配置項10，日誌保留的時間長短（以秒為單位）
配置項11，日誌檢查的時間
配置項12，目錄
配置項13，目錄的前綴

<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>maprece_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.maprece.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>bigdata:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheler.address</name>
<value>bigdata:18030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>bigdata:18025</value>
</property> <property>
<name>yarn.resourcemanager.admin.address</name>
<value>bigdata:18141</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>bigdata:18088</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>86400</value>
</property>
<property>
<name>yarn.log-aggregation.retain-check-interval-seconds</name>
<value>86400</value>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>/tmp/logs</value>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir-suffix</name>
<value>logs</value>
</property>
mapred-site.xml
沒有mapred-site.xml，輸入vi mapred-按「TAB」發現有mapred-site.xml.template，對該文件進行復制
cp mapred-site.xml.template mapred-site.xml 配置項1，maprece的框架
配置項2，maprece的通信埠
配置項3，maprece的作業歷史記錄埠
配置項4，maprece的作業歷史記錄埠
配置項5，maprece的作業歷史記錄已完成的日誌目錄，在hdfs上
配置項6，maprece中間完成情況日誌目錄
配置項7，maprece的ubertask是否開啟

<property>
<name>maprece.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>maprece.jobtracker.http.address</name>
<value>bigdata:50030</value>
</property>
<property>
<name>maprece.jobhisotry.address</name>
<value>bigdata:10020</value>
</property>
<property>
<name>maprece.jobhistory.webapp.address</name>
<value>bigdata:19888</value>
</property>
<property>
<name>maprece.jobhistory.done-dir</name>
<value>/jobhistory/done</value>
</property>
<property>
<name>maprece.intermediate-done-dir</name>
<value>/jobhisotry/done_intermediate</value>
</property>
<property>
<name>maprece.job.ubertask.enable</name>
<value>true</value>
</property>
slaves

bigdata
hadoop-env.sh

JAVA_HOME＝/usr/java/default/
格式化分布式文件系統（hdfs）：hdfs namenode -format
成功的標志： INFO common.Storage: Storage directory /opt/hadoop-2.7.2/current/dfs/namehas been successfully formatted.
啟動Hadoop集群：/opt/hadoop-2.7.2/sbin/start-all.sh
驗證Hadoop集群是否正常啟動：
jps，系統中運行的java進程;
通過埠查看（關閉防火牆或者service iptables stop在防火牆的規則中開放這些埠）：
http://bigdata:50070(http://http://192.168.42.209/:50070)，分布式文件系統hdfs的情況
yarn http://bigdata:18088(http://http://192.168.42.209/:50070)

❽ 如何在Linux下安裝配置Apache Mahout

Mahout安裝詳細全過程
1、jdk安裝 2
2、SSH無密碼驗證配置 2
3、 Hadoop配置 3
4、Hadop使用 6
5、Maven安裝 7
6、安裝mahout 7
7、hadoop集群來執行聚類演算法 8
8、其他 8
————————————————————
1、jdk安裝
1.1、到官網下載相關的JDK
下載地址：http://www.oracle.com/technetwork/java/javase/downloads/index.html

1.2、打開「終端」
輸入：sh jdk-6u24-linux-i586.bin

1.3、設置JAVA_HOME環境系統變數
輸入：
vi /etc/environment
在文件中添加：
export JAVA_HOME=/root/jdk1.6.0_24
export JRE_Home=/root/jdk1.6.0_24/jre
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
同樣，修改第二個文件。輸入：
vi /etc/profile
在umask 022之前添加以下語句：
export JAVA_HOME=/root/jdk1.6.0_24
export JRE_Home=/root/jdk1.6.0_24/jre
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin

1.4、注銷用戶，檢測JDK版本。
輸入：
java -version

2、集群環境介紹
集群包含三個節點：1 個 namenode，2 個 datanode，節點之間區域網連接，可以相互 ping 通。節點 IP 地址分布如下：
Namenode: [email protected]
Datanode1: slave1 @192.168.1.20
Datanode2: [email protected]
三台節點上均是CentOS系統，Hadoop在/root/hadoop/目錄下。
在/etc/hosts上添加主機名和相應的IP地址：
192.168.1.10 master
192.168.1.20 slave1
192.168.1.21 slave2
3、SSH無密碼驗證配置
2.1 Hadoop 需要使用SSH 協議，namenode 將使用SSH 協議啟動 namenode和datanode 進程，偽分布式模式數據節點和名稱節點均是本身，必須配置 SSH localhost無密碼驗證。
用root用戶登錄，在家目錄下執行如下命令：ssh-keygen -t rsa
[root@master ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): & 按回車默認路徑 &
Created directory '/root/.ssh'. &創建/root/.ssh目錄&
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
c6:7e:57:59:0a:2d:85:49:23:cc:c4:58:ff:db:5b:38 root@master
通過以上命令將在/root/.ssh/ 目錄下生成id_rsa私鑰和id_rsa.pub公鑰。進入/root/.ssh目錄在namenode節點下做如下配置：
[root@master .ssh]# cat id_rsa.pub > authorized_keys
[root@master .ssh]# scp authorized_keys 192.168.1.20:/root/.ssh/
[root@master .ssh]# scp authorized_keys 192.168.1.21:/root/.ssh/
配置完畢，可通過ssh 本機IP 測試是否需要密碼登錄。

2.2 和namenode無密碼登錄所有Datanode原理一樣，把Datanode的公鑰復制到
Namenode的.ssh目錄下。
[root@slave1 .ssh]# scp authorized_keys1 192.168.1.10:/root /.ssh
[root@ slave2.ssh]# scp authorized_keys2 192.168.1.10:/root /.ssh
將剛傳過來的authorized_keys1、2加入到authorized_keys
[root@ master.ssh]# cat authorized_keys1 > authorized_keys
[root@ master.ssh]# cat authorized_keys2 > authorized_keys
這樣也能在Datanode上關閉和啟動Hadoop服務。
4、 Hadoop配置
下載 hadoop-0.20.2.tar.gz，進行解壓。
tar zxvf hadoop-0.20.2.tar.gz
修改/etc/profile，加入如下：
# set hadoop path
export HADOOP_HOME=/root/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

4.1、進入hadoop/conf，配置Hadoop配置文件
4.1.1 配置hadoop-env.sh文件
添加 # set java environment
export JAVA_HOME=/root/jdk1.6.0_24
編輯後保存退出。

4.1.2 配置core-site.xml
# vi core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.1.10:9000/</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/root/hadoop/hadooptmp</value>
</property>
</configuration>

4.1.3 配置hdfs-site.xml
# vi hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>dfs.name.dir</name>
<value>/root/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/root/hadoop/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>

4.1.4 配置mapred-site.xml
# vi mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.1.10:9001</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/root/hadoop/mapred/local</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>/tmp/hadoop/mapred/system</value>
</property>
</configuration>

4.1.5 配置masters
# vi masters
192.168.1.10
4.1.6 配置slaves
# vi slaves
192.168.1.20
192.168.1.21

4.2、 Hadoop啟動
4.2.1 進入 /root/hadoop/bin目錄下，格式化namenode
# ./hadoop namenode –format

4.2.2 啟動hadoop所有進程
在/root/hadoop/bin 目錄下，執行start-all.sh命令
啟動完成後，可用jps命令查看hadoop進程是否啟動完全。正常情況下應該有如下進程：
10910 NameNode
11431 Jps
11176 SecondaryNameNode
11053 DataNode
11254 JobTracker
11378 TaskTracker

我在搭建過程中，在此環節出現的問題最多，經常出現啟動進程不完整的情況，要不是datanode無法正常啟動，就是namenode或是TaskTracker啟動異常。解決的方式如下：
1）在Linux下關閉防火牆：使用service iptables stop命令；
2）再次對namenode進行格式化：在/root/hadoop/bin 目錄下執行hadoop namenode -format命令
3）對伺服器進行重啟
4）查看datanode或是namenode對應的日誌文件，日誌文件保存在/root/hadoop/logs目錄下。
5）再次在/bin目錄下用start-all.sh命令啟動所有進程，通過以上的幾個方法應該能解決進程啟動不完全的問題了。

4.2.3 查看集群狀態
在 bin目錄下執行：hadoop dfsadmin -report
# hadoop dfsadmin –report

4.3 在WEB頁面下查看Hadoop工作情況
打開IE瀏覽器輸入部署Hadoop伺服器的IP：
http://localhost:50070
http://localhost:50030。

5、Hadop使用
一個測試例子wordcount：
計算輸入文本中詞語數量的程序。WordCount在Hadoop主目錄下的java程序包hadoop-0.20.2-examples.jar 中，執行步驟如下：
在/root/hadoop/bin/目錄下進行如下操作：
./hadoop fs -mkdir input(新建目錄名稱，可任意命名)
mkdir /root/a/
vi /root/a/a.txt
寫入hello world hello
# hadoop fs -FromLocal /root/a/ input
在/root/hadoop/bin下執行：
# ./hadoop jar hadoop-0.20.2-examples.jar wordcount input output (提交作業，此處需注意input與output是一組任務，下次再執行wordcount程序，還要新建目錄intput1與output1不能跟input與output重名)

6、Maven安裝
6.1下載Maven
解壓tar vxzf apache-maven-3.0.2-bin.tar.gz
mv apache-maven-3.0.2 /root/maven

6.2 vi ~/.bashrc
添加如下兩行
export M3_HOME=/root/maven
export PATH=${M3_HOME}/bin:${PATH}

6.3 先logout，之後再login
查看maven版本，看是否安裝成功
mvn -version

7、安裝mahout
安裝方法見：
https://cwiki.apache.org/confluence/display/MAHOUT/BuildingMahout

8、hadoop集群來執行聚類演算法
8.1數據准備
cd /root/hadoop
wget http://archive.ics.uci.e/ml/databases/synthetic_control/synthetic_control.data

8.2 ./hadoop fs -mkdir testdata
./hadoop fs -put synthetic_control.data testdata
./hadoop fs -lsr testdata

bin/hadoop jar /root/mahout/mahout-examples-0.4-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

8.3查看一下結果吧
bin/mahout vectormp --seqFile /user/root/output/data/part-r-00000
這個直接把結果顯示在控制台上。

9、hadoop集群來執行推薦演算法
分布式
bin/hadoop jar /root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob -Dmapred.map.tasks=3 -Dmapred.rece.tasks=3 -Dmapred.input.dir=testdata/100wan.txt -Dmapred.output.dir=output2

偽分布式
bin/hadoop jar /root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar org.apache.mahout.cf.taste.hadoop.pseudo.RecommenderJob --recommenderClassName org.apache.mahout.cf.taste.impl.recommender.slopeone.SlopeOneRecommender -Dmapred.input.dir=testdata/10wan.dat -Dmapred.output.dir=output_w10wan
10、其他
離開安全模式：hadoop dfsadmin -safemode leave

❾ centos 6.5怎麼搭建hadoop2.7.3

總體思路，准備主從伺服器，配置主伺服器可以無密碼SSH登錄從伺服器，解壓安裝JDK，解壓安裝Hadoop，配置hdfs、maprece等主從關系。

1、環境，3台CentOS6.5，64位，Hadoop2.7.3需要64位Linux，操作系統十幾分鍾就可以安裝完成，
Master 192.168.0.182
Slave1 192.168.0.183
Slave2 192.168.0.184

2、SSH免密碼登錄，因為Hadoop需要通過SSH登錄到各個節點進行操作，我用的是root用戶，每台伺服器都生成公鑰，再合並到authorized_keys
(1)CentOS默認沒有啟動ssh無密登錄，去掉/etc/ssh/sshd_config其中2行的注釋，每台伺服器都要設置，
#RSAAuthentication yes
#PubkeyAuthentication yes
(2)輸入命令，ssh-keygen -t rsa，生成key，都不輸入密碼，一直回車，/root就會生成.ssh文件夾，每台伺服器都要設置，
(3)合並公鑰到authorized_keys文件，在Master伺服器，進入/root/.ssh目錄，通過SSH命令合並，
cat id_rsa.pub>> authorized_keys
ssh [email protected] cat ~/.ssh/id_rsa.pub>> authorized_keys
ssh [email protected] cat ~/.ssh/id_rsa.pub>> authorized_keys
(4)把Master伺服器的authorized_keys、known_hosts復制到Slave伺服器的/root/.ssh目錄
(5)完成，ssh [email protected]、ssh [email protected]就不需要輸入密碼了

3、安裝JDK，Hadoop2.7需要JDK7，由於我的CentOS是最小化安裝，所以沒有OpenJDK，直接解壓下載的JDK並配置變數即可
(1)下載「jdk-7u79-linux-x64.gz」，放到/home/java目錄下
(2)解壓，輸入命令，tar -zxvf jdk-7u79-linux-x64.gz
(3)編輯/etc/profile
export JAVA_HOME=/home/java/jdk1.7.0_79
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
(4)使配置生效，輸入命令，source /etc/profile
(5)輸入命令，java -version，完成

4、安裝Hadoop2.7，只在Master伺服器解壓，再復制到Slave伺服器
(1)下載「hadoop-2.7.0.tar.gz」，放到/home/hadoop目錄下
(2)解壓，輸入命令，tar -xzvf hadoop-2.7.0.tar.gz
(3)在/home/hadoop目錄下創建數據存放的文件夾，tmp、hdfs、hdfs/data、hdfs/name

5、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目錄下的core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.0.182:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hadoop/tmp</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131702</value>
</property>
</configuration>

6、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目錄下的hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>192.168.0.182:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

7、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目錄下的mapred-site.xml
<configuration>
<property>
<name>maprece.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>maprece.jobhistory.address</name>
<value>192.168.0.182:10020</value>
</property>
<property>
<name>maprece.jobhistory.webapp.address</name>
<value>192.168.0.182:19888</value>
</property>
</configuration>

8、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目錄下的mapred-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>maprece_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.maprece.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>192.168.0.182:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheler.address</name>
<value>192.168.0.182:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>192.168.0.182:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>192.168.0.182:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>192.168.0.182:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>768</value>
</property>
</configuration>

9、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目錄下hadoop-env.sh、yarn-env.sh的JAVA_HOME，不設置的話，啟動不了，
export JAVA_HOME=/home/java/jdk1.7.0_79

10、配置/home/hadoop/hadoop-2.7.0/etc/hadoop目錄下的slaves，刪除默認的localhost，增加2個從節點，
192.168.0.183
192.168.0.184

11、將配置好的Hadoop復制到各個節點對應位置上，通過scp傳送，
scp -r /home/hadoop 192.168.0.183:/home/
scp -r /home/hadoop 192.168.0.184:/home/

12、在Master伺服器啟動hadoop，從節點會自動啟動，進入/home/hadoop/hadoop-2.7.0目錄
(1)初始化，輸入命令，bin/hdfs namenode -format
注意：執行這步的時候可能會報一個錯誤：
java.net.UnknownHostException: tiancunPC: tiancunPC: unknown error
at java.net.InetAddress.getLocalHost(InetAddress.java:1505)
at org.apache.hadoop.net.DNS.resolveLocalHostname(DNS.java:264)
at org.apache.hadoop.net.DNS.<clinit>(DNS.java:57)
at org.apache.hadoop.hdfs.server.namenode.NNStorage.newBlockPoolID(NNStorage.java:982)
at org.apache.hadoop.hdfs.server.namenode.NNStorage.newNamespaceInfo(NNStorage.java:591)
at org.apache.hadoop.hdfs.server.namenode.FSImage.format(FSImage.java:157)
at org.apache.hadoop.hdfs.server.namenode.NameNode.format(NameNode.java:992)
at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1434)
at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1559)
Caused by: java.net.UnknownHostException: tiancunPC: unknown error
at java.net.Inet4AddressImpl.lookupAllHostAddr(Native Method)
at java.net.InetAddress$2.lookupAllHostAddr(InetAddress.java:928)
at java.net.InetAddress.getAddressesFromNameService(InetAddress.java:1323)
at java.net.InetAddress.getLocalHost(InetAddress.java:1500)
... 8 more
16/11/11 19:15:23 WARN net.DNS: Unable to determine address of the host-falling back to "localhost" address
java.net.UnknownHostException: tiancunPC: tiancunPC: unknown error
at java.net.InetAddress.getLocalHost(InetAddress.java:1505)
at org.apache.hadoop.net.DNS.resolveLocalHostIPAddress(DNS.java:287)
at org.apache.hadoop.net.DNS.<clinit>(DNS.java:58)
at org.apache.hadoop.hdfs.server.namenode.NNStorage.newBlockPoolID(NNStorage.java:982)
at org.apache.hadoop.hdfs.server.namenode.NNStorage.newNamespaceInfo(NNStorage.java:591)
at org.apache.hadoop.hdfs.server.namenode.FSImage.format(FSImage.java:157)
at org.apache.hadoop.hdfs.server.namenode.NameNode.format(NameNode.java:992)
at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1434)
at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1559)
Caused by: java.net.UnknownHostException: tiancunPC: unknown error
at java.net.Inet4AddressImpl.lookupAllHostAddr(Native Method)
at java.net.InetAddress$2.lookupAllHostAddr(InetAddress.java:928)
at java.net.InetAddress.getAddressesFromNameService(InetAddress.java:1323)
at java.net.InetAddress.getLocalHost(InetAddress.java:1500)
... 8 more
linux中使用hostname查看為：
[root@tiancunPC hadoop-2.7.3]# hostname
tiancunPC
查看/etc/hosts為：
[root@tiancunPC hadoop-2.7.3]# cat /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
難怪會映射不到，修改/etc/hosts
[root@tiancunPC hadoop-2.7.3]# cat /etc/hosts
127.0.0.1 tiancunPC localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
對應修改另外兩個機器的主機名，在執行那個命令就可以了

(2)全部啟動sbin/start-all.sh，也可以分開sbin/start-dfs.sh、sbin/start-yarn.sh
執行sbin/start-all.sh 可能會有錯誤提示：
maps to localhost(IP), but this does not map back to the address
解決辦法：

修改 /etc/ssh/ssh_config
vim /etc/ssh/ssh_config
GSSAPIAuthentication no
這個時候可能還會出現這個錯誤提示：

hadoop出現namenode running as process 18472. Stop it first.，hadoopnamenode
解決辦法：重新啟動一下hadoop

(3)停止的話，輸入命令，sbin/stop-all.sh
(4)輸入命令，jps，可以看到相關信息

❿ 如何在Linux上安裝與配置Hadoop

一鍵戚、安裝hadoop

1 因為hadoop是基於java的，所以要保證hadoop能找到在本地系統中大路徑，即正確設置java的環境變數。
詳細請看：linux 安裝配置jdk

2 到官網：http://www.apache.org/dyn/closer.cgi/hadoop/common/ 下寬拿載hadoop，
這里我選擇hadoop1.0.4

3 解壓到 /usr/local
tar -xvf hadoop-1.0.4.tar.gz

4 設置hadoop環境變數，為了使環境變數永久有效並對所有用戶有效，慎亮搭我們將下面兩句添加到/etc/profile

export HADOOP_HOME=/usr/local/hadoop-1.0.4
export PATH=$PATH:$HADOOP_HOME/bin

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：978

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1250

python中的init方法發布：2025-10-20 08:17:33 瀏覽：937

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1119

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：984

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1341

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：552

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：448

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1116

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1107

hadooplinux下載

如何在linux下安裝hadoop

如何在windows下安裝hadoop

如何在hadoop 環境下安裝hive

如何在ubantu環境下安裝hadoop

如何在 Linux 下安裝 PyCharm

如何在linux下安裝opencv

與hadooplinux下載相關的資訊