hadoop演算法

發布時間: 2023-01-13 03:59:21

Ⅰ hadoop什麼意思

hadoop是一款開源軟體，主要用於分布式存儲和計算，他由HDFS和MapRece計算框架組成的，他們分別是Google的GFS和MapRece的開源實現。由於hadoop的易用性和可擴展性，因此成為最近流行的海量數據處理框架。hadoop這個單詞來源於其發明者的兒子為一個玩具大象起的名字。

Ⅱ 如何讓Hadoop結合R語言做大數據分析

R語言和Hadoop讓我們體會到了，兩種技術在各自領域的強大。很多開發人員在計算機的角度，都會提出下面2個問題。問題1: Hadoop的家族如此之強大，為什麼還要結合R語言？x0dx0a問題2: Mahout同樣可以做數據挖掘和機器學習，和R語言的區別是什麼？下面我嘗試著做一個解答：問題1: Hadoop的家族如此之強大，為什麼還要結合R語言？x0dx0ax0dx0aa. Hadoop家族的強大之處，在於對大數據的處理，讓原來的不可能（TB,PB數據量計算），成為了可能。x0dx0ab. R語言的強大之處，在於統計分析，在沒有Hadoop之前，我們對於大數據的處理，要取樣本，假設檢驗，做回歸，長久以來R語言都是統計學家專屬的工具。x0dx0ac. 從a和b兩點，我們可以看出，hadoop重點是全量數據分析，而R語言重點是樣本數據分析。兩種技術放在一起，剛好是最長補短！x0dx0ad. 模擬場景：對1PB的新聞網站訪問日誌做分析，預測未來流量變化x0dx0ad1:用R語言，通過分析少量數據，對業務目標建回歸建模，並定義指標d2:用Hadoop從海量日誌數據中，提取指標數據d3:用R語言模型，對指標數據進行測試和調優d4:用Hadoop分步式演算法，重寫R語言的模型，部署上線這個場景中，R和Hadoop分別都起著非常重要的作用。以計算機開發人員的思路，所有有事情都用Hadoop去做，沒有數據建模和證明，」預測的結果」一定是有問題的。以統計人員的思路，所有的事情都用R去做，以抽樣方式，得到的「預測的結果」也一定是有問題的。所以讓二者結合，是產界業的必然的導向，也是產界業和學術界的交集，同時也為交叉學科的人才提供了無限廣闊的想像空間。問題2: Mahout同樣可以做數據挖掘和機器學習，和R語言的區別是什麼？x0dx0ax0dx0aa. Mahout是基於Hadoop的數據挖掘和機器學習的演算法框架，Mahout的重點同樣是解決大數據的計算的問題。x0dx0ab. Mahout目前已支持的演算法包括，協同過濾，推薦演算法，聚類演算法，分類演算法，LDA, 樸素bayes，隨機森林。上面的演算法中，大部分都是距離的演算法，可以通過矩陣分解後，充分利用MapRece的並行計算框架，高效地完成計算任務。x0dx0ac. Mahout的空白點，還有很多的數據挖掘演算法，很難實現MapRece並行化。Mahout的現有模型，都是通用模型，直接用到的項目中，計算結果只會比隨機結果好一點點。Mahout二次開發，要求有深厚的java和Hadoop的技術基礎，最好兼有「線性代數」，「概率統計」，「演算法導論」等的基礎知識。所以想玩轉Mahout真的不是一件容易的事情。x0dx0ad. R語言同樣提供了Mahout支持的約大多數演算法(除專有演算法)，並且還支持大量的Mahout不支持的演算法，演算法的增長速度比mahout快N倍。並且開發簡單，參數配置靈活，對小型數據集運算速度非常快。x0dx0a雖然，Mahout同樣可以做數據挖掘和機器學習，但是和R語言的擅長領域並不重合。集百家之長，在適合的領域選擇合適的技術，才能真正地「保質保量」做軟體。x0dx0ax0dx0a如何讓Hadoop結合R語言？x0dx0ax0dx0a從上一節我們看到，Hadoop和R語言是可以互補的，但所介紹的場景都是Hadoop和R語言的分別處理各自的數據。一旦市場有需求，自然會有商家填補這個空白。x0dx0ax0dx0a1）. RHadoopx0dx0ax0dx0aRHadoop是一款Hadoop和R語言的結合的產品，由RevolutionAnalytics公司開發，並將代碼開源到github社區上面。RHadoop包含三個R包 (rmr，rhdfs，rhbase)，分別是對應Hadoop系統架構中的，MapRece, HDFS, HBase 三個部分。x0dx0ax0dx0a2）. RHiveRHive是一款通過R語言直接訪問Hive的工具包，是由NexR一個韓國公司研發的。x0dx0ax0dx0a3）. 重寫Mahout用R語言重寫Mahout的實現也是一種結合的思路，我也做過相關的嘗試。x0dx0ax0dx0a4）.Hadoop調用Rx0dx0ax0dx0a上面說的都是R如何調用Hadoop，當然我們也可以反相操作，打通JAVA和R的連接通道，讓Hadoop調用R的函數。但是，這部分還沒有商家做出成形的產品。x0dx0ax0dx0a5. R和Hadoop在實際中的案例x0dx0ax0dx0aR和Hadoop的結合，技術門檻還是有點高的。對於一個人來說，不僅要掌握linux, Java, Hadoop, R的技術，還要具備軟體開發，演算法，概率統計，線性代數，數據可視化，行業背景的一些基本素質。在公司部署這套環境，同樣需要多個部門，多種人才的的配合。Hadoop運維，Hadoop演算法研發，R語言建模，R語言MapRece化，軟體開發，測試等等。所以，這樣的案例並不太多。

Ⅲ 在hadoop集群中，fifo調度演算法具有哪些特點

首先介紹了Hadoop平台下作業的分布式運行機制，然後對Hadoop平台自帶的4種任務調度器做分析和比較，最後在分析JobTracker類文件的基礎上指出了創建自定義任務調度器所需完成的工作。首先Hadoop集群式基於單伺服器的，只有一個伺服器節點負責調度整個集群的作業運行，主要的具體工作是切分大數據量的作業，指定哪些Worker節點做Map工作、哪些Worker節點做Rece工作、與Worker節點通信並接受其心跳信號、作為用戶的訪問入口等等。其次，集群中的每個Worker節點相當於一個器官，運行著主節點所指派的具體作業。這些節點會被分為兩種類型，一種是接收分塊之後的作業並做映射工作。另一種是負責把前面所做的映射工作按照約定的規則做一個統計。Task－Tracker通過運行一個簡單循環來定期地發送心跳信號（heartbeat）給JobTracker．這個心跳信號會把TaskTracker是否還在存活告知JobTracker，TaskTracker通過信號指明自己是否已經准備好運行新的任務．一旦TaskTracker已經准備好接受任務，JobTracker就會從作業優先順序表中選定一個作業並分配下去．至於到底是執行Map任務還是Rece任務，是由TaskTracker的任務槽所決定的．默認的任務調度器在處理Rece任務之前，會優先填滿空閑的Map任務槽．因此，如果TaskTracker滿足存在至少一個空閑任務槽時，JobTracker會為它分配Map任務，否則為它選擇一個Rece任務．TaskTracker在運行任務的時候，第一步是從共享文件系統中把作業的JAR文件復制過來，從而實現任務文件的本地化．第二步是TaskTracker為任務新建一個本地文件夾並把作業文件解壓在此目錄中．第三步是由Task－Tracker新建一個TaskRunner實例來運行該任務．Hadoop平台默認的調度方案就是JobQueueTaskScheler，這是一種按照任務到來的時間先後順序而執行的調度策略．這種方式比較簡單，JobTracker作為主控節點，僅僅是依照作業到來的先後順序而選擇將要執行的作業．當然，這有一定的缺陷，由於Hadoop平台是默認將作業運行在整個集群上的，那麼如果一個耗時非常大的作業進入執行期，將會導致其餘大量作業長時間得不到運行．這種長時間運行的優先順序別並不高的作業帶來了嚴重的作業阻塞，使得整個平台的運行效率處在較低的水平．Hadoop平台對這種FIFO（FirstINAndFirstOut）機制所給出的解決法是調用SetJobPriority（）方法，通過設置作業的權重級別來做平衡調度．FairScheler是一種「公平」調度器，它的目標是讓每個用戶能夠公平地共享Hadoop集群計算能力．當只有一個作業運行的時候，它會得到整個集群的資源．隨著提交到作業表中作業的增多，Hadoop平台會把集群中空閑出來的時間槽公平分配給每個需要執行的作業．這樣即便其中某些作業需要較長時間運行，平台仍然有能力讓那些短作業在合理時間內完成［3］．FairScheler支持資源搶占，當一個資源池在一定時段內沒有得到公平共享時，它會終止該資源池所獲得的過多的資源，同時把這些釋放的資源讓給那些資源不足的資源池．Hadoop平台中的CapacityScheler是由Yahoo貢獻的，在調度器上，設置了三種粒度的對象：queue，job，task．在該策略下，平台可以有多個作業隊列，每個作業隊列經提交後，都會獲得一定數量的TaskTracker資源．具體調度流程如下．（1）選擇queue，根據資源庫的使用情況從小到大排序，直到找到一個合適的job．（2）選擇job，在當前所選定的queue中，按照作業提交的時間先後以及作業的權重優先順序別進行排序，選擇合適的job．當然，在job選擇時還需要考慮所選作業是否超出目前現有的資源上限，以及資源池中的內存是否夠該job的task用等因素．（3）選擇task，根據本地節點的資源使用情況來選擇合適的task．雖然Hadoop平台自帶了幾種調度器，但是上述3種調度方案很難滿足公司復雜的應用需求．因此作為平台的個性化使用者，往往需要開發自己的調度器．Hadoop的調度器是在JobTracker中載入和調用的，因此開發一個自定義的調度器就必須搞清楚JobTracker類文件的內部機制．作為Hadoop平台的核心組件，JobTracker監控著整個集群的作業運行情況並對資源進行管理調度．每個Task－Tracker每隔3s通過heartbeat向JobTracker匯報自己管理的機器的一些基本信息，包括內存使用量、內存的剩餘量以及空閑的slot數目等等［5］．一旦JobTracker發現了空閑slot，便會調用調度器中的AssignTask方法為該TaskTracker分配task。

Ⅳ 怎麼優化hadoop任務調度演算法

首先介紹了Hadoop平台下作業的分布式運行機制，然後對Hadoop平台自帶的4種任務調度器做分析和比較，最後在分析JobTracker類文件的基礎上指出了創建自定義任務調度器所需完成的工作。
首先Hadoop集群式基於單伺服器的，只有一個伺服器節點負責調度整個集群的作業運行，主要的具體工作是切分大數據量的作業，指定哪些Worker節點做Map工作、哪些Worker節點做Rece工作、與Worker節點通信並接受其心跳信號、作為用戶的訪問入口等等。其次，集群中的每個Worker節點相當於一個器官，運行著主節點所指派的具體作業。這些節點會被分為兩種類型，一種是接收分塊之後的作業並做映射工作。另一種是負責把前面所做的映射工作按照約定的規則做一個統計。
Task－Tracker通過運行一個簡單循環來定期地發送心跳信號（heartbeat）給JobTracker．這個心跳信號會把TaskTracker是否還在存活告知JobTracker，TaskTracker通過信號指明自己是否已經准備
好運行新的任務．一旦TaskTracker已經准備好接受任務，JobTracker就會從作業優先順序表中選定一個作業並分配下去．至於到底是執行Map任務還是Rece任務，是由TaskTracker的任務槽所決定的．默認的任務調度器在處理Rece任務之前，會優先填滿空閑的Map任務槽．因此，如果TaskTracker滿足存在至少一個空閑任務槽時，JobTracker會為它分配Map任務，否則為它選擇一個Rece任務．TaskTracker在運行任務的時候，第一步是從共享文件系統中把作業的JAR文件復制過來，從而實現任務文件的本地化．第二步是TaskTracker為任務新建一個本地文件夾並把作業文件解壓在此目錄中．第三步是由Task－Tracker新建一個TaskRunner實例來運行該任務．
Hadoop平台默認的調度方案就是JobQueueTaskScheler，這是一種按照任務到來的時間先後順序而執行的調度策略．這種方式比較簡單，JobTracker作為主控節點，僅僅是依照作業到來的先後順序而選擇將要執行的作業．當然，這有一定的缺陷，由於Hadoop平台是默認將作業運行在整個集群上的，那麼如果一個耗時非常大的作業進入執行期，將會導致其餘大量作業長時間得不到運行．這種長時間運行的優先順序別並不高的作業帶來了嚴重的作業阻塞，使得整個平台的運行效率處在較低的水平．Hadoop平台對這種FIFO（FirstINAndFirstOut）機制所給出的解決辦法是調用SetJobPriority（）方法，通過設置作業的權重級別來做平衡調度．
FairScheler是一種「公平」調度器，它的目標是讓每個用戶能夠公平地共享Hadoop集群計算能力．當只有一個作業運行的時候，它會得到整個集群的資源．隨著提交到作業表中作業的增多，Hadoop平台會把集群中空閑出來的時間槽公平分配給每個需要執行的作業．這樣即便其中某些作業需要較長時間運行，平台仍然有能力讓那些短作業在合理時間內完成［3］．FairScheler支持資源搶占，當一個資源池在一定時段內沒有得到公平共享時，它會終止該資源池所獲得的過多的資源，同時把這些釋放的資源讓給那些資源不足的資源池．
Hadoop平台中的CapacityScheler是由Yahoo貢獻的，在調度器上，設置了三種粒度的對象：queue，job，task．在該策略下，平台可以有多個作業隊列，每個作業隊列經提交後，都會獲得一定數量的TaskTracker資源．具體調度流程如下．
（1）選擇queue，根據資源庫的使用情況從小到大排序，直到找到一個合適的job．
（2）選擇job，在當前所選定的queue中，按照作業提交的時間先後以及作業的權重優先順序別進行排序，選擇合適的job．當然，在job選擇時還需要考慮所選作業是否超出目前現有的資源上限，以及資源池中的內存是否夠該job的task用等因素．
（3）選擇task，根據本地節點的資源使用情況來選擇合適的task．
雖然Hadoop平台自帶了幾種調度器，但是上述3種調度方案很難滿足公司復雜的應用需求．因此作為平台的個性化使用者，往往需要開發自己的調度器．Hadoop的調度器是在JobTracker中載入和調用的，因此開發一個自定義的調度器就必須搞清楚JobTracker類文件的內部機制．作為Hadoop平台的核心組件，JobTracker監控著整個集群的作業運行情況並對資源進行管理調度．每個Task－Tracker每隔3s通過heartbeat向JobTracker匯報自己管理的機器的一些基本信息，包括內存使用量、內存的剩餘量以及空閑的slot數目等等［5］．一
旦JobTracker發現了空閑slot，便會調用調度器中的AssignTask方法為該TaskTracker分配task。

Ⅳ 基於hadoop的機器學習演算法有哪些

很多，主要說下監督學習這塊的演算法哈。歡迎討論。
svm，支撐向量機，通過找到樣本空間中的一個超平面，實現樣本的分類，也可以作回歸，主要用在文本分類，圖像識別等領域，詳見：；
lr，邏輯回歸，本質也是線性回歸，通過擬合擬合樣本的某個曲線，然後使用邏輯函數進行區間縮放，但是一般用來分類，主要用在ctr預估、推薦等；
nn，神經網路，通過找到某種非線性模型擬合數據，主要用在圖像等；
nb，樸素貝葉斯，通過找到樣本所屬於的聯合分步，然後通過貝葉斯公式，計算樣本的後驗概率，從而進行分類，主要用來文本分類；
dt，決策樹，構建一棵樹，在節點按照某種規則（一般使用信息熵）來進行樣本劃分，實質是在樣本空間進行塊狀的劃分，主要用來分類，也有做回歸，但更多的是作為弱分類器，用在model embedding中；
rf，隨進森林，是由許多決策樹構成的森林，每個森林中訓練的樣本是從整體樣本中抽樣得到，每個節點需要進行劃分的特徵也是抽樣得到，這樣子就使得每棵樹都具有獨特領域的知識，從而有更好的泛化能力；
gbdt，梯度提升決策樹，實際上也是由多棵樹構成，和rf不同的是，每棵樹訓練樣本是上一棵樹的殘差，這體現了梯度的思想，同時最後的結構是用這所有的樹進行組合或者投票得出，主要用在推薦、相關性等；
knn，k最近鄰，應該是最簡單的ml方法了，對於未知標簽的樣本，看與它最近的k個樣本(使用某種距離公式，馬氏距離或者歐式距離)中哪種標簽最多，它就屬於這類；

Ⅵ hadoop的maprece常見演算法案例有幾種

基本MapRece模式

計數與求和
問題陳述:
有許多文檔，每個文檔都有一些欄位組成。需要計算出每個欄位在所有文檔中的出現次數或者這些欄位的其他什麼統計值。例如，給定一個log文件，其中的每條記錄都包含一個響應時間，需要計算出平均響應時間。
解決方案:
讓我們先從簡單的例子入手。在下面的代碼片段里，Mapper每遇到指定詞就把頻次記1，Recer一個個遍歷這些詞的集合然後把他們的頻次加和。

1 class Mapper
2 method Map(docid id, doc d)
3 for all term t in doc d do
4 Emit(term t, count 1)
5
6 class Recer
7 method Rece(term t, counts [c1, c2,...])
8 sum = 0
9 for all count c in [c1, c2,...] do
10 sum = sum + c
11 Emit(term t, count sum)

這種方法的缺點顯而易見，Mapper提交了太多無意義的計數。它完全可以通過先對每個文檔中的詞進行計數從而減少傳遞給Recer的數據量:

1 class Mapper
2 method Map(docid id, doc d)
3 H = new AssociativeArray
4 for all term t in doc d do
5 H{t} = H{t} + 1
6 for all term t in H do
7 Emit(term t, count H{t})

如果要累計計數的的不只是單個文檔中的內容，還包括了一個Mapper節點處理的所有文檔，那就要用到Combiner了:

1 class Mapper
2 method Map(docid id, doc d)
3 for all term t in doc d do
4 Emit(term t, count 1)
5
6 class Combiner
7 method Combine(term t, [c1, c2,...])
8 sum = 0
9 for all count c in [c1, c2,...] do
10 sum = sum + c
11 Emit(term t, count sum)
12
13 class Recer
14 method Rece(term t, counts [c1, c2,...])
15 sum = 0
16 for all count c in [c1, c2,...] do
17 sum = sum + c
18 Emit(term t, count sum)

應用：Log 分析, 數據查詢

整理歸類

問題陳述:
有一系列條目，每個條目都有幾個屬性，要把具有同一屬性值的條目都保存在一個文件里，或者把條目按照屬性值分組。最典型的應用是倒排索引。
解決方案：
解決方案很簡單。在 Mapper 中以每個條目的所需屬性值作為 key，其本身作為值傳遞給 Recer。 Recer 取得按照屬性值分組的條目，然後可以處理或者保存。如果是在構建倒排索引，那麼每個條目相當於一個詞而屬性值就是詞所在的文檔ID。
應用：倒排索引， ETL
過濾 (文本查找)，解析和校驗
問題陳述:
假設有很多條記錄，需要從其中找出滿足某個條件的所有記錄，或者將每條記錄傳換成另外一種形式（轉換操作相對於各條記錄獨立，即對一條記錄的操作與其他記錄無關）。像文本解析、特定值抽取、格式轉換等都屬於後一種用例。
解決方案:
非常簡單，在Mapper 里逐條進行操作，輸出需要的值或轉換後的形式。
應用：日誌分析，數據查詢，ETL，數據校驗

分布式任務執行

問題陳述:
大型計算可以分解為多個部分分別進行然後合並各個計算的結果以獲得最終結果。
解決方案: 將數據切分成多份作為每個 Mapper 的輸入，每個Mapper處理一份數據，執行同樣的運算，產生結果，Recer把多個Mapper的結果組合成一個。
案例研究：數字通信系統模擬
像 WiMAX 這樣的數字通信模擬軟體通過系統模型來傳輸大量的隨機數據，然後計算傳輸中的錯誤幾率。每個 Mapper 處理樣本 1/N 的數據，計算出這部分數據的錯誤率，然後在 Recer 里計算平均錯誤率。
應用：工程模擬，數字分析，性能測試
排序
問題陳述:
有許多條記錄，需要按照某種規則將所有記錄排序或是按照順序來處理記錄。
解決方案: 簡單排序很好辦 – Mappers 將待排序的屬性值為鍵，整條記錄為值輸出。不過實際應用中的排序要更加巧妙一點，這就是它之所以被稱為MapRece 核心的原因（「核心」是說排序？因為證明Hadoop計算能力的實驗是大數據排序？還是說Hadoop的處理過程中對key排序的環節？）。在實踐中，常用組合鍵來實現二次排序和分組。
MapRece 最初只能夠對鍵排序，但是也有技術利用可以利用Hadoop 的特性來實現按值排序。想了解的話可以看這篇博客。
按照BigTable的概念，使用 MapRece來對最初數據而非中間數據排序，也即保持數據的有序狀態更有好處，必須注意這一點。換句話說，在數據插入時排序一次要比在每次查詢數據的時候排序更高效。
應用：ETL，數據分析

非基本 MapRece 模式

迭代消息傳遞 (圖處理)

問題陳述：
假設一個實體網路，實體之間存在著關系。需要按照與它比鄰的其他實體的屬性計算出一個狀態。這個狀態可以表現為它和其它節點之間的距離，存在特定屬性的鄰接點的跡象，鄰域密度特徵等等。
解決方案：
網路存儲為系列節點的結合，每個節點包含有其所有鄰接點ID的列表。按照這個概念，MapRece 迭代進行，每次迭代中每個節點都發消息給它的鄰接點。鄰接點根據接收到的信息更新自己的狀態。當滿足了某些條件的時候迭代停止，如達到了最大迭代次數（網路半徑）或兩次連續的迭代幾乎沒有狀態改變。從技術上來看，Mapper 以每個鄰接點的ID為鍵發出信息，所有的信息都會按照接受節點分組，recer 就能夠重算各節點的狀態然後更新那些狀態改變了的節點。下面展示了這個演算法：

1 class Mapper
2 method Map(id n, object N)
3 Emit(id n, object N)
4 for all id m in N.OutgoingRelations do
5 Emit(id m, message getMessage(N))
6
7 class Recer
8 method Rece(id m, [s1, s2,...])
9 M = null
10 messages = []
11 for all s in [s1, s2,...] do
12 if IsObject(s) then
13 M = s
14 else // s is a message
15 messages.add(s)
16 M.State = calculateState(messages)
17 Emit(id m, item M)

一個節點的狀態可以迅速的沿著網路傳全網，那些被感染了的節點又去感染它們的鄰居，整個過程就像下面的圖示一樣：

案例研究：沿分類樹的有效性傳遞
問題陳述：
這個問題來自於真實的電子商務應用。將各種貨物分類，這些類別可以組成一個樹形結構，比較大的分類（像男人、女人、兒童）可以再分出小分類（像男褲或女裝），直到不能再分為止（像男式藍色牛仔褲）。這些不能再分的基層類別可以是有效（這個類別包含有貨品）或者已無效的（沒有屬於這個分類的貨品）。如果一個分類至少含有一個有效的子分類那麼認為這個分類也是有效的。我們需要在已知一些基層分類有效的情況下找出分類樹上所有有效的分類。
解決方案：
這個問題可以用上一節提到的框架來解決。我們咋下面定義了名為 getMessage和 calculateState 的方法：

1 class N
2 State in {True = 2, False = 1, null = 0},
3 initialized 1 or 2 for end-of-line categories, 0 otherwise
4 method getMessage(object N)
5 return N.State
6 method calculateState(state s, data [d1, d2,...])
7 return max( [d1, d2,...] )

案例研究：廣度優先搜索
問題陳述：需要計算出一個圖結構中某一個節點到其它所有節點的距離。
解決方案： Source源節點給所有鄰接點發出值為0的信號，鄰接點把收到的信號再轉發給自己的鄰接點，每轉發一次就對信號值加1：

1 class N
2 State is distance,
3 initialized 0 for source node, INFINITY for all other nodes
4 method getMessage(N)
5 return N.State + 1
6 method calculateState(state s, data [d1, d2,...])
7 min( [d1, d2,...] )

案例研究：網頁排名和 Mapper 端數據聚合
這個演算法由Google提出，使用權威的PageRank演算法，通過連接到一個網頁的其他網頁來計算網頁的相關性。真實演算法是相當復雜的，但是核心思想是權重可以傳播，也即通過一個節點的各聯接節點的權重的均值來計算節點自身的權重。

1 class N
2 State is PageRank
3 method getMessage(object N)
4 return N.State / N.OutgoingRelations.size()
5 method calculateState(state s, data [d1, d2,...])
6 return ( sum([d1, d2,...]) )

要指出的是上面用一個數值來作為評分實際上是一種簡化，在實際情況下，我們需要在Mapper端來進行聚合計算得出這個值。下面的代碼片段展示了這個改變後的邏輯（針對於 PageRank 演算法）：

1 class Mapper
2 method Initialize
3 H = new AssociativeArray
4 method Map(id n, object N)
5 p = N.PageRank / N.OutgoingRelations.size()
6 Emit(id n, object N)
7 for all id m in N.OutgoingRelations do
8 H{m} = H{m} + p
9 method Close
10 for all id n in H do
11 Emit(id n, value H{n})
12
13 class Recer
14 method Rece(id m, [s1, s2,...])
15 M = null
16 p = 0
17 for all s in [s1, s2,...] do
18 if IsObject(s) then
19 M = s
20 else
21 p = p + s
22 M.PageRank = p
23 Emit(id m, item M)

應用：圖分析，網頁索引

值去重（對唯一項計數）
問題陳述: 記錄包含值域F和值域 G，要分別統計相同G值的記錄中不同的F值的數目 (相當於按照 G分組).
這個問題可以推而廣之應用於分面搜索（某些電子商務網站稱之為Narrow Search）
Record 1: F=1, G={a, b}
Record 2: F=2, G={a, d, e}
Record 3: F=1, G={b}
Record 4: F=3, G={a, b}

Result:
a -> 3 // F=1, F=2, F=3
b -> 2 // F=1, F=3
d -> 1 // F=2
e -> 1 // F=2

解決方案 I:
第一種方法是分兩個階段來解決這個問題。第一階段在Mapper中使用F和G組成一個復合值對，然後在Recer中輸出每個值對，目的是為了保證F值的唯一性。在第二階段，再將值對按照G值來分組計算每組中的條目數。
第一階段：

1 class Mapper
2 method Map(null, record [value f, categories [g1, g2,...]])
3 for all category g in [g1, g2,...]
4 Emit(record [g, f], count 1)
5
6 class Recer
7 method Rece(record [g, f], counts [n1, n2, ...])
8 Emit(record [g, f], null )

第二階段：

1 class Mapper
2 method Map(record [f, g], null)
3 Emit(value g, count 1)
4
5 class Recer
6 method Rece(value g, counts [n1, n2,...])
7 Emit(value g, sum( [n1, n2,...] ) )

解決方案 II:
第二種方法只需要一次MapRece 即可實現，但擴展性不強。演算法很簡單-Mapper 輸出值和分類，在Recer里為每個值對應的分類去重然後給每個所屬的分類計數加1，最後再在Recer結束後將所有計數加和。這種方法適用於只有有限個分類，而且擁有相同F值的記錄不是很多的情況。例如網路日誌處理和用戶分類，用戶的總數很多，但是每個用戶的事件是有限的，以此分類得到的類別也是有限的。值得一提的是在這種模式下可以在數據傳輸到Recer之前使用Combiner來去除分類的重復值。

1 class Mapper
2 method Map(null, record [value f, categories [g1, g2,...] )
3 for all category g in [g1, g2,...]
4 Emit(value f, category g)
5
6 class Recer
7 method Initialize
8 H = new AssociativeArray : category -> count
9 method Rece(value f, categories [g1, g2,...])
10 [g1', g2',..] = ExcludeDuplicates( [g1, g2,..] )
11 for all category g in [g1', g2',...]
12 H{g} = H{g} + 1
13 method Close
14 for all category g in H do
15 Emit(category g, count H{g})

應用：日誌分析，用戶計數
互相關
問題陳述：有多個各由若干項構成的組，計算項兩兩共同出現於一個組中的次數。假如項數是N，那麼應該計算N*N。
這種情況常見於文本分析（條目是單詞而元組是句子），市場分析（購買了此物的客戶還可能購買什麼）。如果N*N小到可以容納於一台機器的內存，實現起來就比較簡單了。
配對法
第一種方法是在Mapper中給所有條目配對，然後在Recer中將同一條目對的計數加和。但這種做法也有缺點：
使用 combiners 帶來的的好處有限，因為很可能所有項對都是唯一的
不能有效利用內存

1 class Mapper
2 method Map(null, items [i1, i2,...] )
3 for all item i in [i1, i2,...]
4 for all item j in [i1, i2,...]
5 Emit(pair [i j], count 1)
6
7 class Recer
8 method Rece(pair [i j], counts [c1, c2,...])
9 s = sum([c1, c2,...])
10 Emit(pair[i j], count s)

Stripes Approach（條方法？不知道這個名字怎麼理解）
第二種方法是將數據按照pair中的第一項來分組，並維護一個關聯數組，數組中存儲的是所有關聯項的計數。The second approach is to group data by the first item in pair and maintain an associative array (「stripe」) where counters for all adjacent items are accumulated. Recer receives all stripes for leading item i, merges them, and emits the same result as in the Pairs approach.
中間結果的鍵數量相對較少，因此減少了排序消耗。
可以有效利用 combiners。
可在內存中執行，不過如果沒有正確執行的話也會帶來問題。
實現起來比較復雜。
一般來說，「stripes」比「pairs」更快

1 class Mapper
2 method Map(null, items [i1, i2,...] )
3 for all item i in [i1, i2,...]
4 H = new AssociativeArray : item -> counter
5 for all item j in [i1, i2,...]
6 H{j} = H{j} + 1
7 Emit(item i, stripe H)
8
9 class Recer
10 method Rece(item i, stripes [H1, H2,...])
11 H = new AssociativeArray : item -> counter
12 H = merge-sum( [H1, H2,...] )
13 for all item j in H.keys()
14 Emit(pair [i j], H{j})

應用：文本分析，市場分析
參考資料：Lin J. Dyer C. Hirst G. Data Intensive Processing MapRece
用MapRece 表達關系模式
在這部分我們會討論一下怎麼使用MapRece來進行主要的關系操作。
篩選（Selection）

1 class Mapper
2 method Map(rowkey key, tuple t)
3 if t satisfies the predicate
4 Emit(tuple t, null)

投影（Projection）
投影只比篩選稍微復雜一點，在這種情況下我們可以用Recer來消除可能的重復值。

1 class Mapper
2 method Map(rowkey key, tuple t)
3 tuple g = project(t) // extract required fields to tuple g
4 Emit(tuple g, null)
5
6 class Recer

Ⅶ hadoop怎麼使用演算法

實例一、對以下數據進行排序，根據收入減去支出得到最後結余從大到小排序，數據如下：

SortStep運行之後結果為上圖根據結余從大到小排序。

代碼如下：

[java]view plain

<InfoBean>{
privateStringaccount;
privatedoubleincome;
privatedoubleexpenses;
privatedoublesurplus;
publicvoidset(Stringaccount,doubleincome,doubleexpenses){
this.account=account;
this.income=income;
this.expenses=expenses;
this.surplus=income-expenses;
}
@Override
publicStringtoString(){
returnthis.income+" "+this.expenses+" "+this.surplus;
}
/**
*serialize
*/
publicvoidwrite(DataOutputout)throwsIOException{
out.writeUTF(account);
out.writeDouble(income);
out.writeDouble(expenses);
out.writeDouble(surplus);
}
/**
*deserialize
*/
publicvoidreadFields(DataInputin)throwsIOException{
this.account=in.readUTF();
this.income=in.readDouble();
this.expenses=in.readDouble();
this.surplus=in.readDouble();
}
publicintcompareTo(InfoBeano){
if(this.income==o.getIncome()){
returnthis.expenses>o.getExpenses()?1:-1;
}else{
returnthis.income>o.getIncome()?-1:1;
}
}
publicStringgetAccount(){
returnaccount;
}
publicvoidsetAccount(Stringaccount){
this.account=account;
}
publicdoublegetIncome(){
returnincome;
}
publicvoidsetIncome(doubleincome){
this.income=income;
}
publicdoublegetExpenses(){
returnexpenses;
}
publicvoidsetExpenses(doubleexpenses){
this.expenses=expenses;
}
publicdoublegetSurplus(){
returnsurplus;
}
publicvoidsetSurplus(doublesurplus){
this.surplus=surplus;
}
}

[java]view plain

publicclassSumStep{
publicstaticvoidmain(String[]args)throwsException{
Configurationconf=newConfiguration();
Jobjob=Job.getInstance(conf);
job.setJarByClass(SumStep.class);
job.setMapperClass(SumMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(InfoBean.class);
FileInputFormat.setInputPaths(job,newPath(args[0]));
job.setRecerClass(SumRecer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(InfoBean.class);
FileOutputFormat.setOutputPath(job,newPath(args[1]));
job.waitForCompletion(true);
}
<LongWritable,Text,Text,InfoBean>{
privateInfoBeanbean=newInfoBean();
privateTextk=newText();
@Override
protectedvoidmap(LongWritablekey,Textvalue,Contextcontext)
throwsIOException,InterruptedException{
//split
Stringline=value.toString();
String[]fields=line.split(" ");
//getusefulfield
Stringaccount=fields[0];
doubleincome=Double.parseDouble(fields[1]);
doubleexpenses=Double.parseDouble(fields[2]);
k.set(account);
bean.set(account,income,expenses);
context.write(k,bean);
}
}
<Text,InfoBean,Text,InfoBean>{
privateInfoBeanbean=newInfoBean();
@Override
protectedvoidrece(Textkey,Iterable<InfoBean>v2s,Contextcontext)
throwsIOException,InterruptedException{
doublein_sum=0;
doubleout_sum=0;
for(InfoBeanbean:v2s){
in_sum+=bean.getIncome();
out_sum+=bean.getExpenses();
}
bean.set("",in_sum,out_sum);
context.write(key,bean);
}
}
}

此處的輸入為SumStep的輸出而不是源文件作為輸入，當然也可以將兩個job合並到一起執行，此處不再討論。

[java]view plain

publicclassSortStep{
publicstaticvoidmain(String[]args)throwsIOException,ClassNotFoundException,InterruptedException{
Configurationconf=newConfiguration();
Jobjob=Job.getInstance(conf);
job.setJarByClass(SortStep.class);
job.setMapperClass(SortMapper.class);
job.setMapOutputKeyClass(InfoBean.class);
job.setMapOutputValueClass(NullWritable.class);
FileInputFormat.setInputPaths(job,newPath(args[0]));
job.setRecerClass(SortRecer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(InfoBean.class);
FileOutputFormat.setOutputPath(job,newPath(args[1]));
job.waitForCompletion(true);
}
<LongWritable,Text,InfoBean,NullWritable>{
privateInfoBeanbean=newInfoBean();
@Override
protectedvoidmap(LongWritablekey,Textvalue,Contextcontext)
throwsIOException,InterruptedException{
Stringline=value.toString();
String[]fields=line.split(" ");
Stringaccount=fields[0];
doubleincome=Double.parseDouble(fields[1]);
doubleexpenses=Double.parseDouble(fields[2]);
bean.set(account,income,expenses);
context.write(bean,NullWritable.get());
}
}
<InfoBean,NullWritable,Text,InfoBean>{
privateTextk=newText();
@Override
protectedvoidrece(InfoBeanbean,Iterable<NullWritable>v2s,Contextcontext)
throwsIOException,InterruptedException{
Stringaccount=bean.getAccount();
k.set(account);
context.write(k,bean);
}
}
}

實例二、倒排索引，過程如下：

[plain]view plain

Map階段
<0,"hellotom">
....
context.write("hello->a.txt",1);
context.write("hello->a.txt",1);
context.write("hello->a.txt",1);
context.write("hello->a.txt",1);
context.write("hello->a.txt",1);
context.write("hello->b.txt",1);
context.write("hello->b.txt",1);
context.write("hello->b.txt",1);
--------------------------------------------------------
combiner階段
<"hello->a.txt",1>
<"hello->a.txt",1>
<"hello->a.txt",1>
<"hello->a.txt",1>
<"hello->a.txt",1>
<"hello->b.txt",1>
<"hello->b.txt",1>
<"hello->b.txt",1>
context.write("hello","a.txt->5");
context.write("hello","b.txt->3");
--------------------------------------------------------
Recer階段
<"hello",{"a.txt->5","b.txt->3"}>
context.write("hello","a.txt->5b.txt->3");
-------------------------------------------------------
hello"a.txt->5b.txt->3"
tom"a.txt->2b.txt->1"
kitty"a.txt->1"
.......

代碼如下：

[java]view plain

publicclassInverseIndex{
publicstaticvoidmain(String[]args)throwsException{
Configurationconf=newConfiguration();
Jobjob=Job.getInstance(conf);
//設置jar
job.setJarByClass(InverseIndex.class);
//設置Mapper相關的屬性
job.setMapperClass(IndexMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
FileInputFormat.setInputPaths(job,newPath(args[0]));//words.txt
//設置Recer相關屬性
job.setRecerClass(IndexRecer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
FileOutputFormat.setOutputPath(job,newPath(args[1]));
job.setCombinerClass(IndexCombiner.class);
//提交任務
job.waitForCompletion(true);
}
<LongWritable,Text,Text,Text>{
privateTextk=newText();
privateTextv=newText();
@Override
protectedvoidmap(LongWritablekey,Textvalue,
Mapper<LongWritable,Text,Text,Text>.Contextcontext)
throwsIOException,InterruptedException{
Stringline=value.toString();
String[]fields=line.split("");
FileSplitinputSplit=(FileSplit)context.getInputSplit();
Pathpath=inputSplit.getPath();
Stringname=path.getName();
for(Stringf:fields){
k.set(f+"->"+name);
v.set("1");
context.write(k,v);
}
}
}
<Text,Text,Text,Text>{
privateTextk=newText();
privateTextv=newText();
@Override
protectedvoidrece(Textkey,Iterable<Text>values,
Recer<Text,Text,Text,Text>.Contextcontext)
throwsIOException,InterruptedException{
String[]fields=key.toString().split("->");
longsum=0;
for(Textt:values){
sum+=Long.parseLong(t.toString());
}
k.set(fields[0]);
v.set(fields[1]+"->"+sum);
context.write(k,v);
}
}
<Text,Text,Text,Text>{
privateTextv=newText();
@Override
protectedvoidrece(Textkey,Iterable<Text>values,

Ⅷ hadoop課程設計

1. 大數據專業課程有哪些

首先我們要了解Java語言和Linux操作系統，這兩個是學習大數據的基礎，學習的順序不分前後。
Java ：只要了解一些基礎即可，做大數據不需要很深的Java 技術，學java SE 就相當於有學習大數據。基礎
Linux：因為大數據相關軟體都是在Linux上運行的，所以Linux要學習的扎實一些，學好Linux對你快速掌握大數據相關技術會有很大的幫助，能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置，能少踩很多坑，學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
好說完基礎了，再說說還需要學習哪些大數據技術，可以按我寫的順序學下去。
Hadoop：這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞，所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN，HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面，MapRece是對數據進行處理計算的，它有個特點就是不管多大的數據只要給它時間它就能把數據跑完，但是時間可能不是很快所以它叫數據的批處理。
記住學到這里可以作為你學大數據的一個節點。
Zookeeper：這是個萬金油，安裝Hadoop的HA的時候就會用到它，以後的Hbase也會用到它。它一般用來存放一些相互協作的信息，這些信息比較小一般不會超過1M，都是使用它的軟體對它有依賴，對於我們個人來講只需要把它安裝正確，讓它正常的run起來就可以了。
Mysql：我們學習完大數據的處理了，接下來學習學習小數據的處理工具mysql資料庫，因為一會裝hive的時候要用到，mysql需要掌握到什麼層度那?你能在Linux上把它安裝好，運行起來，會配置簡單的許可權，修改root的密碼，創建資料庫。這里主要的是學習SQL的語法，因為hive的語法和這個非常相似。
Sqoop：這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個，直接把Mysql數據表導出成文件再放到HDFS上也是一樣的，當然生產環境中使用要注意Mysql的壓力。
Hive：這個東西對於會SQL語法的來說就是神器，它能讓你處理大數據變的很簡單，不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie：既然學會Hive了，我相信你一定需要這個東西，它可以幫你管理你的Hive或者MapRece、Spark腳本，還能檢查你的程序是否執行正確，出錯了給你發報警並能幫你重試程序，最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的，不然你看著那一大堆腳本，和密密麻麻的crond是不是有種想屎的感覺。
Hbase：這是Hadoop生態體系中的NOSQL資料庫，他的數據是按照key和value的形式存儲的並且key是唯一的，所以它能用來做數據的排重，它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka：這是個比較好用的隊列工具，隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理，這樣與你協作的其它同學不會叫起來，你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來，你別怪他因為他不是搞大數據的，你可以跟他講我把數據放在隊列里你使用的時候一個個拿，這樣他就不在抱怨了馬上灰流流的去優化他的程序去了，因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS，這時你可以與一個叫Flume的工具配合使用，它是專門用來提供對數據進行簡單處理，並寫到各種數據接受方(比如Kafka)的。
Spark：它是用來彌補基於MapRece處理數據速度上的缺點，它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算，所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它，因為它們都是用JVM的。

2. hadoop視頻教程下載

其實這個課程講的「微博」項目是《HBase in action》中的例子。其中的源代碼都放在 github 上面。

3. 請問哪位有《深入淺出Hadoop實戰開發》的視頻教程

Hadoop是什麼，為什麼要學習Hadoop?

Hadoop是一個分布式系統基礎架構，由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下，開發分布式程序。充分利用集群的威力高速運算和存儲。Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有著高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬體上。而且它提供高傳輸率（high throughput）來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以流的形式訪問（streaming access）文件系統中的數據。
Hadoop 是一個能夠對大量數據進行分布式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的，因為它以並行的方式工作，通過並行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級數據。此外，Hadoop 依賴於社區伺服器，因此它的成本比較低，任何人都可以使用。
Hadoop帶有用Java 語言編寫的框架，因此運行在 Linux 生產平台上是非常理想的。本課程的講解是採用linux平台進行模擬講解，完全基於真實場景進行模擬現實

亮點一:技術點全面,體系完善
本課程在兼顧Hadoop課程知識體系完善的前提下，把實際開發中應用最多、最深、最實用的技術抽取出來，通過本課程，你將達到技術的新高點，進入雲計算的美好世界。在技術方面你將徹底掌握基本的Hadoop集群；Hadoop HDFS原理；Hadoop HDFS基本的命令；Namenode的工作機制；HDFS基本配置管理；MapRece原理； HBase的系統架構；HBase的表結構；HBase如何使用MapRece；MapRece高級編程；split的實現詳解；Hive入門；Hive結合MapRece；Hadoop的集群安裝等眾多知識點。

亮點二:基礎+實戰=應用,兼顧學與練
課程每階段都安排了實戰應用項目,以此方便學生能更快的掌握知識點的應用，如在第一階段,課程結合HDFS應用,講解了圖片伺服器的設計、以及如何利用Java API去對HDFS操作、在第二階段;課程結合HBase實現微博項目的各種功能，使學員可以活學活用。在第三階段:HBase和MapRece結合時下了實現話單查詢與統計系統，在第四階段，Hive實戰部分，通過實戰數據統計系統，使學員在最短的時間內掌握Hive的高級應用。

亮點三:講師豐富的電信集團雲平台運作經驗
講師robby擁有豐富的電信集團工作經驗，目前負責雲平台的各方面工作，並擁有多年的企業內部培訓經驗。講課內容完全貼近企業需求，絕不紙上談兵。

更多技術亮點參考課程大綱:（本大綱以章節形式命名要為防止某些章節1章節內容超過1課時)

第1章節:
> Hadoop背景
> HDFS設計目標
> HDFS不適合的場景
> HDFS架構詳盡分析
> MapRece的基本原理

第2章節
> Hadoop的版本介紹
> 安裝單機版Hadoop
> 安裝Hadoop集群

第3章節
> HDFS命令行基本操作
> Namenode的工作機制
> HDFS基本配置管理

第4章節
> HDFS應用實戰：圖片伺服器(1) - 系統設計
> 應用的環境搭建 php + bootstrap + java
> 使用Hadoop Java API實現向HDFS寫入文件

第5章節
> HDFS應用實戰：圖片伺服器(2)
> 使用Hadoop Java API實現讀取HDFS中的文件
> 使用Hadoop Java API實現獲取HDFS目錄列表
> 使用Hadoop Java API實現刪除HDFS中的文件

第6章節
> MapRece的基本原理
> MapRece的運行過程
> 搭建MapRece的java開發環境
> 使用MapRece的java介面實現WordCount

第7章節
> WordCount運算過程分析
> MapRece的biner
> 使用MapRece實現數據去重
> 使用MapRece實現數據排序
> 使用MapRece實現數據平均成績計算

第8章節
> HBase詳細介紹
> HBase的系統架構
> HBase的表結構，RowKey，列族和時間戳
> HBase中的Master，Region以及Region Server

第9章節
> 使用HBase實現微博應用（1）
> 用戶注冊，登陸和注銷的設計
> 搭建環境 struts2 + jsp + bootstrap + jquery + HBase Java API
> HBase和用戶相關的表結構設計
> 用戶注冊的實現

第10章節
> 使用HBase實現微博應用（2）
> 使用session實現用戶登錄和注銷
> 「關注"功能的設計
> 「關注"功能的表結構設計
> 「關注"功能的實現

第11章節
> 使用HBase實現微博應用（3）
> 「發微博"功能的設計
> 「發微博"功能的表結構設計
> 「發微博"功能的實現
> 展現整個應用的運行

第12章節
> HBase與MapRece介紹
> HBase如何使用MapRece

第13章節
> HBase應用實戰：話單查詢與統計（1）
> 應用的整體設計
> 開發環境搭建
> 表結構設計

第14章節
> HBase應用實戰：話單查詢與統計（2）
> 話單入庫單設計與實現
> 話單查詢的設計與實現

第15章節
> HBase應用實戰：話單查詢與統計（3）
> 統計功能設計
> 統計功能實現

第16章節
> 深入MapRece（1）
> split的實現詳解
> 自定義輸入的實現
> 實例講解

第17章節
> 深入MapRece（2）
> Rece的partition
> 實例講解

第18章節
> Hive入門
> 安裝Hive
> 使用Hive向HDFS存入結構化數據
> Hive的基本使用

第19章節
> 使用MySql作為Hive的元資料庫
> Hive結合MapRece

第20章節
> Hive應用實戰:數據統計（1）
> 應用設計，表結構設計

第21章節
> Hive應用實戰：數據統計（2）
> 數據錄入與統計的實現

4. 哪個課程題庫有hadoop的題

這是在一個平衡Hadoop集群中，為數據節點/任務追蹤器提供的規格：
在一個磁碟陣列中要有12到24個1~4TB硬碟
2個頻率為2~2.5GHz的四核、六核或八核CPU
64~512GB的內存
有保障的千兆或萬兆乙太網（存儲密度越大，需要的網路吞吐量越高）
名位元組點角色負責協調集群上的數據存儲，作業追蹤器協調數據處理（備用的名位元組點不應與集群中的名位元組點共存，並且運行在與之相同的硬體環境上。）。Cloudera客戶購買在RAID1或10配置上有足夠功率和級磁碟數的商用機器來運行名位元組點和作業追蹤器。

NameNode也會直接需要與群集中的數據塊的數量成比列的RAM。一個好的但不精確的規則是對於存儲在分布式文件系統裡面的每一個1百萬的數據塊，分配1GB的NameNode內存。於在一個群集裡面的100個DataNodes而言，NameNode上的64GB的RAM提供了足夠的空間來保證群集的增長。我們也把HA同時配置在NameNode和JobTracker上，
這里就是為NameNode／JobTracker／Standby NameNode節點群的技術細節。驅動器的數量或多或少，將取決於冗餘數量的需要。
4–6 1TB 硬碟驅動器採用一個 JBOD 配置 (1個用於OS, 2個用於文件系統映像[RAID 1], 1個用於Apache ZooKeeper, 1個用於Journal節點)
2 4-/16-/8-核心 CPUs, 至少運行於 2-2.5GHz
64-128GB 隨機存儲器
Bonded Gigabit 乙太網卡 or 10Gigabit 乙太網卡
記住, 在思想上，Hadoop 體系設計為用於一種並行環境。

5. 大數據的課程都有哪些

大數據本身屬於交叉學科，涵蓋計算機、統計學、數學三個學科的專業知識。所以大數據的課程內容，基本上也是圍繞著三個學科展開的。
數理統計方面：數學分析、統計學習、高等代數、離散數學、概率與統計等課程是基本配置。
計算機專業課程：數據結構、數據科學、程序設計、演算法分析與設計、數據計算智能、資料庫系統、計算機系統基礎、並行體系結構與編程、非結構化大數據分析等，也是必備課程。
而想要真正找到工作的話，大數據主流技術框架，也要去補充起來，這才是找工作當中能夠獲得競爭力的加分項。

6. hadoop 集群教程

要教程？不明白你這個啥意思

7. 有哪些好的hadoop學習資料

1."Hadoop.Operations.pdf.zip"//vdisk.weibo/s/vDOQs6xMAQH62
2."Hadoop權威指南(中文版)(帶書簽).pdf"Hadoop權威指南(中文版)(帶書簽).pdf
3."[Hadoop權威指南(第2版)].pdf"[Hadoop權威指南(第2版)].pdf
4."hadoop權威指南第3版2012.rar"hadoop權威指南第3版2012.rar

5.《Hadoop技術內幕：深入解析HadoopCommon和HDFS.pdf"《Hadoop技術內幕：深入解析Hadoop Common和HDFS.pdf
6."Hadoop技術內幕：深入解析MapRece架構設計與實現原理.pdf"Hadoop技術內幕：深入解析MapRece架構設計與實現原理.pdf

7."Hadoop實戰.pdf"Hadoop實戰.pdf
8."Hadoop實戰-陸嘉恆(高清完整版).pdf"Hadoop實戰-陸嘉恆(高清完整版).pdf
9."Hadoop實戰(第2版).pdf"Hadoop實戰(第2版).pdf
10."HadoopinAction.pdf"Hadoop in Action.pdf

11"Hadoop in practice.pdf"Hadoop in practice.pdf
12"HadoopThe.Definitive.Guide,3Ed.pdf"Hadoop The.Definitive.Guide,3Ed.pdf
13."O'Reilly.Hadoop.The.Definitive.Guide.3rd.Edition.May.2012.pdf"O'Reilly.Hadoop.The.Definitive.Guide.3rd.Edition.May.2012.pdf

14."hadoop入門實戰手冊.pdf"hadoop入門實戰手冊.pdf
15."Hadoop入門手冊.chm"Hadoop入門手冊.chm

16."windows下配置cygwin、hadoop等並運行maprece及maprece程序講解.doc"windows下配置cygwin、hadoop等並運行maprece及maprece程序講解.doc
17"在Windows上安裝Hadoop教程.pdf"在Windows上安裝Hadoop教程.pdf

18."Hadoop源代碼分析(完整版).pdf"Hadoop源代碼分析(完整版).pdf
19."hadoop-api.CHM"hadoop-api.CHM

20."HBase-Hadoop@小米.pptx" HBase-Hadoop@小米.pptx
21."但彬-Hadoop平台的大數據整合.pdf"但彬-Hadoop平台的大數據整合.pdf

22."QCon2013-羅李-Hadoop在阿里.pdf"QCon2013-羅李
23."網路hadoop計算技術發展.pdf"網路hadoop計算技術發展.pdf
24."QCon-吳威-基於Hadoop的海量數據平台.pdf"QCon-吳威-基於Hadoop的海量數據平台.pdf
25."8步安裝好你的hadoop.docx"8步安裝好你的hadoop.docx
26."hadoop運維經驗分享.ppsx"hadoop運維經驗分享.ppsx

27."PPT集萃：20位Hadoop專家分享大數據技術工具與最佳實踐.rar"PPT集萃：20位Hadoop專家分享大數據技術工具與最佳實踐.rar
28."Hadoop2.0基本架構和發展趨勢.pdf"Hadoop 2.0基本架構和發展趨勢.pdf
29."Hadoop與大數據技術大會PPT資料.rar"Hadoop與大數據技術大會PPT資料.rar
30."Hadoop2011雲計算大會.rar"Hadoop2011雲計算大會.rar

Ⅸ 如何在hadoop上運行 k-means演算法

可以自己嘗試寫一個分布式的kmeans，也可以部署spark，使用spark-mllib裡面的kmeans
如果對python比較熟悉，可以使用pyspark的mllib
如果只是hadoop，找找mahout演算法包

Ⅹ hadoop上運行演算法，節點越多時間越多

這個問題你得先了解 Hadoop一個Job處理時間大概由哪些因素組成：

處理時間 map rece處理的時間
數據傳輸的時間==》數據的分發，map中間結果的本地寫入，rece端遠程獲取數據的時間
數據分片方面，中間結果的大小
數據的本地性，map和rece在處理本節點的數據時，當然會很快和方面的多了；

綜合上面的，可能還有其他的因素，你去考慮下自己的原因吧，

比如很小的數據集，卻分了很多的數據片，分配了非常多的map或者rece，這明顯是不合理的，很多的時間都浪費在了數據傳輸的過程，畢竟這個過程是很慢的，相對於計算來說。。。。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：836

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1098

python中的init方法發布：2025-10-20 08:17:33 瀏覽：805

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：970

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：859

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1211

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：431

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：312

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：987

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：955

hadoop演算法

與hadoop演算法相關的資訊