sparkforlinux

發布時間: 2022-09-24 19:36:23

A. 如何判斷linux下spark單機版環境已安裝好

B. 在linux下怎麼安裝spark

在windows下安裝軟體大家都覺得很容易，只要雙擊setup或是install的圖標，然後跟著向導一步一步的按提示做就可以了，但是在linux下安裝軟體就不像windows下那樣容易了，有時你找到的是沒有編譯過的軟體源碼，那就更加的麻煩了，這里就介紹一下如何安裝linux的軟體啦！ linux下的軟體一般都是經過壓縮的，主要的格式有這幾種：rpm、tar、tar.gz、tgz等。所以首先拿到軟體後第一件事就是解壓縮。一、在xwindow下以rpm格式的軟體安裝比較容易，只要在把滑鼠移到文件上單擊右鍵，在彈出的菜單里會有專門的三項（只有在右鍵單擊rpm文件才會出現）show info，upgrade和install，這三項的意思大家都很清楚了，我就不多說了。rpm格式說了，接著就是tar，tar.gz，tgz等，在xwindow下雙擊這些格式的文件就會自動解壓縮的，是解壓縮而不是像rpm那樣有install選項的，install文件會在你解壓縮後才出現，不過這里我要先說一下，在你雙擊install前建議先好好看一下readme，因為你所要安裝這些軟體可能是沒有編譯的，所以看一下會比較好。二、說完了xwindow下的安裝和解壓縮，接著說在文本模式下如何解壓縮和安裝，還有編譯源碼了。首先說rpm的，以root身份登陸後（用其他的身份登陸也可以但有些軟體就不能被安裝）鍵入rpm －i你所要解壓縮的文件＋擴展名（當然是rpm）也不是很難吧，這里我要說的是「－i」意思是install，如果你想要卸載或是要執行其他的指令就打rpm －－help，看電腦給你的提示吧，為了照顧那些E文不太好的人我這里就寫幾個常用的參數：－e：卸載相關的應用程序，－U（注意是大寫）：升級軟體包，－pql：列出rpm軟體包的相關信息，－qf：查找指定文件屬於哪個軟體包。至於那些其他格式的軟體則可以用gunzip，gzip，tar和unzip等指令來解壓縮，然後再運行install。通過解包後會得到一些文件，然後進入剛才解壓縮後文件目錄用「ls －F －color」指令看一下所得到的文件，一般有兩種情況：第一種是文件為已經編譯好的程序（無須再編譯了）用上面的察看文件命令會以帶「＊」標記的亮綠色顯示；第二種則是需要由你自己編譯的源代碼。得到的是源代碼的話，就需要我們自己編譯來得到可運行的程序。編譯源代碼聽到編譯是不是就嚇到你了呢，其實說穿了也就加上幾句話而已，對初學者是有些困難想用好的操作系統就需要學習嘛，等你學會了在MM前露一手的時候想想吧……，在編譯之前先要認真的閱讀一下readme文檔，老鳥們就不需要了吧，等你閱讀完了以後就執行 ./configure make make install（只有Root身份才能執行此命令），編譯完成之後便會在當前目錄或src子目錄下得到軟體的可執行程序。介紹完了，大家是不是覺的RPM的軟體安裝比較容易一點呢，但我個人意見初學者還是多選擇RPM格式以外的軟體，因為通過編譯軟體的源碼可以為你以後編譯內核打下一定的基礎。

C. linux怎樣查看spark運行狀態

Spark的Web監控頁面在SparkContext中可以看到如下代碼：首先是創建一個Spark Application的Web監控實例對象：然後bind方法會綁定一個web伺服器：可以看出我們使用Jetty伺服器來監控程序的運行和顯示Spark集群的信息的。

D. 如何在Linux環境下構建Spark的IDEA開發環境

注意，客戶端和虛擬集群中hadoop、spark、scala的安裝目錄是一致的，這樣開發的spark應用程序的時候不需要打包spark開發包和scala的庫文件，減少不必要的網路IO和磁碟IO。當然也可以不一樣，不過在使用部署工具spark-submit的時候需要參數指明classpath。
1：IDEA的安裝
官網jetbrains.com下載IntelliJ IDEA，有Community Editions 和& Ultimate Editions，前者免費，用戶可以選擇合適的版本使用。
根據安裝指導安裝IDEA後，需要安裝scala插件，有兩種途徑可以安裝scala插件：
啟動IDEA -> Welcome to IntelliJ IDEA -> Configure -> Plugins -> Install JetBrains plugin... -> 找到scala後安裝。
啟動IDEA -> Welcome to IntelliJ IDEA -> Open Project -> File -> Settings -> plugins -> Install JetBrains plugin... -> 找到scala後安裝。

如果你想使用那種酷酷的黑底界面，在File -> Settings -> Appearance -> Theme選擇Darcula，同時需要修改默認字體，不然菜單中的中文字體不能正常顯示。

E. Linux裡面spark作用是什麼

Spark是通用數據處理引擎，適用於多種情況。應用程序開發人員和數據科學家將Spark集成到他們的應用程序中，以快速地大規模查詢，分析和轉換數據。與Spark最頻繁相關的任務包括跨大型數據集的互動式查詢，來自感測器或金融系統的流數據處理以及機器學習任務。
Spark於2009年開始運作，最初是加州大學伯克利分校AMPLab內部的一個項目。更具體地說，它是出於證明Mesos概念的需要而誕生的，Mesos概念也是在AMPLab中創建的。在Mesos白皮書《 Mesos：數據中心中的細粒度資源共享平台》中首次討論了Spark，其中最著名的作者是Benjamin Hindman和Matei Zaharia。
2013年，Spark成為Apache Software Foundation的孵化項目，並於2014年初被提升為該基金會的頂級項目之一。 Spark是基金會管理的最活躍的項目之一，圍繞該項目成長的社區包括多產的個人貢獻者和資金雄厚的企業支持者，例如Databricks，IBM和中國的華為。
從一開始，Spark就被優化為在內存中運行。它比Hadoop的MapRece等替代方法更快地處理數據，後者傾向於在處理的每個階段之間向計算機硬碟寫入數據或從計算機硬碟寫入數據。 Spark的支持者聲稱，Spark在內存中的運行速度可以比Hadoop MapRece快100倍，並且在以類似於Hadoop MapRece本身的方式處理基於磁碟的數據時也可以快10倍。這種比較並不完全公平，這不僅是因為原始速度對Spark的典型用例而言比對批處理更為重要，在這種情況下，類似於MapRece的解決方案仍然很出色。

F. linuxspark數據超過內存大小

在執行task之前先進行repartition，有時候由於key的分布極不均勻，repartition解決不了數據傾斜問題，可以使用PartitionBy方法，自定義partition的分區方式。
數據之間的join往往很耗費資源，執行時間較長甚至引起任務失敗，一般來說應盡量避免，比如，如果其中一個rdd數據量比較小，可以先collect，然後廣播到各個excutor。
如果不能避免，在join之前，兩個RDD應該分別進行repartition操作，並且partition的數量與分區方法一致，這樣在join的時候就不會出現大量的數據shuffle。

G. 在linux操作系統下安裝scalar和spark,下載的文件後綴是什麼

在linux裡面裝軟體不要指望見到下一步這個詞，.rpm的文件用rpm軟體包管理器安裝，系統里的幫助文檔有詳細說明。.deb的文件也有自己的安裝方法，參考幫助文檔。還有源碼包，一般以.tar.gz和.tar.bz2為後綴，用tar加不同的參數解壓後進入源碼目錄

H. 在linux上如何配置spark環境，在linux上安裝scala和spark老是失敗

方法/步驟

首先你的機器安裝了jdk，我的新機器，所以早上剛在centos上折騰了jdk，沒有的也可以去參考下
下載安裝包
scala-2.11.4.tgz
spark-1.2.0-bin-hadoop2.4.tgz
後面的包忘了之前哪找的了，需要的可以私我。將包傳到伺服器，解壓
tar zxvf scala-2.11.4.tgz
tar zxvf spark-1.2.0-bin-hadoop2.4.tgz

配置環境變數
vim /etc/profile
加上以下對應內容：
export JAVA_HOME=/home/yy/jdk1.8
export SCALA_HOME=/home/yy/scala
export SPARK_HOME=/home/yy/spark-1.2.0-bin-hadoop2.4
export PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin
執行source /etc/profile使配置生效

修改spark配置
進入spark-1.2.0-bin-hadoop2.4/conf
復制模板文件：
cp spark-env.sh.template spark-env.sh
cp slaves.template slaves

編輯spark-env.sh
添加上你的對應信息：
export JAVA_HOME=/home/yy/jdk1.8
export SCALA_HOME=/home/yy/scala
export SPARK_MASTER_IP=172.20.0.204
export SPARK_WORKER_MEMORY=2g
export HADOOP_CONF_DIR=/home/yy/spark-1.2.0-bin-hadoop2.4/conf

編輯slaves
添加上你的對應信息，所有的集群的機器：
172.20.0.204
172.20.0.205

到此為止，前面所有的安裝配置動作，在你的另一個機器上(所有的slave機器)同樣的做一遍，即我這里的205機器

進入spark-1.2.0-bin-hadoop2.4/sbin/目錄
執行：./start-all.sh
如果沒有設置ssh免密碼登陸，會要求輸入密碼
這時候jps查看多了個master和worker

瀏覽器查看集群信息
master地址+8080埠

啟動Running Applications
在bin目錄下執行：
MASTER=spark://172.20.0.204:7077 ./spark-shell
這時候就可以看到運行的app啦

同時可以查看jobs內容

slave機器上也運行app，這時候就可以看到運行的applications有兩個啦。

好了，環境就算先搭起來啦，後面就是去調用吧。

http://jingyan..com/article/7e440953308f122fc0e2ef81.html

I. linux的怎麼停止spark

如果spark-submit中--master指定yarn，則需要啟動yarn也可以指定stand-alone方式，或者mesos方式，不一定非yarn不可

J. spark怎麼連接linux上的hdfs

默認是從hdfs讀取文件，也可以指定sc.textFile("路徑").在路徑前面加上hdfs://表示從hdfs文件系統上讀
本地文件讀取 sc.textFile("路徑").在路徑前面加上file:// 表示從本地文件系統讀，如file:///home/user/spark/README.md

閱讀全文

熱點內容

怎麼知道支付寶密碼發布：2025-09-17 07:12:37 瀏覽：422

壓縮性判斷句發布：2025-09-17 07:11:44 瀏覽：140

php金額格式化發布：2025-09-17 06:47:11 瀏覽：38

什麼是工作站伺服器發布：2025-09-17 06:45:03 瀏覽：188

d盤無法訪問參數不正確發布：2025-09-17 06:30:36 瀏覽：470

為什麼徵兵網無法訪問發布：2025-09-17 06:19:31 瀏覽：376

mysqlsql語句變數賦值發布：2025-09-17 06:19:26 瀏覽：37

真我3i什麼配置發布：2025-09-17 06:17:59 瀏覽：141

輸入有效的伺服器地址ip 發布：2025-09-17 06:17:26 瀏覽：440

德育源碼發布：2025-09-17 06:16:00 瀏覽：106

sparkforlinux

與sparkforlinux相關的資訊