jiebajava

發布時間: 2022-02-22 03:18:17

1. 大數據處理為什麼要用python

大數據的數據從哪裡來?除了部分企業有能力自己產生大量的數據，大部分時候，是需要靠爬蟲來抓取互聯網數據來做分析。
網路爬蟲是Python的傳統強勢領域，最流行的爬蟲框架Scrapy，HTTP工具包urlib2，HTML解析工具beautifulsoup，XML解析器lxml，等等，都是能夠獨當一面的類庫。
不過，網路爬蟲並不僅僅是打開網頁，解析HTML這么簡單。高效的爬蟲要能夠支持大量靈活的並發操作，常常要能夠同時幾千甚至上萬個網頁同時抓取，傳統的線程池方式資源浪費比較大，線程數上千之後系統資源基本上就全浪費在線程調度上了。Python由於能夠很好的支持協程(Coroutine)操作，基於此發展起來很多並發庫，如Gevent，Eventlet，還有Celery之類的分布式任務框架。被認為是比AMQP更高效的ZeroMQ也是最早就提供了Python版本。有了對高並發的支持，網路爬蟲才真正可以達到大數據規模。
抓取下來的數據，需要做分詞處理，Python在這方面也不遜色，著名的自然語言處理程序包NLTK，還有專門做中文分詞的Jieba，都是做分詞的利器。
數據處理
萬事俱備，只欠東風。這東風，就是數據處理演算法。從統計理論，到數據挖掘，機器學習，再到最近幾年提出來的深度學習理論，數據科學正處於百花齊放的時代。數據科學家們都用什麼編程?
如果是在理論研究領域，R語言也許是最受數據科學家歡迎的，但是R語言的問題也很明顯，因為是統計學家們創建了R語言，所以其語法略顯怪異。而且R語言要想實現大規模分布式系統，還需要很長一段時間的工程之路要走。所以很多公司使用R語言做原型試驗，演算法確定之後，再翻譯成工程語言。
Python也是數據科學家最喜歡的語言之一。和R語言不同，Python本身就是一門工程性語言，數據科學家用Python實現的演算法，可以直接用在產品中，這對於大數據初創公司節省成本是非常有幫助的。正式因為數據科學家對Python和R的熱愛，Spark為了討好數據科學家，對這兩種語言提供了非常好的支持。
Python的數據處理相關類庫非常多。高性能的科學計算類庫NumPy和SciPy，給其他高級演算法打了非常好的基礎，matploglib讓Python畫圖變得像Matlab一樣簡單。Scikit-learn和Milk實現了很多機器學習演算法，基於這兩個庫實現的Pylearn2，是深度學習領域的重要成員。Theano利用GPU加速，實現了高性能數學符號計算和多維矩陣計算。當然，還有Pandas，一個在工程領域已經廣泛使用的大數據處理類庫，其DataFrame的設計借鑒自R語言，後來又啟發了Spark項目實現了類似機制。
對了，還有iPython，這個工具如此有用，以至於差點把他當成標准庫而忘了介紹。iPython是一個互動式Python運行環境，能夠實時看到每一段Python代碼的結果。默認情況下，iPython運行在命令行，可以執行ipython notebook在網頁中運行。用matplotlib繪制的圖可以直接嵌入式的顯示在iPython Notebook中。
iPython Notebook的筆記本文件可以共享給其他人，這樣其他人就可以在自己的環境中重現你的工作成果;如果對方沒有運行環境，還可以直接轉換成HTML或者PDF。
為什麼是Python
正是因為應用開發工程師、運維工程師、數據科學家都喜歡Python，才使得Python成為大數據系統的全棧式開發語言。
對於開發工程師而言，Python的優雅和簡潔無疑是最大的吸引力，在Python互動式環境中，執行import this，讀一讀Python之禪，你就明白Python為什麼如此吸引人。Python社區一直非常有活力，和NodeJS社區軟體包爆炸式增長不同，Python的軟體包增長速度一直比較穩定，同時軟體包的質量也相對較高。有很多人詬病Python對於空格的要求過於苛刻，但正是因為這個要求，才使得Python在做大型項目時比其他語言有優勢。OpenStack項目總共超過200萬行代碼，證明了這一點。
對於運維工程師而言，Python的最大優勢在於，幾乎所有Linux發行版都內置了Python解釋器。Shell雖然功能強大，但畢竟語法不夠優雅，寫比較復雜的任務會很痛苦。用Python替代Shell，做一些復雜的任務，對運維人員來說，是一次解放。
對於數據科學家而言，Python簡單又不失強大。和C/C++相比，不用做很多的底層工作，可以快速進行模型驗證;和java相比，Python語法簡潔，表達能力強，同樣的工作只需要1/3代碼;和Matlab，Octave相比，Python的工程成熟度更高。不止一個編程大牛表達過，Python是最適合作為大學計算機科學編程課程使用的語言——MIT的計算機入門課程就是使用的Python——因為Python能夠讓人學到編程最重要的東西——如何解決問題。

2. 怎麼是用python 語言使用結巴分詞呢

Python代碼

#encoding=utf-8
importjieba

seg_list=jieba.cut("我來到北京清華大學",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式

seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默認模式

seg_list=jieba.cut("他來到了網易杭研大廈")
print",".join(seg_list)

輸出：

FullMode:我/來/來到/到/北/北京/京/清/清華/清華大學/華/華大/大/大學/學

DefaultMode:我/來到/北京/清華大學

他,來到,了,網易,杭研,大廈(此處，「杭研」並沒有在詞典中，但是也被Viterbi演算法識別出來了)

3. python新手幾個疑問

1 指定了.py 文件的執行器之後就可以雙擊執行(一閃而過是因為執行太快)；任何時候都能用命令行執行；沒有隻能用 python<文件名>執行的情況至少我沒碰到過
2 可以只要你的代碼嚴格符合python的格式就行,但是我想不到比回車更方便的換行操作
3 參考這里 http://..com/link?url=HuOVl-AP-7gqxN2K
4 不能省略（當然靜態方法可以省略類方法也可以省略變成cls 而已）不清楚 python不是自帶垃圾回收么？
5 參考 java的匿名內部類說穿了就是保持類的高度內聚
6 list里的元素類型都可以不同當然可以相同

4. 互聯網 java python 都用什麼開發

#做網站後台
Python在網站後台這邊有大量的成熟的框架，如django，flask，bottle，tornado，我曾經用過flask和django搭建了的兩個網站已經上線

#寫網路爬蟲
Python寫爬蟲非常簡單，庫很健全

以下是我寫的一些爬蟲教程和心得
/post/17

/post/18

#科學計算
Python有三大神器：numpy,scipy,matplotlib,其中numpy很多底層使用C語言實現的，所以速度很快，我曾經用它參加各種數學建模大賽，完全可以替代r語言和MATLAB

以下是我寫的科學計算簡單教程
/post/16

#數據挖掘，機器學習
Python
的機器學習包很多，或者自己可以試著實現機器學習演算法，因為Python的類似偽代碼的語法，很容易快速實現自己的想法，另外主流的機器學習演算法都有成熟
的包，加上谷歌開源的TensorFlow，常用的機器學習包：scikit-learn,pattern,jieba，pybrain等等

#數據科學
最近spark，Hadoop都開了Python的介面，所以使用Python做大數據的maprece也非常簡單，加上py對資料庫支持都很好，或者類似sqlalchemy的orm也非常強大好用

以及剩下的碼演算法，玩玩樹莓派什麼的我就不多說了，

py的強大其實在於他能迅速的實現想法

5. java工程師一般用python做什麼知乎

#做網站後台
Python在網站後台這邊有大量的成熟的框架，如django，flask，bottle，tornado，我曾經用過flask和django搭建了的兩個網站已經上線

http://zhaixueshe.com
http://aljun.me

#寫網路爬蟲
Python寫爬蟲非常簡單，庫很健全

以下是我寫的一些爬蟲教程和心得
http://aljun.me/post/17

http://aljun.me/post/18

#科學計算
Python有三大神器：numpy,scipy,matplotlib,其中numpy很多底層使用C語言實現的，所以速度很快，我曾經用它參加各種數學建模大賽，完全可以替代r語言和MATLAB

以下是我寫的科學計算簡單教程
http://aljun.me/post/16

#數據挖掘，機器學習
Python
的機器學習包很多，或者自己可以試著實現機器學習演算法，因為Python的類似偽代碼的語法，很容易快速實現自己的想法，另外主流的機器學習演算法都有成熟
的包，加上谷歌開源的TensorFlow，常用的機器學習包：scikit-learn,pattern,jieba，pybrain等等

#數據科學
最近spark，Hadoop都開了Python的介面，所以使用Python做大數據的maprece也非常簡單，加上py對資料庫支持都很好，或者類似sqlalchemy的orm也非常強大好用

以及剩下的碼演算法，玩玩樹莓派什麼的我就不多說了，

py的強大其實在於他能迅速的實現想法

6. windows 中elasticsearch jieba 分詞安裝插件怎麼裝

Elasticsearch是一個全文搜索引擎。安裝Elasticsearch時需要先安裝Java。要求的jdk版本1.7以上的。以下是官方文檔：.Specificallyasofthiswriting,

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1084

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1362

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1047

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1223

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1090

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1442

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：648

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：545

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1221

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1244

jiebajava

與jiebajava相關的資訊