當前位置:首頁 » 編程語言 » python數據分析的工具

python數據分析的工具

發布時間: 2023-01-29 15:18:04

A. python數據分析用什麼軟體

Python是數據處理常用工具,可以處理數量級從幾K至幾T不等的數據,具有較高的開發效率和可維護性,還具有較強的通用性和跨平台性,這里就為大家分享幾個不錯的數據分析工具。Python數據分析需要安裝的第三方擴展庫有:Numpy、Pandas、SciPy、Matplotpb、Scikit-Learn、Keras、Gensim、Scrapy等,以下是第三方擴展庫的簡要介紹:(推薦學習:Python視頻教程)
1. Pandas
Pandas是Python強大、靈活的數據分析和探索工具,包含Series、DataFrame等高級數據結構和工具,安裝Pandas可使Python中處理數據非常快速和簡單。
Pandas是Python的一個數據分析包,Pandas最初被用作金融數據分析工具而開發出來,因此Pandas為時間序列分析提供了很好的支持。
Pandas是為了解決數據分析任務而創建的,Pandas納入了大量的庫和一些標準的數據模型,提供了高效的操作大型數據集所需要的工具。Pandas提供了大量是我們快速便捷的處理數據的函數和方法。Pandas包含了高級數據結構,以及讓數據分析變得快速、簡單的工具。它建立在Numpy之上,使得Numpy應用變得簡單。
帶有坐標軸的數據結構,支持自動或明確的數據對齊。這能防止由於數據結構沒有對齊,以及處理不同來源、採用不同索引的數據而產生的常見錯誤。
使用Pandas更容易處理丟失數據。合並流行資料庫(如:基於SQL的資料庫)Pandas是進行數據清晰/整理的最好工具。
2. Numpy
Python沒有提供數組功能,Numpy可以提供數組支持以及相應的高效處理函數,是Python數據分析的基礎,也是SciPy、Pandas等數據處理和科學計算庫最基本的函數功能庫,且其數據類型對Python數據分析十分有用。
Numpy提供了兩種基本的對象:ndarray和ufunc。ndarray是存儲單一數據類型的多維數組,而ufunc是能夠對數組進行處理的函數。Numpy的功能:
N維數組,一種快速、高效使用內存的多維數組,他提供矢量化數學運算。可以不需要使用循環,就能對整個數組內的數據進行標准數學運算。非常便於傳送數據到用低級語言編寫(CC++)的外部庫,也便於外部庫以Numpy數組形式返回數據。
Numpy不提供高級數據分析功能,但可以更加深刻的理解Numpy數組和面向數組的計算。
3. Matplotpb
Matplotpb是強大的數據可視化工具和作圖庫,是主要用於繪制數據圖表的Python庫,提供了繪制各類可視化圖形的命令字型檔、簡單的介面,可以方便用戶輕松掌握圖形的格式,繪制各類可視化圖形。
Matplotpb是Python的一個可視化模塊,他能方便的只做線條圖、餅圖、柱狀圖以及其他專業圖形。 使用Matplotpb,可以定製所做圖表的任一方面。他支持所有操作系統下不同的GUI後端,並且可以將圖形輸出為常見的矢量圖和圖形測試,如PDF SVG JPG PNG BMP GIF.通過數據繪圖,我們可以將枯燥的數字轉化成人們容易接收的圖表。 Matplotpb是基於Numpy的一套Python包,這個包提供了吩咐的數據繪圖工具,主要用於繪制一些統計圖形。 Matplotpb有一套允許定製各種屬性的默認設置,可以控制Matplotpb中的每一個默認屬性:圖像大小、每英寸點數、線寬、色彩和樣式、子圖、坐標軸、網個屬性、文字和文字屬性。
4. SciPy
SciPy是一組專門解決科學計算中各種標准問題域的包的集合,包含的功能有最優化、線性代數、積分、插值、擬合、特殊函數、快速傅里葉變換、信號處理和圖像處理、常微分方程求解和其他科學與工程中常用的計算等,這些對數據分析和挖掘十分有用。
Scipy是一款方便、易於使用、專門為科學和工程設計的Python包,它包括統計、優化、整合、線性代數模塊、傅里葉變換、信號和圖像處理、常微分方程求解器等。Scipy依賴於Numpy,並提供許多對用戶友好的和有效的數值常式,如數值積分和優化。
Python有著像Matlab一樣強大的數值計算工具包Numpy;有著繪圖工具包Matplotpb;有著科學計算工具包Scipy。 Python能直接處理數據,而Pandas幾乎可以像SQL那樣對數據進行控制。Matplotpb能夠對數據和記過進行可視化,快速理解數據。Scikit-Learn提供了機器學習演算法的支持,Theano提供了升讀學習框架(還可以使用CPU加速)。
5. Keras
Keras是深度學習庫,人工神經網路和深度學習模型,基於Theano之上,依賴於Numpy和Scipy,利用它可以搭建普通的神經網路和各種深度學習模型,如語言處理、圖像識別、自編碼器、循環神經網路、遞歸審計網路、卷積神經網路等。
6. Scikit-Learn
Scikit-Learn是Python常用的機器學習工具包,提供了完善的機器學習工具箱,支持數據預處理、分類、回歸、聚類、預測和模型分析等強大機器學習庫,其依賴於Numpy、Scipy和Matplotpb等。
Scikit-Learn是基於Python機器學習的模塊,基於BSD開源許可證。 Scikit-Learn的安裝需要Numpy S Matplotpb等模塊,Scikit-Learn的主要功能分為六個部分,分類、回歸、聚類、數據降維、模型選擇、數據預處理。
Scikit-Learn自帶一些經典的數據集,比如用於分類的iris和digits數據集,還有用於回歸分析的boston house prices數據集。該數據集是一種字典結構,數據存儲在.data成員中,輸出標簽存儲在.target成員中。Scikit-Learn建立在Scipy之上,提供了一套常用的機器學習演算法,通過一個統一的介面來使用,Scikit-Learn有助於在數據集上實現流行的演算法。 Scikit-Learn還有一些庫,比如:用於自然語言處理的Nltk、用於網站數據抓取的Scrappy、用於網路挖掘的Pattern、用於深度學習的Theano等。
7. Scrapy
Scrapy是專門為爬蟲而生的工具,具有URL讀取、HTML解析、存儲數據等功能,可以使用Twisted非同步網路庫來處理網路通訊,架構清晰,且包含了各種中間件介面,可以靈活的完成各種需求。
8. Gensim
Gensim是用來做文本主題模型的庫,常用於處理語言方面的任務,支持TF-IDF、LSA、LDA和Word2Vec在內的多種主題模型演算法,支持流式訓練,並提供了諸如相似度計算、信息檢索等一些常用任務的API介面。
更多Python相關技術文章,請訪問Python教程欄目進行學習!以上就是小編分享的關於python數據分析用什麼軟體的詳細內容希望對大家有所幫助,更多有關python教程請關注環球青藤其它相關文章!

B. python工具有哪些

第一款:最強終端 Upterm
它是一個全平台的終端,可以說是終端里的IDE,有著強大的自動補全功能,之前的名字叫作:BlackWindow。有人跟他說這個名字不利於社區推廣,改名叫Upterm之後現在已經17000+Star了。
第二款:互動式解釋器 PtPython
一個互動式的Python解釋器,支持語法高亮、提示,甚至是VIM和emacs的鍵入模式。
第三款:包管理必備 Anaconda
強烈推薦:Anaconda。它能幫你安裝許多麻煩的東西,包括:Python環境、pip包管理工具、常用的庫、配置好環境路徑等等。這些小事情小白自己一個個去做的話,容易遇到各種問題,也容易造成挫敗感。如果你想用Python搞數據方面的事情,安裝它就可以了,它甚至開發了一套JIT的解釋器Numba。所以Anaconda有了JIT之後,對線上科學計算效率要求比較高的東西也可以搞定了。
第四款:編輯器 Sublime3
如果你是小白的話,推薦從PyCharm開始上手,但是有時候寫一些輕量的小腳本,就會想到輕量級一點的工具。Sublime3很多地方都有了極大的提升,並且用起來比原來還要簡單,配合安裝Anaconda或CodeIntel插件,可以讓Sublime3擁有近乎IDE的體驗。
第五款:前端在線編輯器 CodeSandbox
雖然這個不算是真正意義上的Python開發工具,但如果後端工程師想要寫前端的話,這個在線編輯器太方便了,節省了後端工程師的生命。不用安裝npm的幾千個包了,它已經在雲端完成了,才讓你直接就可以上手寫代碼、看效果。對於React、Vue這些主流前端框架都支持。
第六款:Python Tutor
Python
Tutor是一個免費教育工具,可幫助學生攻克編程學習中的基礎障礙,理解每一行源代碼在程序執行時在計算機中的過程。通過這個工具,教師或學生可以直接在web瀏覽器中編寫Python代碼,並逐步可視化地運行程序。
第七款:IPython
如何進行互動式編程?沒錯,就是通過IPython。IPython相對於Python自帶的shell要好用的多,並且能夠支持代碼縮進、TAB鍵補全代碼等功能。如果進行互動式編程,這是不可缺少的工具。
第八款:Jupyter Notebook
Jupyter
Notebook就像一個草稿本,能將文本注釋、數學方程、代碼和可視化內容全部組合到一個易於共享的文檔中,以Web頁面的方式展示,它是數據分析、機器學習的必備工具。
第九款:Pycharm
Pycharm是程序員常常使用的開發工具,簡單、易用,並且能夠設置不同的主題模式,根據自己的喜好來設置代碼風格。
第十款:Python Tutor
這個工具可能對初學者比較有用,而對於中高級程序員則用處較少。這個工具的特色是能夠清楚的理解每一行代碼是如何在計算機中執行的,中高級程序員一般通過分步調試可以實現類似的功能。這個工具對於最初接觸Python、最初來學習編程的同學還是非常有用的,初學者可以體驗一下。

C. python做數據分析需要哪些庫

常用的科學計算庫:numpy,pandas
正則表達式庫:re

D. 數據分析工具有哪些 python

IPython


IPython 是一個在多種編程語言之間進行交互計算的命令行 shell,最開始是用 python 開發的,提供增強的內省,富媒體,擴展的 shell
語法,tab 補全,豐富的歷史等功能。IPython 提供了如下特性:

更強的交互 shell(基於 Qt 的終端)

一個基於瀏覽器的記事本,支持代碼,純文本,數學公式,內置圖表和其他富媒體

支持交互數據可視化和圖形界面工具

靈活,可嵌入解釋器載入到任意一個自有工程里

簡單易用,用於並行計算的高性能工具

由數據分析總監,Galvanize 專家 Nir Kaldero 提供。



GraphLab Greate 是一個 Python 庫,由 C++ 引擎支持,可以快速構建大型高性能數據產品。

這有一些關於 GraphLab Greate 的特點:

可以在您的計算機上以交互的速度分析以 T 為計量單位的數據量。

在單一平台上可以分析表格數據、曲線、文字、圖像。

最新的機器學習演算法包括深度學習,進化樹和 factorization machines 理論。

可以用 Hadoop Yarn 或者 EC2 聚類在你的筆記本或者分布系統上運行同樣的代碼。

藉助於靈活的 API 函數專注於任務或者機器學習。

在雲上用預測服務便捷地配置數據產品。

為探索和產品監測創建可視化的數據。

由 Galvanize 數據科學家 Benjamin Skrainka 提供。

Pandas

pandas 是一個開源的軟體,它具有 BSD 的開源許可,為 Python
編程語言提供高性能,易用數據結構和數據分析工具。在數據改動和數據預處理方面,Python 早已名聲顯赫,但是在數據分析與建模方面,Python
是個短板。Pands 軟體就填補了這個空白,能讓你用 Python 方便地進行你所有數據的處理,而不用轉而選擇更主流的專業語言,例如 R 語言。

整合了勁爆的 IPyton 工具包和其他的庫,它在 Python 中進行數據分析的開發環境在處理性能,速度,和兼容方面都性能卓越。Pands
不會執行重要的建模函數超出線性回歸和面板回歸;對於這些,參考 statsmodel 統計建模工具和 scikit-learn 庫。為了把 Python
打造成頂級的統計建模分析環境,我們需要進一步努力,但是我們已經奮斗在這條路上了。

由 Galvanize 專家,數據科學家 Nir Kaldero 提供。

PuLP

線性編程是一種優化,其中一個對象函數被最大程度地限制了。PuLP 是一個用 Python
編寫的線性編程模型。它能產生線性文件,能調用高度優化的求解器,GLPK,COIN CLP/CBC,CPLEX,和GUROBI,來求解這些線性問題。

由 Galvanize 數據科學家 Isaac Laughlin 提供

Matplotlib



matplotlib 是基於 Python 的
2D(數據)繪圖庫,它產生(輸出)出版級質量的圖表,用於各種列印紙質的原件格式和跨平台的互動式環境。matplotlib 既可以用在 python 腳本,
python 和 ipython 的 shell 界面 (ala MATLAB? 或 Mathematica?),web 應用伺服器,和6類 GUI
工具箱。

matplotlib 嘗試使容易事情變得更容易,使困難事情變為可能。你只需要少量幾行代碼,就可以生成圖表,直方圖,能量光譜(power
spectra),柱狀圖,errorcharts,散點圖(scatterplots)等,。

為簡化數據繪圖,pyplot 提供一個類 MATLAB 的介面界面,尤其是它與 IPython
共同使用時。對於高級用戶,你可以完全定製包括線型,字體屬性,坐標屬性等,藉助面向對象介面界面,或項 MATLAB 用戶提供類似(MATLAB)的界面。

Galvanize 公司的首席科學官 Mike Tamir 供稿。

Scikit-Learn



Scikit-Learn 是一個簡單有效地數據挖掘和數據分析工具(庫)。關於最值得一提的是,它人人可用,重復用於多種語境。它基於
NumPy,SciPy 和 mathplotlib 等構建。Scikit 採用開源的 BSD 授權協議,同時也可用於商業。Scikit-Learn
具備如下特性:

分類(Classification) – 識別鑒定一個對象屬於哪一類別

回歸(Regression) – 預測對象關聯的連續值屬性

聚類(Clustering) – 類似對象自動分組集合

降維(Dimensionality Rection) – 減少需要考慮的隨機變數數量

模型選擇(Model Selection) –比較、驗證和選擇參數和模型

預處理(Preprocessing) – 特徵提取和規范化

Galvanize 公司數據科學講師,Isaac Laughlin提供

Spark



Spark 由一個驅動程序構成,它運行用戶的 main 函數並在聚類上執行多個並行操作。Spark
最吸引人的地方在於它提供的彈性分布數據集(RDD),那是一個按照聚類的節點進行分區的元素的集合,它可以在並行計算中使用。RDDs 可以從一個 Hadoop
文件系統中的文件(或者其他的 Hadoop 支持的文件系統的文件)來創建,或者是驅動程序中其他的已經存在的標量數據集合,把它進行變換。用戶也許想要 Spark
在內存中永久保存 RDD,來通過並行操作有效地對 RDD 進行復用。最終,RDDs 無法從節點中自動復原。

Spark 中第二個吸引人的地方在並行操作中變數的共享。默認情況下,當 Spark
在並行情況下運行一個函數作為一組不同節點上的任務時,它把每一個函數中用到的變數拷貝一份送到每一任務。有時,一個變數需要被許多任務和驅動程序共享。Spark
支持兩種方式的共享變數:廣播變數,它可以用來在所有的節點上緩存數據。另一種方式是累加器,這是一種只能用作執行加法的變數,例如在計數器中和加法運算中。

E. python 數據挖掘需要用哪些庫和工具

python 數據挖掘常用的庫太多了!主要分為以下幾大類:
第一數據獲取:request,BeautifulSoup
第二基本數學庫:numpy
第三 資料庫出路 pymongo
第四 圖形可視化 matplotlib
第五 樹分析基本的庫 pandas

數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘本質上像是機器學習和人工智慧的基礎,它的主要目的是從各種各樣的數據來源中,提取出超集的信息,然後將這些信息合並讓你發現你從來沒有想到過的模式和內在關系。這就意味著,數據挖掘不是一種用來證明假說的方法,而是用來構建各種各樣的假說的方法。

想要了解更多有關python 數據挖掘的信息,可以了解一下CDA數據分析師的課程。CDA數據分析師證書的含金量是很高的,簡單從兩個方面分析一下:首先是企業對於CDA的認可,經管之家CDA LEVEL Ⅲ數據科學家認證證書,屬於行業頂尖的人才認證,已獲得IBM大數據大學,中國電信,蘇寧,德勤,獵聘,CDMS等企業的認可。CDA證書逐漸獲得各企業用人單位認可與引進,如中國電信、中國移動、德勤,蘇寧,中國銀行,重慶統計局等。點擊預約免費試聽課。

F. 圖解Python中數據分析工具包:Numpy

numpy是我學習python遇到的第一個第三方工具包,它可以讓我們快速上手數據分析。numpy提供了向量和矩陣計算和處理的大部分介面。目前很多python的基礎工具包都是基於numpy開發而來,比如 scikit-learn, SciPy, pandas, 還有 tensorflow。 numpy可以處理表格、圖像、文本等數據,極大地方便我們處理和分析數據。本文主要內容來自於Jay Alammar的一篇文章以及自己學習記錄。
原文地址: https://jalammar.github.io/visual-numpy/

使用過程中,如果希望 Numpy 能創建並初始化數組的值, Numpy 提供了 ones()、zeros() 和 random.random() 等方法。只需傳遞希望生成的元素數量(大小)即可:

還可以進行如下操作:

一般,需要數組和單個數字之間也可以進行運算操作(即向量和標量之間的運算)。比如說 data * 1.6 ,numpy利用一個叫做廣播機制(broadcasting)的概念實現了這一運算。:

我們可以通過索引對numpy數據獲取任意位置數據或者對數據切片

我們可以通過numpy自帶的函數對數據進行一些想要的聚合計算,比如min、max 和 sum ,還可以使用 mean 得到平均值,使用 prod 得到所有元素的乘積,使用 std 得到標准差等等。

上述操作不僅可以應用於單維度數據,還可以用於多維度數據{(矩陣)。

同樣可以使用ones()、zeros() 和 random.random()創建矩陣,只要寫入一個描述矩陣維數的元組即可:

numpy還可以處理更高維度的數據:

創建更高維度數據只需要在創建時,在參數中增加一個維度值即可:

根據數組中數值是否滿足條件,輸出為True或False.

希望得到滿足條件的索引,用np.where函數實現.

根據索引得到對應位置的值.

np.where也可以接受另兩個可選擇的參數a和b。當條件滿足時,輸出a,反之輸出b.

獲取數組最大值和最小值的索引可以使用np.argmax和np.argmin.

1、numpy.tofile()和numpy.fromfile()
保存為二進制格式,但是不保存數組形狀和數據類型, 即都壓縮為一維的數組,需要自己記錄數據的形狀,讀取的時候再reshape.

2、numpy.save() 和 numpy.load()
保存為二進制格式,保存數組形狀和數據類型, 不需要進行reshape
實例:

3、numpy.savetxt()和numpy.loadtxt()

np.savetxt(fname,array,fmt=』%.18e』,delimiter=None)
Parameter解釋:
array:待存入文件的數組。
fmt:寫入文件的格式
實例:

G. Python數據分析: 初識Pandas,理解Pandas實現和原理

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理

01 重要的前言

這段時間和一些做數據分析的同學閑聊,我發現數據分析技能入門階段存在一個普遍性的問題,很多憑著興趣入坑的同學,都能夠很快熟悉Python基礎語法,然後不約而同的一頭扎進《利用Python進行數據分析》這本經典之中,硬著頭皮啃完之後,好像自己什麼都會了一點,然而實際操作起來既不知從何操起,又漏洞百出。

至於原因嘛,理解不夠,實踐不夠是兩條老牌的攔路虎,只能靠自己來克服。還有一個非常有意思且經常被忽視的因素——陷入舉三反一的懵逼狀態。

什麼意思呢?假如我是個旱鴨子,想去學游泳,教練很認真的給我剖析了蛙泳的動作,扶著我的腰讓我在水裡劃拉了5分鍾,接著馬上給我講解了蝶泳,又是劃拉了5分鍾,然後又硬塞給我潛泳的姿勢,依然是劃拉5分鍾。最後,教練一下子把我丟進踩不到底的泳池,給我吶喊助威。

作為一個還沒入門的旱鴨子,教練傾囊授了我3種游泳技巧,讓我分別實踐了5分鍾。這樣做的結果就是我哪一種游泳技巧也沒學會,只學會了喝水。當一個初學者一開始就陷入針對單個問題的多種解決方法,而每一種方法的實踐又淺嘗輒止,在面對具體問題時往往會手忙腳亂。

拿Pandas來說,它的多種構造方式,多種索引方式以及類似效果的多種實現方法,很容易把初學者打入舉三反一的懵逼狀態。所以,盡量避開這個坑也是我寫Pandas基礎系列的初衷,希望通過梳理和精簡知識點的方式,給需要的同學一些啟發。目前暫定整個基礎系列分為4篇,基礎篇過後便是有趣的實戰篇。

下面開始進入正題(我真是太嘮叨了)。

02 Pandas簡介

江湖上流傳著這么一句話——分析不識潘大師(PANDAS),縱是老手也枉然。

Pandas是基於Numpy的專業數據分析工具,可以靈活高效的處理各種數據集,也是我們後期分析案例的神器。它提供了兩種類型的數據結構,分別是DataFrame和Series,我們可以簡單粗暴的把DataFrame理解為Excel裡面的一張表,而Series就是表中的某一列,後面學習和用到的所有Pandas騷操作,都是基於這些表和列進行的操作(關於Pandas和Excel的形象關系,這里推薦我的好朋友張俊紅寫的《對比EXCEL,輕松學習Python數據分析》)。

這里有一點需要強調,Pandas和Excel、SQL相比,只是調用和處理數據的方式變了,核心都是對源數據進行一系列的處理,在正式處理之前,更重要的是謀定而後動,明確分析的意義,理清分析思路之後再處理和分析數據,往往事半功倍。

03 創建、讀取和存儲

1、創建

在Pandas中我們想要構造下面這一張表應該如何操作呢?

別忘了,第一步一定是先導入我們的庫——import pandas as pd

構造DataFrame最常用的方式是字典+列表,語句很簡單,先是字典外括,然後依次打出每一列標題及其對應的列值(此處一定要用列表),這里列的順序並不重要:

左邊是jupyter notebook中dataframe的樣子,如果對應到excel中,他就是右邊表格的樣子,通過改變columns,index和values的值來控制數據。

PS,如果我們在創建時不指定index,系統會自動生成從0開始的索引。

2、 讀取

更多時候,我們是把相關文件數據直接讀進PANDAS中進行操作,這里介紹兩種非常接近的讀取方式,一種是CSV格式的文件,一種是EXCEL格式(.xlsx和xls後綴)的文件。

讀取csv文件:

engine是使用的分析引擎,讀取csv文件一般指定python避免中文和編碼造成的報錯。而讀取Excel文件,則是一樣的味道:

非常easy,其實read_csv和read_excel還有一些參數,比如header、sep、names等,大家可以做額外了解。實踐中數據源的格式一般都是比較規整的,更多情況是直接讀取。

3、存儲

存儲起來一樣非常簡單粗暴且相似:

04 快速認識數據

這里以我們的案例數據為例,迅速熟悉查看N行,數據格式概覽以及基礎統計數據。

1、查看數據,掐頭看尾

很多時候我們想要對數據內容做一個總覽,用df.head()函數直接可以查看默認的前5行,與之對應,df.tail()就可以查看數據尾部的5行數據,這兩個參數內可以傳入一個數值來控制查看的行數,例如df.head(10)表示查看前10行數據。

2、 格式查看

df.info()幫助我們一步摸清各列數據的類型,以及缺失情況:

從上面直接可以知道數據集的行列數,數據集的大小,每一列的數據類型,以及有多少條非空數據。

3、統計信息概覽

快速計算數值型數據的關鍵統計指標,像平均數、中位數、標准差等等。

我們本來有5列數據,為什麼返回結果只有兩列?那是因為這個操作只針對數值型的列。其中count是統計每一列的有多少個非空數值,mean、std、min、max對應的分別是該列的均值、標准差、最小值和最大值,25%、50%、75%對應的則是分位數。

05 列的基本處理方式

這里,我們採用SQL四大法寶的邏輯來簡單梳理針對列的基本處理方式——增、刪、選、改。

溫馨提示:使用Pandas時,盡量避免用行或者EXCEL操作單元格的思維來處理數據,要逐漸養成一種列向思維,每一列是同宗同源,處理起來是嗖嗖的快。

1、增

增加一列,用df[『新列名』] = 新列值的形式,在原數據基礎上賦值即可:

2、刪:

我們用drop函數制定刪除對應的列,axis = 1表示針對列的操作,inplace為True,則直接在源數據上進行修改,否則源數據會保持原樣。

3、選:

想要選取某一列怎麼辦?df[『列名』]即可:

選取多列呢?需要用列表來傳遞:df[[『第一列』,『第二列』,『第三列』…]]

4、 改:

好事多磨,復雜的針對特定條件和行列的篩選、修改,放在後面結合案例細講,這里只講一下最簡單的更改:df[『舊列名』] = 某個值或者某列值,就完成了對原列數值的修改。

06 常用數據類型及操作

1、字元串

字元串類型是最常用的格式之一了,Pandas中字元串的操作和原生字元串操作幾乎一毛一樣,唯一不同的是需要在操作前加上".str"。

小Z溫馨提示:我們最初用df2.info()查看數據類型時,非數值型的列都返回的是object格式,和str類型深層機制上的區別就不展開了,在常規實際應用中,我們可以先理解為object對應的就是str格式,int64對應的就是int格式,float64對應的就是float格式即可。

在案例數據中,我們發現來源明細那一列,可能是系統導出的歷史遺留問題,每一個字元串前面都有一個「-」符號,又丑又無用,所以把他給拿掉:

一般來說清洗之後的列是要替換掉原來列的:

2、 數值型

數值型數據,常見的操作是計算,分為與單個值的運算,長度相等列的運算。

以案例數據為例,源數據訪客數我們是知道的,現在想把所有渠道的訪客都加上10000,怎麼操作呢?

只需要選中訪客數所在列,然後加上10000即可,pandas自動將10000和每一行數值相加,針對單個值的其他運算(減乘除)也是如此。

列之間的運算語句也非常簡潔。源數據是包含了訪客數、轉化率和客單價,而實際工作中我們對每個渠道貢獻的銷售額更感興趣。(銷售額 = 訪客數 X 轉化率 X 客單價)

對應操作語句:df[『銷售額』] = df[『訪客數』] * df[『轉化率』] * df[『客單價』]

但為什麼瘋狂報錯?

導致報錯的原因,是數值型數據和非數值型數據相互計算導致的。PANDAS把帶「%」符號的轉化率識別成字元串類型,我們需要先拿掉百分號,再將這一列轉化為浮點型數據:

要注意的是,這樣操作,把9.98%變成了9.98,所以我們還需要讓支付轉化率除以100,來還原百分數的真實數值:

然後,再用三個指標相乘計算銷售額:

3、時間類型

PANDAS中時間序列相關的水非常深,這里只對日常中最基礎的時間格式進行講解,對時間序列感興趣的同學可以自行查閱相關資料,深入了解。

以案例數據為例,我們這些渠道數據,是在2019年8月2日提取的,後面可能涉及到其他日期的渠道數據,所以需要加一列時間予以區分,在EXCEL中常用的時間格式是』2019-8-3』或者』2019/8/3』,我們用PANDAS來實現一下:

在實際業務中,一些時候PANDAS會把文件中日期格式的欄位讀取為字元串格式,這里我們先把字元串』2019-8-3』賦值給新增的日期列,然後用to_datetime()函數將字元串類型轉換成時間格式:

轉換成時間格式(這里是datetime64)之後,我們可以用處理時間的思路高效處理這些數據,比如,我現在想知道提取數據這一天離年末還有多少天(『2019-12-31』),直接做減法(該函數接受時間格式的字元串序列,也接受單個字元串):

H. Python數據分析庫有哪些

Python數據分析必備的第三方庫:

1、Pandas

Pandas是Python強大、靈活的數據分析和探索工具,包含Serise、DataFrame等高級數據結構和工具,安裝Pandas可使Python中處理數據非常快速和簡單。

Pandas是Python的一個數據分析包,Pandas最初使用用作金融數據分析工具而開發出來,因此Pandas為時間序列分析提供了很好的支持。

Pandas是為了解決數據分析任務而創建的,Pandas納入了大量的庫和一些標準的數據模型,提供了高效的操作大型數據集所需要的工具。Pandas提供了大量是我們快速便捷的處理數據的函數和方法。Pandas包含了高級數據結構,以及讓數據分析變得快速、簡單的工具。

2、Numpy

Numpy可以提供數組支持以及相應的高效處理函數,是Python數據分析的基礎,也是Scipy、Pandas等數據處理和科學計算庫最基本的函數功能庫,且其數據類型對Python數據分析十分有用。

Numpy提供了兩種基本的對象:ndarray和ufunc。ndarray是存儲單一數據類型的多維數組,而ufunc是能夠對數組進行處理的函數。

3、Matplotlib

Matplotlib是強大的數據可視化工具和作圖庫,是主要用於繪制數據圖表的Python庫,提供了繪制各類可視化圖形的命令字型檔、簡單的介面,可以方便用戶輕松掌握圖形的格式,繪制各類可視化圖形。

Matplotlib是Python的一個可視化模塊,他能方便的只做線條圖、餅圖、柱狀圖以及其他專業圖形。

Matplotlib是基於Numpy的一套Python包,這個包提供了豐富的數據繪圖工具,主要用於繪制一些統計圖形。

4、SciPy

SciPy是一組專門解決科學計算中各種標准問題域的包的集合,包含的功能有最優化、線性代數、積分、插值、擬合、特殊函數、快速傅里葉變換、信號處理和圖像處理、常微分方程求解和其他科學與工程中常用的計算等,這些對數據分析和挖掘十分有用。

SciPy是一款方便、易於使用、專門為科學和工程設計的Python包,它包括統計、優化、整合、線性代數模塊、傅里葉變換、信號和圖像處理、常微分方程求解器等。Scipy依賴於Numpy,並提供許多對用戶友好的和有效的數值常式,如數值積分和優化。

5、Keras

Keras是深度學習庫,人工神經網路和深度學習模型,基於Theano之上,依賴於Numpy和Scipy,利用它可以搭建普通的神經網路和各種深度學習模型,如語言處理、圖像識別、自編碼器、循環神經網路、遞歸審計網路、卷積神經網路等。

6、Scrapy

Scrapy是專門為爬蟲而生的工具,具有URL讀取、HTML解析、存儲數據等功能,可以使用Twisted非同步網路庫來處理網路通訊,架構清晰,且包含了各種中間件介面,可以靈活的完成各種需求。

7、Gensim

Gensim是用來做文本主題模型的庫,常用於處理語言方面的任務,支持TF-IDF、LSA、LDA和Word2Vec在內的多種主題模型演算法,支持流式訓練,並提供了諸如相似度計算、信息檢索等一些常用任務的API介面。

I. 數據分析最常用的工具有哪些

1、Excel

Excel作為最基礎也數據分析工具,同時也是最主要的數據分析工具。Excel有多種強大功能,比如創建表單,數據透視表,VBA等等,Excel的系統十分強大,以至於沒有任何一個分析工具是可以超越它的,可以根據自己的需求分析數據。

Excel可以滿足絕大部分數據分析工作的需求,同時也提供友好的操作界面,對於具備基本統計學理論的用戶來說Excel是比較容易上手的,就是它的處理的數據量較小。

2、SAS
SAS功能強大並且可以編程,很受高級用戶的歡迎,也正因為此,它是比較難掌握的軟體之一,在企業工作中用的比較多,需要編寫SAS程序去處理數據。

3、SPSS
SPSS是世界上最早採用圖形菜單的驅動界面統計軟體,其最大的特點就是操作界面極為友好,輸出的結果美觀漂亮。用戶只需掌握一定的Windows操作技能,精通統計的分析原理,就能夠使用該軟體為特定的科研工作而服務。SPSS採用了Excel表格的方式輸入與管理數據,數據的介面較為通用,可以方便地從其他資料庫當中讀入數據。其統計的過程包括常用的、較為成熟的統計過程,可以完全滿足非統計專業人士的工作需要。

4、SQL
SQL可以說是數據方向所有崗位都要掌握的工具,入門相對比較簡單,概括起來就是增刪改查,SQL需要掌握的知識主要包括數據的定義語言以及數據的控制語言和操控語言。在數據操控的過程中要能夠理解SQL的語法順序和執行順序,理解SQL與各種join的 不同,熟練的掌握SQL的重要函數,想要入行數據分析,SQL是必要技能。

5、Python
Python是一種面向對象、解釋型計算機程序設計的語言。它的語法簡潔清晰,Python在數據分析和數據可視化等方面都顯得比較活躍。
同時Python具有強大的編程能力,但是這種編程語言不同於R或者matlab,python有非常強大的數據分析能力,還可以利用Python進行爬蟲,寫游戲,和自動化運維,在這些領域當中有應用很廣泛,這些優點就使得一種技術去解決所有的業務服務問題,體現了Python有利於各個業務之間的融合,使用Python,能夠大大地提高數據分析的效率。

6、BI工具
BI工具是按照數據分析的流程進行設計的,商業智能的BI是為數據分析而生的,誕生起點很高,目的是為了縮短商業數據到商業決策的時間,並用數據去影響決策。

J. python數據統計分析

1. 常用函數庫

  scipy包中的stats模塊和statsmodels包是python常用的數據分析工具,scipy.stats以前有一個models子模塊,後來被移除了。這個模塊被重寫並成為了現在獨立的statsmodels包。

 scipy的stats包含一些比較基本的工具,比如:t檢驗,正態性檢驗,卡方檢驗之類,statsmodels提供了更為系統的統計模型,包括線性模型,時序分析,還包含數據集,做圖工具等等。

2. 小樣本數據的正態性檢驗

(1) 用途

 夏皮羅維爾克檢驗法 (Shapiro-Wilk) 用於檢驗參數提供的一組小樣本數據線是否符合正態分布,統計量越大則表示數據越符合正態分布,但是在非正態分布的小樣本數據中也經常會出現較大的W值。需要查表來估計其概率。由於原假設是其符合正態分布,所以當P值小於指定顯著水平時表示其不符合正態分布。

 正態性檢驗是數據分析的第一步,數據是否符合正態性決定了後續使用不同的分析和預測方法,當數據不符合正態性分布時,我們可以通過不同的轉換方法把非正太態數據轉換成正態分布後再使用相應的統計方法進行下一步操作。

(2) 示例

(3) 結果分析

 返回結果 p-value=0.029035290703177452,比指定的顯著水平(一般為5%)小,則拒絕假設:x不服從正態分布。

3. 檢驗樣本是否服務某一分布

(1) 用途

 科爾莫戈羅夫檢驗(Kolmogorov-Smirnov test),檢驗樣本數據是否服從某一分布,僅適用於連續分布的檢驗。下例中用它檢驗正態分布。

(2) 示例

(3) 結果分析

 生成300個服從N(0,1)標准正態分布的隨機數,在使用k-s檢驗該數據是否服從正態分布,提出假設:x從正態分布。最終返回的結果,p-value=0.9260909172362317,比指定的顯著水平(一般為5%)大,則我們不能拒絕假設:x服從正態分布。這並不是說x服從正態分布一定是正確的,而是說沒有充分的證據證明x不服從正態分布。因此我們的假設被接受,認為x服從正態分布。如果p-value小於我們指定的顯著性水平,則我們可以肯定地拒絕提出的假設,認為x肯定不服從正態分布,這個拒絕是絕對正確的。

4.方差齊性檢驗

(1) 用途

 方差反映了一組數據與其平均值的偏離程度,方差齊性檢驗用以檢驗兩組或多組數據與其平均值偏離程度是否存在差異,也是很多檢驗和演算法的先決條件。

(2) 示例

(3) 結果分析

 返回結果 p-value=0.19337536323599344, 比指定的顯著水平(假設為5%)大,認為兩組數據具有方差齊性。

5. 圖形描述相關性

(1) 用途

 最常用的兩變數相關性分析,是用作圖描述相關性,圖的橫軸是一個變數,縱軸是另一變數,畫散點圖,從圖中可以直觀地看到相關性的方向和強弱,線性正相關一般形成由左下到右上的圖形;負面相關則是從左上到右下的圖形,還有一些非線性相關也能從圖中觀察到。

(2) 示例

(3) 結果分析

 從圖中可以看到明顯的正相關趨勢。

6. 正態資料的相關分析

(1) 用途

 皮爾森相關系數(Pearson correlation coefficient)是反應兩變數之間線性相關程度的統計量,用它來分析正態分布的兩個連續型變數之間的相關性。常用於分析自變數之間,以及自變數和因變數之間的相關性。

(2) 示例

(3) 結果分析

 返回結果的第一個值為相關系數表示線性相關程度,其取值范圍在[-1,1],絕對值越接近1,說明兩個變數的相關性越強,絕對值越接近0說明兩個變數的相關性越差。當兩個變數完全不相關時相關系數為0。第二個值為p-value,統計學上,一般當p-value<0.05時,可以認為兩變數存在相關性。

7. 非正態資料的相關分析

(1) 用途

 斯皮爾曼等級相關系數(Spearman』s correlation coefficient for ranked data ),它主要用於評價順序變數間的線性相關關系,在計算過程中,只考慮變數值的順序(rank, 值或稱等級),而不考慮變數值的大小。常用於計算類型變數的相關性。

(2) 示例

(3) 結果分析

 返回結果的第一個值為相關系數表示線性相關程度,本例中correlation趨近於1表示正相關。第二個值為p-value,p-value越小,表示相關程度越顯著。

8. 單樣本T檢驗

(1) 用途

 單樣本T檢驗,用於檢驗數據是否來自一致均值的總體,T檢驗主要是以均值為核心的檢驗。注意以下幾種T檢驗都是雙側T檢驗。

(2) 示例

(3) 結果分析

 本例中生成了2列100行的數組,ttest_1samp的第二個參數是分別對兩列估計的均值,p-value返回結果,第一列1.47820719e-06比指定的顯著水平(一般為5%)小,認為差異顯著,拒絕假設;第二列2.83088106e-01大於指定顯著水平,不能拒絕假設:服從正態分布。

9. 兩獨立樣本T檢驗

(1) 用途

 由於比較兩組數據是否來自於同一正態分布的總體。注意:如果要比較的兩組數據不滿足方差齊性, 需要在ttest_ind()函數中添加參數equal_var = False。

(2) 示例

(3) 結果分析

 返回結果的第一個值為統計量,第二個值為p-value,pvalue=0.19313343989106416,比指定的顯著水平(一般為5%)大,不能拒絕假設,兩組數據來自於同一總結,兩組數據之間無差異。

10. 配對樣本T檢驗

(1) 用途

 配對樣本T檢驗可視為單樣本T檢驗的擴展,檢驗的對象由一群來自正態分布獨立樣本更改為二群配對樣本觀測值之差。它常用於比較同一受試對象處理的前後差異,或者按照某一條件進行兩兩配對分別給與不同處理的受試對象之間是否存在差異。

(2) 示例

(3) 結果分析

 返回結果的第一個值為統計量,第二個值為p-value,pvalue=0.80964043445811551,比指定的顯著水平(一般為5%)大,不能拒絕假設。

11. 單因素方差分析

(1) 用途

 方差分析(Analysis of Variance,簡稱ANOVA),又稱F檢驗,用於兩個及兩個以上樣本均數差別的顯著性檢驗。方差分析主要是考慮各組之間的平均數差別。

 單因素方差分析(One-wayAnova),是檢驗由單一因素影響的多組樣本某因變數的均值是否有顯著差異。

 當因變數Y是數值型,自變數X是分類值,通常的做法是按X的類別把實例成分幾組,分析Y值在X的不同分組中是否存在差異。

(2) 示例

(3) 結果分析

 返回結果的第一個值為統計量,它由組間差異除以組間差異得到,上例中組間差異很大,第二個返回值p-value=6.2231520821576832e-19小於邊界值(一般為0.05),拒絕原假設, 即認為以上三組數據存在統計學差異,並不能判斷是哪兩組之間存在差異 。只有兩組數據時,效果同 stats.levene 一樣。

12. 多因素方差分析

(1) 用途

 當有兩個或者兩個以上自變數對因變數產生影響時,可以用多因素方差分析的方法來進行分析。它不僅要考慮每個因素的主效應,還要考慮因素之間的交互效應。

(2) 示例

(3) 結果分析

 上述程序定義了公式,公式中,"~"用於隔離因變數和自變數,」+「用於分隔各個自變數, ":"表示兩個自變數交互影響。從返回結果的P值可以看出,X1和X2的值組間差異不大,而組合後的T:G的組間有明顯差異。

13. 卡方檢驗

(1) 用途

 上面介紹的T檢驗是參數檢驗,卡方檢驗是一種非參數檢驗方法。相對來說,非參數檢驗對數據分布的要求比較寬松,並且也不要求太大數據量。卡方檢驗是一種對計數資料的假設檢驗方法,主要是比較理論頻數和實際頻數的吻合程度。常用於特徵選擇,比如,檢驗男人和女人在是否患有高血壓上有無區別,如果有區別,則說明性別與是否患有高血壓有關,在後續分析時就需要把性別這個分類變數放入模型訓練。

 基本數據有R行C列, 故通稱RC列聯表(contingency table), 簡稱RC表,它是觀測數據按兩個或更多屬性(定性變數)分類時所列出的頻數表。

(2) 示例

(3) 結果分析

 卡方檢驗函數的參數是列聯表中的頻數,返回結果第一個值為統計量值,第二個結果為p-value值,p-value=0.54543425102570975,比指定的顯著水平(一般5%)大,不能拒絕原假設,即相關性不顯著。第三個結果是自由度,第四個結果的數組是列聯表的期望值分布。

14. 單變數統計分析

(1) 用途

 單變數統計描述是數據分析中最簡單的形式,其中被分析的數據只包含一個變數,不處理原因或關系。單變數分析的主要目的是通過對數據的統計描述了解當前數據的基本情況,並找出數據的分布模型。

 單變數數據統計描述從集中趨勢上看,指標有:均值,中位數,分位數,眾數;從離散程度上看,指標有:極差、四分位數、方差、標准差、協方差、變異系數,從分布上看,有偏度,峰度等。需要考慮的還有極大值,極小值(數值型變數)和頻數,構成比(分類或等級變數)。

 此外,還可以用統計圖直觀展示數據分布特徵,如:柱狀圖、正方圖、箱式圖、頻率多邊形和餅狀圖。

15. 多元線性回歸

(1) 用途

 多元線性回歸模型(multivariable linear regression model ),因變數Y(計量資料)往往受到多個變數X的影響,多元線性回歸模型用於計算各個自變數對因變數的影響程度,可以認為是對多維空間中的點做線性擬合。

(2) 示例

(3) 結果分析

 直接通過返回結果中各變數的P值與0.05比較,來判定對應的解釋變數的顯著性,P<0.05則認為自變數具有統計學意義,從上例中可以看到收入INCOME最有顯著性。

16. 邏輯回歸

(1) 用途

 當因變數Y為2分類變數(或多分類變數時)可以用相應的logistic回歸分析各個自變數對因變數的影響程度。

(2) 示例

(3) 結果分析

 直接通過返回結果中各變數的P值與0.05比較,來判定對應的解釋變數的顯著性,P<0.05則認為自變數具有統計學意義。

熱點內容
c語言文件讀操作 發布:2024-04-16 13:33:33 瀏覽:564
福利吧源碼 發布:2024-04-16 13:33:22 瀏覽:737
汽車按揭怎麼解壓 發布:2024-04-16 13:19:20 瀏覽:405
泰囧ftp 發布:2024-04-16 13:14:45 瀏覽:735
用了vpn怎麼上外網訪問 發布:2024-04-16 13:14:10 瀏覽:973
安卓微信在哪裡設置鬧鍾 發布:2024-04-16 13:12:34 瀏覽:729
綜合速演算法 發布:2024-04-16 13:07:26 瀏覽:572
windows中轉伺服器搭建 發布:2024-04-16 12:58:41 瀏覽:100
求生之路需要什麼樣的配置 發布:2024-04-16 12:54:44 瀏覽:710
靜態文件設置緩存 發布:2024-04-16 12:50:03 瀏覽:212