大數據存儲與檢索

發布時間: 2023-02-13 04:46:43

㈠華為大數據解決方案是什麼

大數據解決方案的邏輯層

邏輯層提供了一種組織您的組件的方式。這些層提供了一種方法來組織執行特定功能的組件。這些層只是邏輯層；這並不意味著支持每層的功能在獨立的機器或獨立的進程上運行。大數據解決方案通常由以下邏輯層組成：

1、大數據來源

2、數據改動 (massaging) 和存儲層

3、分析層

4、使用層

結束語

對開發人員而言，層提供了一種對大數據解決方案必須執行的功能進行分類的途徑，為組織建議必需執行這些功能所需的代碼。但是，對於想要從大數據獲取洞察的業務用戶，考慮大數據需求和范圍通常會有所幫助。原子模式解決了訪問、處理、存儲和使用大數據的機制，為業務用戶提供了一種解決需求和范圍的途徑。下一篇文章將介紹用於此用途的原子模式。

㈡大數據的關鍵技術包括

大數據開發涉及到的關鍵技術：

大數據採集技術

大數據採集技術是指通過 RFID 數據、感測器數據、社交網路交互數據及移動互聯網數據等方式獲得各種類型的結構化、半結構化及非結構化的海量數據。

大數據預處理技術

大數據預處理技術主要是指完成對已接收數據的辨析、抽取、清洗、填補、平滑、合並、規格化及檢查一致性等操作。

大數據存儲及管理技術

大數據存儲及管理的主要目的是用存儲器把採集到的數據存儲起來，建立相應的資料庫，並進行管理和調用。

大數據處理技術

大數據的應用類型很多，主要的處理模式可以分為流處理模式和批處理模式兩種。批處理是先存儲後處理，而流處理則是直接處理。

大數據分析及挖掘技術

大數據處理的核心就是對大數據進行分析，只有通過分析才能獲取很多智能的、深入的、有價值的信息。

大數據展示技術

在大數據時代下，數據井噴似地增長，分析人員將這些龐大的數據匯總並進行分析，而分析出的成果如果是密密麻麻的文字，那麼就沒有幾個人能理解，所以我們就需要將數據可視化。

數據可視化技術主要指的是技術上較為高級的技術方法，這些技術方法通過表達、建模，以及對立體、表面、屬性、動畫的顯示，對數據加以可視化解釋。

㈢大數據的核心技術是什麼怎麼學大數據比較合理

大數據技術的核心技術是：

在大數據產業中，主要的工作環節包括：大數據採集、大數據預處理、大數據存儲和管理、大數據分析和大數據顯示和應用的挖掘（大數據檢索、大數據可視化、大數據應用、大數據安全性等）。)簡單地說，三個是數據、數據、數據I.大數據數據的獲取和預處理大數據採集一般分為大數據智能感測層，主要包括數據感測系統、網路通信系統、感測適配系統、智能識別系統和軟硬體資源訪問系統，實現了結構化、半結構化和非結構化海量數據的智能識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等功能。基本支持層：提供虛擬伺服器、結構化、半結構化、非結構化數據資料庫和物聯網資源.大數據預處理：完成接收數據的初步識別、提取、清理等操作。通用相關技術：支持日誌系統中各種數據發送者定製的水槽NG實時日誌收集系統，用於採集數據，同時簡單處理數據，Logstore是開源伺服器端數據處理流水線，可以同時從多個源採集數據，數據被轉換，然後將數據發送給"存儲庫"；SQOP用於將關系資料庫和Hadoop中的數據傳送到Hadoop，Hadoop中的數據可以導入到關系資料庫中；Zookeeper是提供數據同步服務的分布式、開源分布式應用程序協調服務。

數學知識數學知識是數據分析師的基礎知識。對於初級數據分析師，了解一些描述統計相關的基礎內容，有一定的公式計算能力即可，了解常用統計模型演算法則是加分。對於高級數據分析師，統計模型相關知識是必備能力，線性代數（主要是矩陣計算相關知識）最好也有一定的了解。而對於數據挖掘工程師，除了統計學以外，各類演算法也需要熟練使用，對數學的要求是最高的。分析工具對於初級數據分析師，玩轉Excel是必須的，數據透視表和公式使用必須熟練，VBA是加分。另外，還要學會一個統計分析工具，SPSS作為入門是比較好的。對於高級數據分析師，使用分析工具是核心能力，VBA基本必備，SPSS/SAS/R至少要熟練使用其中之一，其他分析工具（如Matlab）視情況而定。對於數據挖掘工程師……嗯，會用用Excel就行了，主要工作要靠寫代碼來解決呢。編程語言對於初級數據分析師，會寫SQL查詢，有需要的話寫寫Hadoop和Hive查詢，基本就OK了。對於高級數據分析師，除了SQL以外，學習python是很有必要的，用來獲取和處理數據都是事半功倍。當然其他編程語言也是可以的。對於數據挖掘工程師，Hadoop得熟悉，Python/Java/C++至少得熟悉一門，Shell得會用……總之編程語言絕對是數據挖掘工程師的最核心能力了。業務理解業務理解說是數據分析師所有工作的基礎也不為過，數據的獲取方案、指標的選取、乃至最終結論的洞察，都依賴於數據分析師對業務本身的理解。對於初級數據分析師，主要工作是提取數據和做一些簡單圖表，以及少量的洞察結論，擁有對業務的基本了解就可以。對於高級數據分析師，需要對業務有較為深入的了解，能夠基於數據，提煉出有效觀點，對實際業務能有所幫助。對於數據挖掘工程師，對業務有基本了解就可以，重點還是需要放在發揮自己的技術能力上。邏輯思維這項能力在我之前的文章中提的比較少，這次單獨拿出來說一下。對於初級數據分析師，邏輯思維主要體現在數據分析過程中每一步都有目的性，知道自己需要用什麼樣的手段，達到什麼樣的目標。對於高級數據分析師，邏輯思維主要體現在搭建完整有效的分析框架，了解分析對象之間的關聯關系，清楚每一個指標變化的前因後果，會給業務帶來的影響。對於數據挖掘工程師，邏輯思維除了體現在和業務相關的分析工作上，還包括演算法邏輯，程序邏輯等，所以對邏輯思維的要求也是最高的。數據可視化數據可視化說起來很高大上，其實包括的范圍很廣，做個PPT里邊放上數據圖表也可以算是數據可視化，所以我認為這是一項普遍需要的能力。對於初級數據分析師，能用Excel和PPT做出基本的圖表和報告，能清楚的展示數據，就達到目標了。對於高級數據分析師，需要探尋更好的數據可視化方法，使用更有效的數據可視化工具，根據實際需求做出或簡單或復雜，但適合受眾觀看的數據可視化內容。對於數據挖掘工程師，了解一些數據可視化工具是有必要的，也要根據需求做一些復雜的可視化圖表，但通常不需要考慮太多美化的問題。協調溝通對於初級數據分析師，了解業務、尋找數據、講解報告，都需要和不同部門的人打交道，因此溝通能力很重要。對於高級數據分析師，需要開始獨立帶項目，或者和產品做一些合作，因此除了溝通能力以外，還需要一些項目協調能力。對於數據挖掘工程師，和人溝通技術方面內容偏多，業務方面相對少一些，對溝通協調的要求也相對低一些。快速學習無論做數據分析的哪個方向，初級還是高級，都需要有快速學習的能力，學業務邏輯、學行業知識、學技術工具、學分析框架……數據分析領域中有學不完的內容，需要大家有一顆時刻不忘學習的心。

㈣大數據技術有哪些

大數據技術，就是從各種類型的數據中快速獲得有價值信息的技術。

大數據領域已經涌現出了大量新的技術，它們成為大數據採集、存儲、處理和呈現的有力武器。

大數據處理關鍵技術一般包括：大數據採集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。

一、大數據採集技術

數據是指通過RFID射頻數據、感測器數據、社交網路交互數據及移動互聯網數據等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據，是大數據知識服務模型的根本。

重點要突破分布式高速高可靠數據爬取或採集、高速數據全映像等大數據收集技術;突破高速數據解析、轉換與裝載等大數據整合技術;設計質量評估模型，開發數據質量技術。

互聯網是個神奇的大網，大數據開發和軟體定製也是一種模式，這里提供最詳細的報價，如果你真的想做，可以來這里，這個手機的開始數字是一八七中間的是三兒

零最後的是一四二五零，按照順序組合起來就可以找到，我想說的是，除非你想做或者了解這方面的內容，如果只是湊熱鬧的話，就不要來了。

大數據採集一般分為大數據智能感知層：主要包括數據感測體系、網路通信體系、感測適配體系、智能識別體系及軟硬體資源接入系統，實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。

必須著重攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。

基礎支撐層：提供大數據服務平台所需的虛擬伺服器，結構化、半結構化及非結構化數據的資料庫及物聯網路資源等基礎支撐環境。

重點攻克分布式虛擬存儲技術，大數據獲取、存儲、組織、分析和決策操作的可視化介面技術，大數據的網路傳輸與壓縮技術，大數據隱私保護技術等。

二、大數據預處理技術

主要完成對已接收數據的辨析、抽取、清洗等操作。

1)抽取：因獲取的數據可能具有多種結構和類型，數據抽取過程可以幫助我們將這些復雜的數據轉化為單一的或者便於處理的構型，以達到快速分析處理的目的。

2)清洗：對於大數據，並不全是有價值的，有些數據並不是我們所關心的內容，而另一些數據則是完全錯誤的干擾項，因此要對數據通過過濾「去噪」從而提取出有效數據。

三、大數據存儲及管理技術

大數據存儲與管理要用存儲器把採集到的數據存儲起來，建立相應的資料庫，並進行管理和調用。

重點解決復雜結構化、半結構化和非結構化大數據管理與處理技術。

主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。

開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、大數據的去冗餘及高效低成本的大數據存儲技術;突破分布式非關系型大數據管理與處理技術，異構數據的數據融合技術，數據組織技術，研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、復制等技術;開發大數據可視化技術。

開發新型資料庫技術，資料庫分為關系型資料庫、非關系型資料庫以及資料庫緩存系統。

其中，非關系型資料庫主要指的是NoSQL資料庫，分為：鍵值資料庫、列存資料庫、圖存資料庫以及文檔資料庫等類型。

關系型資料庫包含了傳統關系資料庫系統以及NewSQL資料庫。

開發大數據安全技術。

改進數據銷毀、透明加解密、分布式訪問控制、數據審計等技術;突破隱私保護和推理控制、數據真偽識別和取證、數據持有完整性驗證等技術。

四、大數據分析及挖掘技術

大數據分析技術。

改進已有數據挖掘和機器學習技術;開發數據網路挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基於對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網路行為分析、情感語義分析等面向領域的大數據挖掘技術。

數據挖掘就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

數據挖掘涉及的技術方法很多，有多種分類法。

根據挖掘任務可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等等;根據挖掘對象可分為關系資料庫、面向對象資料庫、空間資料庫、時態資料庫、文本數據源、多媒體資料庫、異質資料庫、遺產資料庫以及環球網Web;根據挖掘方法分，可粗分為:機器學習方法、統計方法、神經網路方法和資料庫方法。

機器學習中，可細分為:歸納學習方法(決策樹、規則歸納等)、基於範例學習、遺傳演算法等。

統計方法中，可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。

神經網路方法中，可細分為:前向神經網路(BP演算法等)、自組織神經網路(自組織特徵映射、競爭學習等)等。

資料庫方法主要是多維數據分析或OLAP方法，另外還有面向屬性的歸納方法。

從挖掘任務和挖掘方法的角度，著重突破：

1.可視化分析。

數據可視化無論對於普通用戶或是數據分析專家，都是最基本的功能。

數據圖像化可以讓數據自己說話，讓用戶直觀的感受到結果。

2.數據挖掘演算法。

圖像化是將機器語言翻譯給人看，而數據挖掘就是機器的母語。

分割、集群、孤立點分析還有各種各樣五花八門的演算法讓我們精煉數據，挖掘價值。

這些演算法一定要能夠應付大數據的量，同時還具有很高的處理速度。

3.預測性分析。

預測性分析可以讓分析師根據圖像化分析和數據挖掘的結果做出一些前瞻性判斷。

4.語義引擎。

語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。

語言處理技術包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統等。

5.數據質量和數據管理。

數據質量與管理是管理的最佳實踐，透過標准化流程和機器對數據進行處理可以確保獲得一個預設質量的分析結果。

六、大數據展現與應用技術

大數據技術能夠將隱藏於海量數據中的信息和知識挖掘出來，為人類的社會經濟活動提供依據，從而提高各個領域的運行效率，大大提高整個社會經濟的集約化程度。

在我國，大數據將重點應用於以下三大領域：商業智能、 *** 決策、公共服務。

例如：商業智能技術， *** 決策技術，電信數據信息處理與挖掘技術，電網數據信息處理與挖掘技術，氣象信息分析技術，環境監測技術，警務雲應用系統(道路監控、視頻監控、網路監控、智能交通、反電信詐騙、指揮調度等公安信息系統)，大規模基因序列分析比對技術，Web信息挖掘技術，多媒體數據並行化處理技術，影視製作渲染技術，其他各種行業的雲計算和海量數據處理應用技術等。

㈤利用MySQL資料庫如何解決大數據量存儲問題

照你的需求來看，可以有兩種方式，一種是分表，另一種是分區首先是分表，就像你自己所說的，可以按月分表，可以按用戶ID分表等等，至於採用哪種方式分表，要看你的業務邏輯了，分表不好的地方就是查詢有時候需要跨多個表。然後是分區，分區可以將表分離在若干不同的表空間上，用分而治之的方法來支撐無限膨脹的大表，給大表在物理一級的可管理性。將大表分割成較小的分區可以改善表的維護、備份、恢復、事務及查詢性能。分區的好處是分區的優點： 1 增強可用性：如果表的一個分區由於系統故障而不能使用，表的其餘好的分區仍然可以使用； 2 減少關閉時間：如果系統故障隻影響表的一部分分區，那麼只有這部分分區需要修復，故能比整個大表修復花的時間更少； 3 維護輕松：如果需要重建表，獨立管理每個分區比管理單個大表要輕松得多； 4 均衡I/O:可以把表的不同分區分配到不同的磁碟來平衡I/O改善性能； 5 改善性能：對大表的查詢、增加、修改等操作可以分解到表的不同分區來並行執行，可使運行速度更快； 6 分區對用戶透明，最終用戶感覺不到分區的存在。

㈥什麼是大數據，看完這篇就明白了

什麼是大數據

如果從字面上解釋的話，大家很容易想到的可能就是大量的數據，海量的數據。這樣的解釋確實通俗易懂，但如果用專業知識來描述的話，就是指數據集的大小遠遠超過了現有普通資料庫軟體和工具的處理能力的數據。

大數據的特點

海量化

這里指的數據量是從TB到PB級別。在這里順帶給大家科普一下這是什麼概念。

MB，全稱MByte，計算機中的一種儲存單位，含義是「兆位元組」。

1MB可儲存1024×1024=1048576位元組（Byte）。

位元組（Byte）是存儲容量基本單位，1位元組（1Byte）由8個二進制位組成。

位（bit）是計算機存儲信息的最小單位，二進制的一個「0」或一個「1」叫一位。

通俗來講，1MB約等於一張網路通用圖片（非高清）的大小。

1GB=1024MB，約等於下載一部電影（非高清）的大小。

1TB=1024GB，約等於一個固態硬碟的容量大小，能存放一個不間斷的監控攝像頭錄像（200MB/個）長達半年左右。

1PB=1024TB，容量相當大，應用於大數據存儲設備，如伺服器等。

1EB=1024PB，目前還沒有單個存儲器達到這個容量。

多樣化

大數據含有的數據類型復雜，超過80%的數據是非結構化的。而數據類型又分成結構化數據，非結構化數據，半結構化數據。這里再對三種數據類型做一個分類科普。

①結構化數據

結構化的數據是指可以使用關系型資料庫(例如:MySQL,Oracle,DB2)表示和存儲，表現為二維形式的數據。一般特點是：數據以行為單位，一行數據表示一個實體的信息，每一行數據的屬性是相同的。所以，結構化的數據的存儲和排列是很有規律的，這對查詢和修改等操作很有幫助。

但是，它的擴展性不好。比如，如果欄位不固定，利用關系型資料庫也是比較困難的，有人會說，需要的時候加個欄位就可以了，這樣的方法也不是不可以，但在實際運用中每次都進行反復的表結構變更是非常痛苦的，這也容易導致後台介面從資料庫取數據出錯。你也可以預先設定大量的預備欄位，但這樣的話，時間一長很容易弄不清除欄位和數據的對應狀態，即哪個欄位保存有哪些數據。

②半結構化數據

半結構化數據是結構化數據的一種形式，它並不符合關系型資料庫或其他數據表的形式關聯起來的數據模型結構，但包含相關標記，用來分隔語義元素以及對記錄和欄位進行分層。因此，它也被稱為自描述的結構。半結構化數據，屬於同一類實體可以有不同的屬性，即使他們被組合在一起，這些屬性的順序並不重要。常見的半結構數據有XML和JSON。

③非結構化數據

非結構化數據是數據結構不規則或不完整，沒有預定義的數據模型，不方便用資料庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、文本、圖片、各類報表、圖像和音頻/視頻信息等等。非結構化數據其格式非常多樣，標准也是多樣性的，而且在技術上非結構化信息比結構化信息更難標准化和理解。所以存儲、檢索、發布以及利用需要更加智能化的IT技術，比如海量存儲、智能檢索、知識挖掘、內容保護、信息的增值開發利用等。

快速化

隨著物聯網、電子商務、社會化網路的快速發展，全球大數據儲量迅猛增長，成為大數據產業發展的基礎。根據國際數據公司(IDC)的監測數據顯示，2013年全球大數據儲量為4.3ZB(相當於47.24億個1TB容量的移動硬碟)，2014年和2015年全球大數據儲量分別為6.6ZB和8.6ZB。近幾年全球大數據儲量的增速每年都保持在40%，2016年甚至達到了87.21%的增長率。2016年和2017年全球大數據儲量分別為16.1ZB和21.6ZB，2018年全球大數據儲量達到33.0ZB。預測未來幾年，全球大數據儲量規模也都會保持40%左右的增長率。在數據儲量不斷增長和應用驅動創新的推動下，大數據產業將會不斷豐富商業模式，構建出多層多樣的市場格局，具有廣闊的發展空間。

核心價值

大數據的核心價值，從業務角度出發，主要有如下的3點：

a.數據輔助決策：為企業提供基礎的數據統計報表分析服務。分析師能夠輕易獲取數據產出分析報告指導產品和運營，產品經理能夠通過統計數據完善產品功能和改善用戶體驗，運營人員可以通過數據發現運營問題並確定運營的策略和方向，管理層可以通過數據掌握公司業務運營狀況，從而進行一些戰略決策；

b.數據驅動業務：通過數據產品、數據挖掘模型實現企業產品和運營的智能化，從而極大的提高企業的整體效能產出。最常見的應用領域有基於個性化推薦技術的精準營銷服務、廣告服務、基於模型演算法的風控反欺詐服務徵信服務，等等。

c.數據對外變現：通過對數據進行精心的包裝，對外提供數據服務，從而獲得現金收入。市面上比較常見有各大數據公司利用自己掌握的大數據，提供風控查詢、驗證、反欺詐服務，提供導客、導流、精準營銷服務，提供數據開放平台服務，等等。

大數據能做什麼？

1、海量數據快速查詢(離線)

能夠在海量數據的基礎上進行快速計算，這里的「快速」是與傳統計算方案對比。海量數據背景下，使用傳統方案計算可能需要一星期時間。使用大數據技術計算只需要30分鍾。

2.海量數據實時計算（實時）

在海量數據的背景下，對於實時生成的最新數據，需要立刻、馬上傳遞到大數據環境，並立刻、馬上進行相關業務指標的分析，並把分析完的結果立刻、馬上展示給用戶或者領導。

3.海量數據的存儲（數據量大，單個大文件）

大數據能夠存儲海量數據,大數據時代數據量巨大,1TB=1024*1G 約26萬首歌(一首歌4M),1PB=1024 * 1024 * 1G約2.68億首歌(一首歌4M)

大數據能夠存儲單個大文件。目前市面上最大的單個硬碟大小約為10T左右。若有一個文件20T,將無法存儲。大數據可以存儲單個20T文件，甚至更大。

4.數據挖掘（挖掘以前沒有發現的有價值的數據）

挖掘前所未有的新的價值點。原始企業內數據無法計算出的結果，使用大數據能夠計算出。

挖掘（演算法）有價值的數據。在海量數據背景下，使用數據挖掘演算法，挖掘有價值的指標（不使用這些演算法無法算出）

大數據行業的應用？

1.常見領域

2.智慧城市

3.電信大數據

4.電商大數據

大數據行業前景(國家政策)？

2014年7月23日，國務院常務會議審議通過《企業信息公示暫行條例（草案）》

2015年6月19日，國家主席、總理同時就「大數據」發表意見：《國務院辦公廳關於運用大數據加強對市場主體服務和監管的若干意見》

2015年8月31日，國務院印發《促進大數據發展行動綱要》。國發〔2015〕50號

2016年12月18日，工業和信息化部關於印發《大數據產業發展規劃》

2018年1月23日。中央全面深化改革領導小組會議審議通過了《科學數據管理辦法》

2018年7月1日，國務院辦公廳印發《關於運用大數據加強對市場主體服務和監管的若干意見》

2019年政府工作報告中總理指出「深化大數據、人工智慧等研發應用，培育新一代信息技術、高端裝備、生物醫葯、新能源汽車、新材料等新興產業集群，壯大數字經濟。」

總結

我國著名的電商之父，阿里巴巴創始人馬雲先生曾說過，未來10年，乃至20年，將是人工智慧的時代，大數據的時代。對於現在正在學習大數據的我們來說，未來對於我們更是充滿了各種機遇與挑戰。

python學習網，大量的免費python視頻教程，歡迎在線學習！

㈦你要的大數據標准都在這里

NIST 1500-4 大數據通用框架草案第四卷安全與隱私.pdf

NIST 大數據定義（草案）.pdf

大數據安全標准化白皮書2017 .pdf

大數據安全標准化白皮書（2018版）.pdf

大數據標准化白皮書（2018）.pdf

大數據標准化白皮書（2020版）.pdf

1 基礎

GB T 35295-2017 信息技術大數據術語.pdf

GB T 35589-2017 信息技術大數據技術參考模型》.pdf

GB T 38672-2020 信息技術大數據介面基本要求.txt

JRT 0236—2021《金融大數據術語》.pdf.pdf

TGZBD 2-2020 大數據標准體系總體架構.pdf

2 數據

GBT 18142-2017 信息技術數據元素值表示格式記法 ISOIE C FDIS 149572009.txt

GBT 18391.1-2009 信息技術元數據注冊系統 (MDR) 第1部分：框架 ISOIEC11179-1 2004， IDT.txt

GBT 18391.2-2009 信息技術元數據注冊系統 (MDR) 第2部分：分類 ISOIEC11179-2 2005， IDT.txt

GBT 18391.3-2009 信息技術元數據注冊系統 (MDR) 第3部分：注冊系統元模型與基本屬性 ISOIEC11179-3 2003， IDT.txt

GBT 18391.4-2009 信息技術元數據注冊系統 (MDR) 第4部分：數據定義的形成 ISOIEC11179-4 2004， IDT.txt

GBT 18391.5-2009 信息技術元數據注冊系統 (MDR) 第5部分：命名和標識原則 ISOIEC11179-5 2005， IDT.txt

GBT 18391.6-2009 信息技術元數據注冊系統 (MDR) 第6部分：注冊 ISOIEC11179-6 2005， IDT.txt

GBT 23824.1-2009 信息技術實現元數據注冊系統內容一致性的規程第 1部分：數據元 ISOIEC TR20943-1 2003， IDT.txt

GBT 23824.3-2009 信息技術實現元數據注冊系統內容一致性的規程第 3部分：值域 ISOIEC TR20943-3 2004， IDT.txt

GBT 30881-2014 信息技術元數據注冊系統 (MDR)模塊 ISOIEC 197732011.txt

GBT 32392.1-2015 信息技術互操作性元模型框架(MFI) 第1部分：參考模型.txt

GBT 32392.2-2015 信息技術互操作性元模型框架(MFI) 第2部分：核心模型.txt

GBT 32392.3-2015 信息技術互操作性元模型框架(MFI) 第3部分：本體注冊元模型.txt

GBT 32392.4-2015 信息技術互操作性元模型框架(MFI) 第4部分：模型映射元模型.txt

GBT 32392.5-2018 信息技術互操作性元模型框架(MFI) 第5部分：過程模型注冊元模型.txt

GBT 32392.7-2018 信息技術互操作性元模型框架第7部分：服務模型注.txt

GBT 32392.8-2018 信息技術互操作性元模型框架第8部分：角色與目標模型注冊元模型.txt

GBT 32392.9-2018 信息技術互操作性元模型框架第9部分：按需模型選擇.txt

GBZ 21025-2007 XML使用指南.txt

3 技術

YDT 3772-2020 大數據時序資料庫技術要求與測試方法.txt

YDT 3773-2020 大數據分布式批處理平台技術要求與測試方法.txt

YDT 3774-2020 大數據分布式分析型資料庫技術要求與測試方法.txt

YDT 3775-2020 大數據分布式事務資料庫技術要求與測試方法.txt

大數據開放與互操作技術

信息技術大數據互操作技術指南擬研製.txt

大數據生存周期處理技術

GBT 32908-2016 非結構化數據訪問介面規范.txt

GBT 36345-2018 信息技術通用數據導入接口規范.txt

信息技術大數據面向分析的數據檢索與存儲技術要求在研.txt

大數據集描述

GBT 32909-2016 非結構化數據表示規范.txt

GBT 34945-2017 信息技術數據溯源描述模型.txt

GBT 34952-2017 多媒體數據語義描述要求.txt

GBT 35294-2017 信息技術科學數據引用.txt

GBT 38667-2020 信息技術大數據數據分類指南.txt

GB T 38667-2020 信息技術大數據數據分類指南.pdf

4 平台、工具

GBT 38673-2020 信息技術大數據大數據系統基本要求.txt

GBT 38675-2020 信息技術大數據計算系統通用要求.txt

GB T 37721-2019 信息技術大數據分析系統功能要求》.pdf

GB T 37722-2019 信息技術大數據存儲與處理系統功能要求.pdf

GB T 38633-2020 信息技術大數據系統運維和管理功能要求.pdf

GB T 38643-2020 信息技術大數據分析系統功能測試要求.pdf

GB T 38676-2020 信息技術大數據存儲與處理系統功能測試要求.pdf

JRT 0206—2021 證券期貨業大數據平台性能測試指引.pdf

YDT 3762-2020 大數據數據挖掘平台技術要求與測試方法.txt

5 安全和隱私

GAT 1718-2020《信息安全技術大數據平台安全管理產品安全技術要求》.txt

GBT 大數據系統軟體安全防護指南》標准草案.pdf

GB T 35274-2017 信息安全技術大數據服務安全能力要求立項.pdf

GB T 37973-2019 信息安全技術大數據安全管理指南.pdf

YDT 3736-2020 電信運營商大數據安全風險及需求.txt

YDT 3741-2020 互聯網新技術新業務安全評估要求大數據技術應用與服務.txt

YDT 3800-2020 電信網和互聯網大數據平台安全防護要求.txt

信息安全技術電信領域大數據安全防護實現指南.doc

d

㈧大數據下的地質資料信息存儲架構設計

頡貴琴胡曉琴

(甘肅省國土資源信息中心)

摘要為推進我國地質資料信息服務集群化產業化工作，更大更好地發揮地質資料信息的價值，本文針對我國現有的地質資料信息集群化共享服務平台存在的缺陷和問題，基於現有系統的存儲架構，設計了一種大數據下的地質資料信息存儲架構，以便於我國地質資料信息服務集群化產業化工作能夠適應大數據時代的數據存儲。

關鍵詞大數據地質資料存儲 NoSQL 雙資料庫

0 引言

新中國成立60多年來，我國形成了海量的地質資料信息，為國民經濟和社會發展提供了重要支撐。但在地質資料管理方面長期存在資料信息分散、綜合研究不夠、數字化信息化程度不高、服務渠道不暢、服務能力不強等問題，使地質資料信息的巨大潛在價值未能得到充分發揮。為進一步提高地質工作服務國民經濟和社會發展的能力，充分發揮地質資料信息的服務功能，擴大服務領域，國土資源部根據國內外地質工作的先進經驗，做出了全面推進地質資料信息服務集群化產業化工作的部署。

目前，全國各省地質資料館都在有條不紊地對本省成果、原始和實物地質資料進行清理，並對其中重要地質資料進行數字化和存儲工作。然而，由於我國地質資源豐富，經過幾十年的積累，已經形成了海量的地質資料，數據量早已經超過了幾百太位元組(TB)。在進行地質資料信息服務集群化工作中，隨著共享數據量的不斷增大，傳統的數據存儲方式和管理系統必然會展現出存儲和檢索方面的不足以及系統管理方面的缺陷。為了解決該問題，需要設計更加先進的數據存儲架構來實現海量地質資料的存儲。

而大數據(Big Data)作為近年來在雲計算領域中出現的一種新型數據，科技工作者在不斷的研究中，設計了適合大數據存儲管理的非關系型資料庫NoSQL進行大數據的存儲和管理。本文將針對我國現有的地質資料信息集群化共享服務平台存在的缺陷和問題，利用大數據存儲管理模式的思想，提出一種海量地質資料存儲架構，改進現有系統存儲架構，以便於我國全面推進地質資料信息服務集群化產業化工作。

1 工作現狀

1.1 國內外地質資料信息的存儲現狀

在美國，主要有兩大地質資料公共服務平台，分別是地球科學信息中心(ESIC)、地球資源觀測和科學中心(EROS)，其目的是通過為社會和政府提供更加便利、快速的地質信息服務。20世紀90年代初，澳大利亞出台了國家地球科學填圖協議，採用先進的科學方法和技術進行數據存儲，從而形成了第二代澳大利亞陸地地質圖。

目前，我國地質資料信息服務集群化產業化工作剛剛起步，雖然國土資源部信息中心已經開發了地質資料信息集群化共享服務平台，並倡導各地方用戶使用該系統。但由於各個地方早期的工作背景不一致，因此各地方所使用的存儲系統也不盡相同，主要有Access、SQL Server、Oracle、MySQL等系統。本文以國土資源部信息中心開發的地質資料信息集群化共享服務平台的存儲系統MySQL為例說明。該系統是基於關系資料庫管理系統MySQL的一套分布式存儲檢索系統。該系統的部署使得我國地質資料信息服務集群化產業化工作取得了重大進展，同時也為我國建立標准統一的地質資料信息共享服務平台和互聯互通的網路服務體系奠定了堅實的基礎。然而，該系統的研發並沒有考慮到地質資料信息進一步集群化以及在未來地質資料信息進入大數據時代的信息共享和存儲管理問題，也沒有給出明確的解決方案。

1.2 大數據的存儲架構介紹

大數據是近年在雲計算領域中出現的一種新型數據，具有數據量大、數據結構不固定、類型多樣、查詢分析復雜等特點。傳統關系型資料庫管理系統在數據存儲規模、檢索效率等方面已不再適合大數據存儲。NoSQL(Not Only SQL)是與關系資料庫相對的一類資料庫的總稱。這些資料庫放棄了對關系資料庫的支持，轉而採用靈活的、分布式的數據存儲方式管理數據，從而可以滿足大數據存儲和處理的需求。NoSQL基於非關系型數據存儲的設計理念，以鍵值對進行存儲，採用的數據字的結構不固定，每一個元組可以有不一樣的欄位，且每個元組可以根據自己的需要增加一些自己的鍵值對，可以減少一些檢索時間和存儲空間。目前，應用廣泛的 NoSQL 資料庫有 Google BigTable、HBase、MongoDB、Neo4 j、Infinite Graph等。

2 大數據下的地質資料信息存儲架構設計

根據國土資源部做出的全面推進地質資料信息服務集群化產業化工作的部署，國土資源部倡導全國地質資料館使用國土資源部信息中心開發的地質資料信息集群化共享服務平台，實現地質資料信息的存儲和共享。該系統採用了資料庫管理系統MySQL作為數據存儲系統。

為了與現有系統和現有的工作進行對接，並為將來地質資料進入大數據時代後的存儲工作做准備，本文設計了一種能用於海量地質資料信息存儲並且兼容MySQL的分布式的數據存儲架構(圖1)。

整個系統可以根據不同的用戶等級分為不同的用戶管理層，由於圖幅限制，在圖1 中僅僅展示了3級：國家級管理層(即共享服務平台用戶層)、省級管理層以及市級管理層(可根據實際需要延伸至縣級)。

每級管理層的每個用戶可以單獨管理一個伺服器。如國土資源部信息中心可以單獨管理一個伺服器；甘肅省國土資源信息中心可以單獨管理一個伺服器，陝西省國土資源信息中心可以單獨管理一個伺服器；甘肅的若干個市級國土資源局可以根據需要分別管理各自的伺服器。

在伺服器上分別安裝兩套資料庫管理系統，一套是原有的MySQL資料庫管理系統，另一套是為大數據存儲而配備的NoSQL型資料庫管理系統。在伺服器上還專門開發一個資料庫管理器中間件，用於進行用戶層和資料庫的通信以及兩套資料庫之間的通信。

由於各個管理層都各自維護自己的資料庫和數據。當用戶需要進行數據存儲時，他所影響的資料庫僅僅是本地資料庫，存儲效率較高；當用戶需要從多個資料庫讀取數據時，頂層的共享服務平台會根據用戶需求進行任務分解，將任務分發給下層的管理層進行資料庫讀取，由於各個資料庫並行讀取，從而提高了資料庫讀取效率。

圖1 大數據下的地質資料信息存儲架構框圖

2.1 用戶管理層

用戶管理層根據許可權范圍，分為多層(本文以3層為例)。

位於頂層的國家級管理層(共享服務平台用戶層)負責用戶訪問許可權的分配、與其直接關聯的資料庫的訪問、下級管理層任務的分配等工作。

用戶訪問許可權的分配是指為訪問本共享服務平台的個人用戶和單位用戶分配數據的使用許可權、安全性的設計等。

與其直接關聯的資料庫訪問是指直接存儲在其本地資料庫上的數據的訪問。在該資料庫中不僅要存儲所需要的地質資料，還要存儲注冊用戶信息等數據。

下級管理層任務分配是指如果用戶需要訪問多個下層資料庫，用戶只需要輸入查詢這幾個下層資料庫的命令，而如何查找下層資料庫則由該功能來完成。例如某用戶要查找甘肅、陝西、上海、北京的鐵礦分布圖，則用戶只需要輸入這幾個地方及鐵礦等查詢條件，系統將自動把各個省的資料庫查詢任務分派到下級管理層。

同理，位於下層的省級管理層和市級管理層除了沒有用戶訪問許可權功能外，其餘功能與國家級管理層是相同的。各層之間的資料庫通過互聯網相互連接成分布式的資料庫系統。

2.2 MySQL和NoSQL的融合

MySQL是關系型資料庫，它支持SQL查詢語言，而NoSQL是非關系型資料庫，它不支持SQL查詢語言。用戶要想透明地訪問這兩套資料庫，必須要設計資料庫管理器中間件，作為用戶訪問資料庫的統一入口和兩套資料庫管理系統的通信平台。本文所設計的資料庫管理器簡單模型如圖2所示。

圖2 資料庫管理器模型

伺服器管理器通過用戶程序介面與應用程序進行通訊，通過MySQL資料庫介面與MySQL伺服器通訊，通過NoSQL資料庫介面與NoSQL資料庫介面通訊。當應用程序介面接收到一條資料庫訪問命令之後，交由資料庫訪問命令解析器進行命令解析，從而形成MySQL訪問命令或者NoSQL訪問命令，通過相應的資料庫介面訪問資料庫；資料庫返回訪問結果後經過匯總，由應用程序介面返回給應用程序。

兩套資料庫可以通過雙資料庫通信協議進行相互的通信和互訪。此通信協議的建立便於地質工作人員將已經存入MySQL資料庫的不適合結構化存儲的數據轉存到NoSQL資料庫中，從而便於系統的升級和優化。

2.3 系統的存儲和檢索模式

在本存儲框架設計中，系統採用分布式網路存儲模式，即採用可擴展的存儲結構，利用分散在全國各地的多台獨立的伺服器進行數據存儲。這種方式不僅分擔了伺服器的存儲壓力，提高了系統的可靠性和可用性，還易於進行系統擴展。另外，由於地質資料信息存儲的特殊性，各地方用戶的數據存儲工作基本都是在本地伺服器進行，很少通過網路進行遠程存儲，所以數據存儲效率較高。

在一台資料庫伺服器上安裝有MySQL和NoSQL型兩套資料庫管理系統，分別用於存儲地質資料信息中的結構化數據和非結構化數據。其中，NoSQL型資料庫作為主資料庫，用於存儲一部分結構化數據和全部的非結構化數據；而MySQL資料庫作為輔助資料庫，用於存儲一部分結構化的數據，以及舊系統中已經存儲的數據。使用兩套資料庫不僅可以存儲結構化數據而且還可以適用於大數據時代地質資料信息的存儲，因此系統具有很好的適應性和靈活性。

2.4 安全性設計

地質資料信息是國家的機密，地質工作人員必須要保證它的安全。地質資料信息進入數字化時代之後，地質資料常常在計算機以及網路上進行傳輸，地質資料信息的安全傳輸和保存更是地質工作人員必須關注和解決的問題。在本存儲架構的設計中設計的安全問題主要有資料庫存儲安全、數據傳輸安全、數據訪問安全等問題。

資料庫設計時採用多邊安全模型和多級安全模型阻止資料庫中信息和數據的泄露來提高資料庫的安全性能，以保障地質信息在資料庫中的存儲安全；當用戶登錄系統訪問資料庫時，必須進行用戶甄別和實名認證，這主要是對用戶的身份進行有效的識別，防止非法用戶訪問資料庫；在對地質資料進行網路傳輸時，應該首先將數據進行加密，然後再進行網路傳輸，以防止地質信息在傳輸過程中被竊取。

3 結語

提高地質資料數字化信息化水平，是國外地質工作強國的普遍做法。為推進我國地質資料信息服務集群化產業化工作，本文針對我國現有的地質資料信息集群化共享服務平台存在的缺陷和問題，利用大數據存儲管理模式的思想，基於現有系統的存儲架構，設計了一種大數據下的地質資料信息存儲架構，以便於我國地質資料信息服務集群化產業化工作能夠適應大數據時代的數據存儲。該存儲架構的設計只涉及了簡單模型的構建，具體詳細復雜的功能設計和軟體實現還需要在進一步的研究工作中完成。

參考文獻

[1]吳金朋.一種大數據存儲模型的研究與應用[D].北京：北京郵電大學計算機學院，2012.

[2]吳廣君，王樹鵬，陳明，等.海量結構化數據存儲檢索系統[J].計算機研究與發展，2012，49(Suppl)：1～5.

[3]黃

，易曉東，李姍姍，等.面向高性能計算機的海量數據處理平台實現與評測[J].計算機研究與發展，2012，49(Suppl)：357～361.

㈨第三章大數據存儲

一，HDFS的基本特徵與構架
1.基本特徵
（1）大規模數據分布存儲能力：以分布式存儲能力和良好的可擴展性。（基於大量分布節點上的本地文件系統，構建一個邏輯上具有巨大容量的分布式文件系統，並且整個文件系統的容量可隨集群中節點的增加而線性擴展）
（2）高並發訪問能力：提供很高的數據訪問寬頻（高數據吞吐率），並且可以把帶寬的大小等比例擴展到集群中的全部節點上
（3）強大的容錯能力：（設計理念中硬體故障被視作常態）保證在經常有節點發生硬體故障的情況下正確檢測硬體故障，並且能自動從故障中快速恢復，確保數據不丟失（採用多副本數據塊形式存儲）
（4）順序式文件訪問：（大數據批處理都是大量簡單數據記錄的順序處理）對順序讀進行了優化，支持大量數據的快速順序讀出，代價是對於隨機的訪問負載較高
（5）簡單的一致性模型（一次寫多次讀）：支持大量數據的一次寫入，多次讀取；不支持已寫入數據的更新操作，但允許在文件尾部添加新的數據
（6）數據塊存儲模式：默認的塊大小是64MB。好處：減少元數據的數量，允許這些數據塊通過隨機方式選擇節點，分布存儲在不同地方
2.基本框架與工作過程
（1）基本組成結構與文件訪問過程
[1]HDFS；一個建立在一組分布式伺服器節點的本地文件系統之上的分布式文件系統（採用經典主-從結構）
[2]主控節點NameNode:
1）是一個主伺服器，用來管理整個文件系統的命名空間和元數據,以及處理來自外界的文件訪問請求
2）保存了文件系統的三中元數據
命名空間：整個分布式文件系統的目錄結構
數據塊與文件名的映射表
每個數據塊副本的位置信息，每一個數據塊默認有3個副本
[3]從節點DataNode：
1）用來實際存儲和管理文件的數據塊
2）為了防止數據丟失，每個數據塊默認有3個副本，且3個副本會分別復制在不同節點上，以避免一個節點失效造成一個數據塊的徹底丟失
[4]程序訪問文件時，實際文件數據流並不會通過NameNode傳送，而是從NameNode獲得所需訪問數據塊的存儲位置信息後，直接去訪問對應的DataNode獲取數據
[5]設計好處：
1）可以允許一個文件的數據能同時在不同DataNode上並發訪問，提高數據訪問的速度
2）減少NameNode的負擔，避免使NameNode成為數據訪問瓶頸
[6]基本訪問過程：
1）首先，用戶的應用程序通過HDFS的客戶端程序將文件名發送至NameNode
2）NameNode接收到文件名之後，在HDFS目錄中檢索文件名對應的數據塊，再根據數據塊信息找到保存數據塊的DataNode地址，講這些地址回送到客戶端
3）客戶端接收到這些DataNode地址之後，與這些DataNode並行的進行數據傳輸操作，同時將操作結果的相關日誌提交到NameNode
2.數據塊
（1）為了提高硬碟的效率，文件系統中最小的數據讀寫單元是數據塊
（2）HDFS數據塊的默認大小是64MB，實際部署中，可能會更多
（3）將數據塊設置大的原因是減少定址開銷的時間
（4）當應用發起數據傳輸請求：
[1]NameNode首先檢索文件對應的數據塊信息，找到數據塊對應的DataNode
[2]DataNode根據數據塊信息在自身的存儲中尋找相應的文件，進而與應用程序之間交換數據
[3]因為檢索過程是但進行，所以要增加數據塊大小，這樣就可以減少定址的頻度和時間開銷
3.命名空間
（1）文件命名遵循「目錄/子目錄/文件」格式
（2）通過命令行或者是API可以創建目錄，並且將文件保存在目錄中。可以對文件進行創建，刪除，重命名操作
（3）命令空間由NameNode管理。所有對命名空間的改動都會被記錄
（4）允許用戶配置文件在HDFS上保存的副本數量，保存的副本數稱作「副本因子」
4.通信協議
（1）採用TCP協議作為底層的支撐協議
（2）應用協議
[1]應用可以向NameNode主動發起TCP連接
[2]應用和NameNode交互協議稱為Client協議
[3]NameNode和DataNode交互的協議稱為DataNode協議
（3）用戶和DataNode的交互是通過發起遠程調用（RPC），並由NameNode響應來完成的。另外，NameNode不會主動發起遠程過程調用請求
5.客戶端：是用戶和HDFS通信最常見的渠道，部署的HDFS都會提供客戶端
二，HDFS可靠性設計
1.HDFS數據塊多副本存儲設計
（1）採用了在系統中保存多個副本的方式保存數據，且同一個數據塊的多個副本會存放在不同節點上
（2）優點：
[1]採用多副本，可以讓客戶從不同數據塊中讀取數據，加快傳輸速度
[2]HDFS的DataNode之間通過網路傳輸數據，如果採用多個副本可以判斷數據傳輸是否出錯
[3]多副本可以保證某個DataNode失效的情況下，不會丟失數據
2.可靠性的設計實現
（1）安全模式：
[1]HDFS啟動時，NameNode進入安全模式
[2]處於安全模式的NameNode不能做任何文本操作，甚至內部的副本創建不允許
[3]NameNode需要和各個DataNode通信，獲得其中保存的數據塊信息，並對數據塊信息進行檢查
[4]只有通過了NameNode檢查，一個數據塊被認為安全。當被認為安全的數據塊所佔比例達到某個閾值，NameNode退出
（2）SecondaryNmaeNode
[1]使用它來備份NameNode元數據，以便在其失效時能從中恢復出其上的元數據
[2]它充當NameNode的一個副本，本身並不處理任何請求。
[3]作用：周期性保存NameNode的元數據
（3）心跳包和副本重新創建
[1]心跳包：位於HDFS核心的NameNode，通過周期性的活動檢查DataNode的活動
[2]檢測到DataNode失效，保存在其上的數據不可用。則其上保存的副本需要重新創建這個副本，放到另外可用的地方
（4）數據一致性
[1]採用了數據校驗和機制
[2]創建文件時，HDFS會為這個文件生成一個校驗和，校驗和文件和文件本身保存在同一空間上，
[3]傳輸數據時會將數據與校驗和一起傳輸，應用收到數據後可以進行校驗
（5）租約
[1]防止同一個文件被多個人寫入數據
[2]NameNode保證同一個文件只會發放一個允許的租約，可以有效防止出現多人寫入的情況
（6）回滾
三，HDFS文件存儲組織與讀寫
1.文件數據的存儲組織
（1）NameNode目錄結構
[1]藉助本地文件系統來保存數據，保存文件夾位置由配置選項（{dfs.name.dir}/{/tmp/dfs/name}）決定
[2]在NameNode的${dfs.name.dir}之下有3個文件夾和1個文件：
1）current目錄：
文件VERSION:保存了當前運行的HDFS版本信息
FsImages:是整個系統的空間鏡像文件
Edit：EditLog編輯文件
Fstime：上一次檢查點時間
2）previous.checkpoint目錄：和上一個一致，但是保存的是上一次檢查點的內容
3）image目錄：舊版本的FsImage存儲位置
4）in_use.look:NameNode鎖，只在NameNode有效（啟動並且能和DataNode正常交互）時存在。
（2）DataNode目錄結構
[1]藉助本地文件系統來保存數據。保存文件夾位置由配置選項{dfs.data.dir}決定
[2]在其之下有4個子目錄和2個文件
1）current目錄：已經成功寫入的數據塊，以及一些系統需要的文件
a)文件VERSION：保存了當前運行的HDFS版本信息
b)subdirXX:當同一目錄下文件超過一定限制，新建一個目錄，保存多出來的數據塊和元數據
2）tmp目錄和blockBeingWritten目錄：正在寫入的數據塊，是HDFS系統內部副本創建時引發的寫入操作對應的數據塊
3）detach目錄：用於DataNode升級
4）Storage目錄：防止版本不同帶來風險
5）in_user.lock文件：DataNode鎖。只有在DataNode有效時存在。
（3）CheckPointNode目錄結構：和上一個基本一致
2.數據的讀寫過程
（1）數據讀取過程
[1]首先，客戶端調用FileSystem實例的open方法，獲得這個文件對應的輸入流，在HDFS中就是DFSInputStream
[2]構造第一步的輸入流時，通過RPC遠程調用NameNode可以獲得NameNode中此文件對應的數據塊保存位置，包括這個文件副本的保存位置（註：在輸入流中會按照網路拓撲結構，根據與客戶端距離對DataNode進行簡單排序）
[3]-[4]獲得此輸入流後，客戶端調用READ方法讀取數據。輸入流選擇最近的DFSInputStream會根據前面的排序結果，選擇最近的DataNode建立連接並讀取數據。
[5]如果已達到數據塊末端，關閉這個DataNode的連接，然後重新查找下一個數據塊
[6]客戶端調用close，關閉輸入流DFSInputStream
（2）數據輸入過程
[1]-[2]:客戶端調用FileSystem實例的create方法，創建文件。檢查後，在NameNode添加文件信息，創建結束之後，HDFS會返回一個輸出流DFSDataOutputStream給客戶端
[3]調用輸出流的write方法向HDFS中對應的文件寫入數據。
數據首先會被分包，這些分包會寫入一個輸出流的內部隊列Data隊列中，接收完整數據分包，輸出流回想NameNode申請保存文件和副本數據塊的若干個DataNode
[4]DFSDataOutputStream會（根據網路拓撲結構排序）將數據傳輸給距離上最短的DataNode，這個節點接收到數據包後傳給下一個。數據在各節點之間通過管道流通，減少傳輸開銷
[5]數據節點位於不同機器上，數據需要通過網路發送。（為保證數據節點數據正確，接收到數據的節點要向發送者發送確認包）
[6]執行3-5知道數據全部寫完，DFSDataInputStream繼續等待知道所有數據寫入完畢並確認，調用complete方法通知NameNode文件寫入完成
[7]NameNode接收到complete消息之後，等待相應數量的副本寫入完畢後，告知客戶端
傳輸過程，當某個DataNode失效，HDFS執行：
1）關閉數據傳輸的管道
2）將等待ACK隊列的數據放到Data隊列頭部
3）更新正常DataNode中所有數據塊版本。當失效的DataNode重啟，之前的數據塊會因為版本不對被清除
4）在傳輸管道中刪除失效的DataNode,重新建立管道並發送數據包
4.HDFS文件系統操作命令
（1）HDFS啟動與關閉
[1]啟動過程：
1）進入到NameNode對應節點的Hadoop安裝目錄
2）執行啟動腳本:bin/start-dfs.sh
[2]關閉過程:bin/stop-dfs.sh
（2）文件操作命令格式與注意事項
[1]基本命令格式：
1）bin/hadoop dfs-cmd <args> args-> scheme://authority/path
2）args參數基本格式前面是scheme，authority是機器地址和對應埠
a)本地文件，scheme是file
b)HDFS上文件，scheme是hdfs
（3）文件操作基本格式
[1]hadoop dfs-cat URL [URL ...]
[2]作用：將參數所指示文件內容輸出到stdout

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1031

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1307

python中的init方法發布：2025-10-20 08:17:33 瀏覽：990

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1166

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1037

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1394

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：606

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：500

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1169

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1168

大數據存儲與檢索

與大數據存儲與檢索相關的資訊