資料庫現階段
1. 關於檔案資料庫建設問題的探討
余虹劍
(中國地質調查局南京地質調查中心)
摘要 數字化各種檔案的目的是要向社會提供信息服務,這種服務需要一個由檔案網路體系、網站、資料庫、信息服務系統、檔案資源等組成的良好的服務平台做支撐。檔案資料庫建設就是為數字化了的檔案提供服務的資源平台。
關鍵詞 著錄 資料庫 規范 管理
1 標准化、規范化數據著錄
檔案資料庫屬於文獻資料庫,是檔案自動化的重要內容。檔案資料庫是以系統的方法編排的,並可通過電子方式單獨訪問的檔案數據的集合。[1]檔案資料庫建設的成功與否,在很大程度上取決於資料庫的質量。庫中的數據條目必須標准、規范,達到有序、有效,庫管理本身是科學合理的,這樣的資料庫操作性一般較強、使用面也較廣。科學實用的檔案資料庫在建庫時,一般都會按照相應的技術標准、管理標准和工作標准,最終形成一個自身的標准,形成規范的檔案數字化利用平台。作為一個數字檔案館,應先建立館藏檔案的目錄資料庫,也是著錄資料庫,包括全宗級、案卷級、文件級目錄,並應注意它們之間的關系。另外,根據本單位的館藏特色開展檔案全文資料庫建設。檔案全文資料庫涵蓋面較廣,一般含有文本型、圖形圖像型和多媒體型。目錄資料庫與全文資料庫要實現結構化,促發式。檔案目錄資料庫是檔案資料庫的基本,它能提供便捷的查詢路徑,閱覽者可根據需要,通過一次輸入就能提取閱覽者希望查詢的結果。提供類似查詢前必須建立基礎信息數據,這些數據包括檔案題名、責任者、來源、頁碼、分類號、主題詞、摘要等,少數包含檔案全文。[2]這項工作對著錄的內容特徵如關鍵詞、題名、項目負責人等著錄不詳細、標准不統一、索引的檔案內容深度廣度不夠,在檢索時就會有誤差,出現檢索不準確、不全面的現象,在一定程度上會影響檔案利用率。可以說,著錄標引是否標准規范是影響資料庫管理的關鍵因素之一,這項工作大體上決定著數據結構的合理性,這項工作能完成好是檢索系統查全、查準的前提。除檔案目錄資料庫外,檔案全文資料庫、多媒體檔案資料庫、Web資料庫的建設也必須遵守檔案著錄、標引等標準的原則要求。
2 建立資料庫
現階段根據有關部門的工作需要和計劃,按照內容不同,我們建立的資料庫分為成果資料庫和科技檔案資料庫,分別針對地質大調查形成的資料和單位各項目形成的資料、收集來的各項各類資料錄入數據條目。該資料庫更新到目前已收集的所有合格項目的資料和數據,針對這個資料庫還建立了目錄級資料庫共分兩級:第一級是項目大類共552條。第二級是各個項目詳細內容條目,截至擬稿更新到第一級第240條記錄的具體內容共5836條記錄。還有一大半有待繼續更新錄入。
3 保障數據安全是檔案信息資料庫的根本
檔案數據生成即必須長期甚至永久保存。該怎麼保證經過數字化後的檔案的原始性,防範這些數字內容不被篡改等,都是建設檔案資料庫時在安全方面應解決的問題。資料庫的參數設定、數據存儲方式和位置、數據傳輸途徑、使用等各個環節和整個過程都涉及檔案資料庫的安全。為防止數據丟失、損毀,避免保密信息流失等事故,又要保障海量信息數據的安全、完整,使日積月累產生和收集來的檔案數據能在日後長期得到利用,必須把更新檔案資料庫安全體系、合乎實際工作需求的管理制度作為資料庫建設的關鍵環節。制定既利於工作又能監管數據出入的防範措施,加強數據運行中的監控和管理,使資料庫從建設到利用各環節都萬無一失。檔案資料庫建設時,經常使用技術手段實現許可權控制,日常的數據備份必不可少。廣義上,許可權控制應設置讀寫控制、數據加密等方面,從實際工作需求出發,一般根據用戶類別、部門允許訪問范圍內(包括閱覽、下載等)的目錄和檔案數據對訪問和使用設置可訪問層度、控制和監督。防寫控制是使信息保真的手段,使得用戶只能讀取信息,而不能修改、復制,以防止信息被篡改。加密技術可以確保控制檔案內容的非公開性。為保證許可權控制的有效性,要在系統中配置使用記錄系統,全程跟蹤、自動記錄使用情況,進行定期檢測與維護,還要隨著高新技術的發展,引進新的安防技術。
4 檔案信息化建設需要切實加強集中統一的管理體制
檔案信息化建設的管理體制是從管理制度上保證業務技術的規范、標准和硬軟體選用的統一性,使各層次、各專業辦公都納入統一的檔案信息自動化系統管理當中,實現集中統一的管理。使其不能各行其是自建系統,從而減少信息分割和資源浪費現象的發生。檔案信息化系統的管理體制,要在較強的管理和先進的技術條件下,實行高度集中管理和方便使用相結合的模式。
5 結束語
本文闡述的只限於在檔案資料資料庫建設中遇到的極有限的實際工作問題。檔案資料庫建設是一項長期、持久的工作,作為檔案管理部門在進行資料庫建設時,要有規劃地形成資料庫產品,一般需要做用戶需求分析、本館狀況分析、效益分析等。科學選題,合理規劃,循序漸進,杜絕短期行為的發生,形成良性循環,檔案資料庫建設才能有持久發展的動力。
參考文獻
[1]孫淑梅.檔案管理與計算機[M].北京:檔案出版社,1987.
[2]洪漪編.檔案信息組織與檢索[M].武漢:武漢大學出版社,1998.
2. 資料庫的發展階段
資料庫發展階段大致劃分為如下的幾個階段:人工管理階段、文件系統階段、資料庫系統階段、高級資料庫階段。 50年代中期之前,計算機的軟硬體均不完善。硬體存儲設備只有磁帶、卡片和紙帶,軟體方面還沒有操作系統,當時的計算機主要用於科學計算。這個階段由於還沒有軟體系統對數據進行管理,程序員在程序中不僅要規定數據的邏輯結構,還要設計其物理結構,包括存儲結構、存取方法、輸入輸出方式等。當數據的物理組織或存儲設備改變時,用戶程序就必須重新編制。由於數據的組織面向應用,不同的計算程序之間不能共享數據,使得不同的應用之間存在大量的重復數據,很難維護應用程序之間數據的一致性。
這一階段的主要特徵可歸納為如下幾點:
*計算機中沒有支持數據管理的軟體。
*數據組織面向應用,數據不能共享,數據重復。
*在程序中要規定數據的邏輯結構和物理結構,數據與程序不獨立。
*數據處理方式——批處理。 這一階段的主要標志是計算機中有了專門管理資料庫的軟體——操作系統(文件管理)。
上世紀50年代中期到60年代中期,由於計算機大容量存儲設備(如硬碟)的出現,推動了軟體技術的發展,而操作系統的出現標志著數據管理步入一個新的階段。在文件系統階段,數據以文件為單位存儲在外存,且由操作系統統一管理。操作系統為用戶使用文件提供了友好界面。文件的邏輯結構與物理結構脫鉤,程序和數據分離,使數據與程序有了一定的獨立性。用戶的程序與數據可分別存放在外存儲器上,各個應用程序可以共享一組數據,實現了以文件為單位的數據共享。
但由於數據的組織仍然是面向程序,所以存在大量的數據冗餘。而且數據的邏輯結構不能方便地修改和擴充,數據邏輯結構的每一點微小改變都會影響到應用程序。由於文件之間互相獨立,因而它們不能反映現實世界中事物之間的聯系,操作系統不負責維護文件之間的聯系信息。如果文件之間有內容上的聯系,那也只能由應用程序去處理。 60年代後,隨著計算機在數據管理領域的普遍應用,人們對數據管理技術提出了更高的要求:希望面向企業或部門,以數據為中心組織數據,減少數據的冗餘,提供更高的數據共享能力,同時要求程序和數據具有較高的獨立性,當數據的邏輯結構改變時,不涉及數據的物理結構,也不影響應用程序,以降低應用程序研製與維護的費用。資料庫技術正是在這樣一個應用需求的基礎上發展起來的。
資料庫技術有如下特點:
* 面向企業或部門,以數據為中心組織數據,形成綜合性的資料庫,為各應用共享。
* 採用一定的數據模型。數據模型不僅要描述數據本身的特點,而且要描述數據之間的聯系。
* 數據冗餘小,易修改、易擴充。不同的應用程序根據處理要求,從資料庫中獲取需要的數據,這樣就減少了數據的重復存儲,也便於增加新的數據結構,便於維護數據的一致性。
*程序和數據有較高的獨立性。
* 具有良好的用戶介面,用戶可方便地開發和使用資料庫。
* 對數據進行統一管理和控制,提供了數據的安全性、完整性、以及並發控制。
從文件系統發展到資料庫系統,這在信息領域中具有里程碑的意義。在文件系統階段,人們在信息處理中關注的中心問題是系統功能的設計,因此程序設計佔主導地位;而在資料庫方式下,數據開始占據了中心位置,數據的結構設計成為信息系統首先關心的問題,而應用程序則以既定的數據結構為基礎進行設計。大事記
1951:Univac系統使用磁帶和穿孔卡片作為數據存儲。
1956:IBM公司在其Model 305 RAMAC中第一次引入了磁碟驅動器
1961:通用電氣(GE)公司的Charles Bachman開發了第一個資料庫管理系統——IDS
1969: E.F. Codd發明了關系資料庫。
1973:由John J.Cullinane領導Cullinane公司開發了 IDMS——一個針對IBM主機的基於網路模型的資料庫。
1976:Honeywell公司推出了Multics Relational Data Store——第一個商用關系資料庫產品。
1979:Oracle公司引入了第一個商用SQL關系資料庫管理系統。
1983:IBM推出了DB2資料庫產品。
1985:為Procter & Gamble系統設計的第一個商務智能系統產生。
1991:W.H.「Bill」 Inmon發表了」構建數據倉庫」。 隨著信息管理內容的不斷擴展,出現了豐富多樣的數據模型(層次模型,網狀模型,關系模型,面向對象模型,半結構化模型等),新技術也層出不窮(數據流,Web數據管理,數據挖掘等)。每隔幾年,國際上一些資深的資料庫專家就會聚集一堂,探討資料庫研究現狀,存在的問題和未來需要關注的新技術焦點。過去已有的幾個類似報告包括:1989年Future Directions inDBMS Research-The Laguna BeachParticipants ;1990年DatabaseSystems : Achievements and Opportunities ;1991年W.H. Inmon 發表的《構建數據倉庫》;1995年Database。
3. 計算機數據管理技術經歷了哪三個階段
1、人工管理階段
在計算機出現之前,人們運用常規的手段從事記錄、存儲和對數據加工,也就是利用紙張來記錄和利用計算工具(算盤、計算尺)來進行計算,並主要使用人的大腦來管理和利用這些數據。
到了20世紀50年代中期,計算機主要用於科學計算。當時沒有磁猛輪盤等直接存取設備,只有紙帶、卡片、磁帶等外存,也沒有操作系統和管理數據的專門軟體。信則數據處理的方式是批處理。
2、文件系統階段
20世紀50年代後期到60年代中期,隨著計算機硬體和軟體的發展,磁碟、磁鼓等直接存取設備開始普及,這一時期的數據處理系統是把計算機中的數據組織成相互獨立的被命名的數據文件,並可按文件的名字來進行訪問,對文件中的記錄進行存取的數據管理技術。
數據可以長期保存在計算機外存上,可以對數據進行反復處理,並支持文件的查詢、修改、插入和刪除等操作,這就是文件系統。
件系統實現了記錄內的結構化,但從文件的整體來看卻是無結構的。其數據面滑知棚向特定的應用程序,因此數據共享性、獨立性差,且冗餘度大,管理和維護的代價也很大。
3、資料庫系統階段
20世紀60年代後期以來,計算機性能得到進一步提高,更重要的是出現了大容量磁碟,存儲容量大大增加且價格下降。在此基礎上,而滿足和解決實際應用中多個用戶、多個應用程序共享數據的要求,從而使數據能為盡可能多的應用程序服務,這就出現了資料庫這樣的數據管理技術。
資料庫的特點是數據不再只針對某一個特定的應用,而是面向全組織,具有整體的結構性,共享性高,冗餘度減小,具有一定的程序與數據之間的獨立性,並且對數據進行統一的控制。
(3)資料庫現階段擴展閱讀
數據管理與智能計算的深度融合已經成為大數據時代順利前行的迫切需求。一方面,將新一代人工智慧方法應用於先進數據管理技術,嘗試探索和突破智能數據管理與分析的理論體系、技術方法及系統平台,已經成為數據管理領域的新興研究方向。
另一方面,研發面向人工智慧的資料庫基礎軟體,為新一代人工智慧技術的研發和廣泛應用提供海量數據的有效存儲、查詢、分析和挖掘等的系統支持,亦是國家科技創新的決定性因素。
智能數據管理與分析領域日益得到學術界和工業界的普遍關注,其理論、技術和方法亟待深入的探索與思考。目前,針對智能數據管理與分析的研究仍然處於起步階段。
國內外研究者提出了一些新穎的智能數據管理演算法,如關系數據的智能索引結構、深度學習訓練數據的有效管理方法等,也開發出了基於機器學習技術自動調優關系資料庫管理系統的工具。
4. 資料庫管理技術三個階段的特點是什麼
特點如下:
1、人工管理階段:
(1)、數據不保存。因為當時計算機主要用於科學計算,對於數據保存的需求尚不迫切。
(2)、系統沒有專用的軟體對數據進行管理,每個應用程序都要包括數據的睜閉存儲結構、存取方法和輸入方法等。程序員編寫應用程序是,還要安排數據的物理存儲,因此程序員負擔很重。
(3)、數據不共享。數據是面向程序的,一組數據只能對應一個程序。
(4)、數據不具有獨立性。程序依賴於數據,如果數據的類型、格式或輸入/輸出方式等邏輯結構或物理結構發生變化,則必須對應用程序做出相應的修改。漏空
2、文件系統階段:
(1)、數據可以長期保存在計算機外存上,可以對數據進行反復處理,並支持文件的查詢、修改、插入和刪除等操作。
(2)、文件系悉搜裂統實現了記錄內的結構化,但從文件的整體來看卻是無結構的。
(3)、其數據面向特定的應用程序,因此數據共享性、獨立性差,且冗餘度大,管理和維護的代價也很大。
3、資料庫系統階段:
(1)、數據結構化。在描述數據時不僅要描述數據本身,還要描述數據之間的聯系。數據結構化是資料庫的主要特徵之一,也是資料庫系統與文件系統的本質區別。
(2)、數據共享性高、冗餘少且易擴充。數據不再針對某一個應用,而是面向整個系統,數據可被多個用戶和多個應用共享使用,而且容易增加新的應用,所以數據的共享性高且易擴充。數據共享可大大減少數據冗餘。
(3)、數據獨立性高。
(4)、數據由DBMS統一管理和控制。
資料庫為多個用戶和應用程序所共享,對數據的存取往往是並發的,即多個用戶可以同時存取資料庫中的數據,甚至可以同時存放資料庫中的同一個數據,為確保資料庫數據的正確有效和資料庫系統的有效運行,資料庫管理系統提供以下4方面的數據控制功能:
①、數據安全性控制:防止因不合法使用數據而造成數據的泄露和破壞,保證數據的安全和機密。
②、數據的完整性控制:系統通過設置一些完整性規則,以確保數據的正確性、有效性和相容性。
③、並發控制:多用戶同時存取或修改資料庫時,防止相互干擾而給用戶提供不正確的數據,並使資料庫受到破壞。
④、數據恢復:當資料庫被破壞或數據不可靠時,系統有能力將資料庫從錯誤狀態恢復到最近某一時刻的正確狀態。
(4)資料庫現階段擴展閱讀
階段特點比較:
如果說從人工管理到文件系統,是計算機開始應用於數據的實質進步,那麼從文件系統到資料庫系統,標志著數據管理技術質的飛躍。
20世紀80年代後不僅在大、中型計算機上實現並應用了數據管理的資料庫技術,如Oracle、Sybase、Informix等,在微型計算機上也可使用資料庫管理軟體,如常見的Access、FoxPro等軟體,使資料庫技術得到廣泛應用和普及。
5. 資料庫實現階段主要有哪些工作
資料庫實現階段主要有三鄭悶項工作:(1)建立資料庫結構。對描芹遲述邏輯設計和物理設計結果的程序(即「嫌叢李源模式」)
6. 資料庫技術經歷了哪幾個發展階段
按唯納照數據模型的發展演變過程,資料庫技術從開始到現在短短的30年中,主要經歷了三個發展階段:
第一代是網狀納山旁和層次資料庫系統,
第二代是關系資料庫系統,
第三代是以面向對象數據模洞橡型為主要特徵的資料庫系統.
7. 資料庫設計的四個階段
按照規范的設計方法,一個完整的資料庫設計一般分為以下六個階段。
1、需求分析:分析用戶的需求,包括數據、功能和性能需求
2、概念結構設計:主要採用E-R模型進行設計,包括畫E-R圖
3、邏輯結構設計:通過將E-R圖轉換成表,實現從E-R模型到關系模型的轉換
4、資料庫物理設計:主要是為所設計的資料庫選擇合適的存儲結構和存取路徑
5、資料庫的實施:包括編程、測試和試運行
6、資料庫運行與維護:系統的運行與資料庫的日常維護
主要特點:
⑴ 實現數據共享
數據共享包含所有用戶可同時存取資料庫中的數據,也包括用戶可以用各種方式通過介面使用資料庫,並提供數據共享。
⑵ 減少數據的冗餘度
同文件系統相比,由於資料庫實現了數據共享,從而避免了用戶各自建立應用文件。減少了大量重復數據,減少了數據冗餘,維護了數據的一致性。
⑶ 數據的獨立性
數據的獨立性包括邏輯獨立性(資料庫中資料庫的邏輯結構和應用程序相互獨立)和物理獨立性(數據物理結構的變化不影響數據的邏輯結構)。
⑷ 數據實現集中控制
文件管理方式中,數據處於一種分散的狀態,不同的用戶或同一用戶在不同處理中其文件之間毫無關系。利用資料庫可對數據進行集中控制和管理,並通過數據模型表示各種數據的組織以及數據間的聯系。
8. 計算機化的資料庫管理經歷了哪幾個階段!各有什麼特點
一、人工管理階段:
數據的管理者:人。
數據面向的對象:某一應用程序。
數據的共享程度:無共享,冗餘度極大。
數據的獨立性:不獨立,完全依賴於程序。
數據的結構化:無結構。
數據控制能力:應用程序自己控制。
二、文件系統階段:
數據的管理者:文件系統。
數據面向的對象:某一應用程序。
數據的共享程度:共享性差,冗餘度大。
數據的獨立性:獨立性差。
數據的結構化:記錄內有結構,整體無結構。
數據控制能力:應用程序自己控制。
數據管理的定義
數據管理是利用計算機硬體和軟體技術對數據進行有效的收集、存儲、處理和應用的過程。其目的在於充分有效地發揮數據的作用。實現數據有效管理的關鍵是數據組織。
隨著計算機技術的發展,數據管理經歷了人工管理、文件系統、資料庫系統三個發展階段。在資料庫系統中所建立的數據結構,更充分地描述了數據間的內在聯系,便於數據修改、更新與擴充,同時保證了數據的獨立性、可靠、安全性與完整性,減少了數據冗餘,故提高了數據共享程度及數據管理效率。
9. .資料庫設計分為幾個階段,各階段的任務是什麼
按照規范的設計方法,一個完整的資料庫設計一般分為需求分析、概念結構設計、邏輯結構設計、資料庫物理設計、資料庫的實施、資料庫運行與維護六個階段:
各階段的任務如下:
1、需求分析:分析用戶的需求,包括數據、功能和性能需求;
拓展資料:
資料庫設計(Database Design)是指對於一個給定的應用環境,構造最優的資料庫模式,建立資料庫及其應用系統,使之能夠有效地存儲數據,滿足各種用戶的應用需求(信息要求和處理要求)。在資料庫領域內,常常把使用資料庫的各類系統統稱為資料庫應用系統。
資料庫設計是建立資料庫及其應用系統的技術,是信息系統開發和建設中的核心技術。由於資料庫應用系統的復雜性,為了支持相關程序運行,資料庫設計就變得異常復雜,因此最佳設計不可能一蹴而就,而只能是一種"反復探尋,逐步求精"的過程,也就是規劃和結構化資料庫中的數據對象以及這些數據對象之間關系的過程。