資料庫之父
① 資料庫之父E.F.Codd的生平
在資料庫技術發展的歷史上,1 9 7 0 年是發生偉大轉折的一年。這一年的6 月,I B M 聖約瑟研究實驗室的高級研究員埃德加·考特 (Edgar Frank Codd) 在Communications of ACM 上發表了《大型共享資料庫數據的關系模型》一文。
② 「數據倉庫之父」談如何處理非結構化數據
毫無疑問,這是一個信息爆炸的時代。你的伺服器上充滿了各種各樣的數據。問題就提出來了,你如何處理那些非結構化數據?在本文中,讓「數據倉庫之父」 W.H.Inmon談談他自己的獨到見解。
雖說非結構化數據很難處理,但是它已經存在很久了,肯定比計算機的歷史還要久遠。不信的話,想想聖經,埃及象形文字,和卡馬河佛經這些骨灰級的東西,它們都是非結構化數據,它們的歷史可想而知了。這些非結構化數據絕對比那些矽片的出現的要早。搜索引擎雖然出現了一段時間,但也絕沒有印刷時代歷史悠久。即便現在的搜索引擎已經很完善了,但想隨心所欲的處理包含非結構化數據信息的時代還沒有到來,至少目前是這樣的。這是什麼原因造成的呢?
1、無用輸入,無用輸出 :
只有實現非結構化數據到數據倉庫的抽取,搜索引擎才會釋放出非結構化數據的真正價值。實現非結構化數據的整合存在著困難,想想那些很早就提出來的信息技術難題:無用信息輸入,無用信息輸出(GIGO),就會知道即使功能再強大的搜索引擎,用來處理那些實質上未經提煉和整和的數據會得到什麼結果?搜索引擎的結果會告訴我們答案,返回給用戶的也將會是一些沒有提煉,無用的信息。
因此,在搜索之前,那些非結構化的文本數據需要被提煉整合。如果這個工作完成的話,就不會有無用信息的輸入,那麼將不會產生無用的輸出信息。
2、Internet數據和公司數據的差異 :
通過搜索Internet來提煉數據收效甚微。通過Internet提煉和整合數據是白費力氣。試圖在Internet整合數據好比愚公移山,大海撈針。
但是公司數據就是另外一回事了,有以下兩個原因。第一,當提到公司數據,它的總量和類型是有限的,而Internet上的數據正好相反,無窮無盡。第二,不像Internet數據,公司數據幾乎和公司的事務相關。我可以很肯定的說,Internet上的數據上只有小部分的數據和公司的事務相關。
因此,整合公司文本數據,或者為了研究或者分析的目的而去整合,是非常可行的。
3、什麼樣的公司數據需要整合:
因此什麼樣的公司數據需要被整合呢?很明顯,有這么些類型的公司數據應該被整合,包括:
1.客戶數據——那些與客戶信息相關的數據
2.安全性數據——如意外事件,審查,修理,特約條款等等這些重要的事件
3.合同數據——與公司合同相關的數據
4.發現數據(Discovery data)——訴訟過程中的數據
5.順應性數據(Compliance data)——針對公司敏感事件和事務的描述
由此看出,公司數據限制很少,或者從理論上說,是沒有限制的。
4、數據整合的優勢:
整合公司文本數據的重大優點之一,就是一旦整合,它們就可以輸入到數據倉庫中,並且能重用。也就是說,公司文本數據只需要整合一次。整合之後,只要你願意,你可以多次研究和分析這些數據,可謂一勞永逸。
值得一提的是,在這公司文本數據整合後,就可以放入到數據倉庫中。一旦進入了數據倉庫,這些數據就能與結構數據結合到一起。
5、客戶信息分析 :
舉個例子,如針對公司的客戶信息管理系統,就要分析客戶信息。通常會從客戶那裡收到e-mail。但是,一旦那些e-mail閱讀之後,通常就被放在一邊了。這些讀過的郵件將會存放到一個文件夾里,從此這些郵件就在那裡擱置著,與另外上千的e-mail堆放在一起。
問題是,當公司需要這些信息的時候,這些信息卻很難找到。當一些e-mail涉及到潛在的未來信息,就顯得更加重要了。
客戶瓊斯夫人案例分析
為了證明以上觀點,讓我們看看一個案例,這個案例的主角是一位叫瓊斯夫人的客戶。假設她上個月寫了一個e-mail來嚴厲批評公司的銷售人員,因為她的一個訂單被延誤了。而正好這個月,公司的另外銷售人員准備打電話給瓊斯夫人,請求下更多的訂單。這是時候,對於那個銷售人員來說,上個月的來自瓊斯夫人的e-mail重不重要呢?
答案當然是非常重要的。如果我們想給瓊斯夫人推銷更多的新產品,這個時候關於客戶最近的任何信息都是非常重要的,無論正面了解的信息,還是從瓊斯夫人那裡反饋的信息。因此,擺在我們公司面前的問題就是如何找到那些與客戶相關的e-mail?如何過濾掉那些不相關的e-mail?
這里說的例子,只是其中的一個,許多的例子都需要用到非結構文本數據,如果為公司文本數據設計一個專門的整合過程,將這些公司文本數據能存儲到一個數據倉庫里,查找、過濾信息就好辦多了。
註:數據無非包括結構化數據和非結構化數據。結構化數據可以很輕松的被導入到數據倉庫中,因為不管是3NF還是星型模型,它們在結構上都屬於結構化數據。而非結構化數據包括音頻、圖像、e-mail、電子表格、txt文本、文檔、報告等。
作者簡介
比爾•恩門(Bill Inmon),被稱為數據倉庫之父,最早的數據倉庫概念提出者,在資料庫技術管理與資料庫設計方面,擁有逾35年的經驗。他是「企業信息工廠」的合作創始人與「政府信息工廠」的創始人。
③ 高手請進 SQL試題
1.C 2.A.D 3.A 4.D 5.A 6.D 7.B 8.C 9.B 10.BD 11.B
12.C 13.A
④ 關系資料庫是誰發明的
1970年,IBM的研究員,有「關系資料庫之父」之稱的埃德加·弗蘭克·科德(Edgar Frank Codd或E. F. Codd)博士在刊物《Communication of the ACM》上發表了題為「A Relational Model of Data for Large Shared Data banks(大型共享資料庫的關系模型)」的論文,文中首次提出了資料庫的關系模型的概念,奠定了關系模型的理論基礎。20世紀70年代末,關系方法的理論研究和軟體系統的研製均取得了很大成果,IBM公司的San Jose實驗室在IBM370系列機上研製的關系資料庫實驗系統System R歷時6年獲得成功。1981年IBM公司又宣布了具有System R全部特徵的新的資料庫產品SQL/DS問世。由於關系模型簡單明了、具有堅實的數學理論基礎,所以一經推出就受到了學術界和產業界的高度重視和廣泛響應,並很快成為資料庫市場的主流。20世紀80年代以來,計算機廠商推出的資料庫管理系統幾乎都支持關系模型,資料庫領域當前的研究工作大都以關系模型為基礎。[4]