當前位置:首頁 » 操作系統 » rdf圖資料庫

rdf圖資料庫

發布時間: 2022-11-26 19:32:27

A. 知識圖譜有什麼用處

「知識圖譜的應用涉及到眾多行業,尤其是知識密集型行業,目前關注度比較高的領域:醫療、金融、法律、電商、智能家電等。」基於信息、知識和智能形成的閉環,從信息中獲取知識,基於知識開發智能應用,智能應用產生新的信息,從新的信息中再獲取新的知識,不斷迭代,就可以不斷產生更加豐富的知識圖譜,更加智能的應用。

如果說波士頓動力的翻跟頭是在幫機器人鍛煉筋骨,那麼知識圖譜的「繪制」則是在試圖「創造」一個能運轉的機器人大腦。

「目前,還不能做到讓機器理解人的語言。」中國科學院軟體所研究員、中國中文信息學會副理事長孫樂說。無論是能逗你一樂的Siri,還是會做詩的小冰,亦或是會「懸絲診脈」的沃森,它們並不真正明白自己在做什麼、為什麼這么做。

讓機器學會思考,要靠「譜」。這個「譜」被稱為知識圖譜,意在將人類世界中產生的知識,構建在機器世界中,進而形成能夠支撐類腦推理的知識庫。

為了在國內構建一個關於知識圖譜的全新產學合作模式,知識圖譜研討會日前召開,來自高校院所的研究人員與產業團隊共商打造全球化的知識圖譜體系,建立世界領先的人工智慧基礎設施的開拓性工作。

技術原理:把文本轉化成知識

「對於『姚明是上海人』這樣一個句子,存儲在機器里只是一串字元。而這串字元在人腦中卻是『活』起來的。」孫樂舉例說。比如說到「姚明」,人會想到他是前美職籃球員、「小巨人」、中鋒等,而「上海」會讓人想到東方明珠、繁華都市等含義。但對於機器來說,僅僅說「姚明是上海人」,它不能和人類一樣明白其背後的含義。機器理解文本,首先就需要了解背景知識。

那如何將文本轉化成知識呢?

「藉助信息抽取技術,人們可以從文本中抽取知識,這也正是知識圖譜構建的核心技術。」孫樂說,目前比較流行的是使用「三元組」的存儲方式。三元組由兩個點、一條邊構成,點代表實體或者概念,邊代表實體與概念之間的各種語義關系。一個點可以延伸出多個邊,構成很多關系。例如姚明這個點,可以和上海構成出生地的關系,可以和美職籃構成效力關系,還可以和2.26米構成身高關系。

「如果這些關系足夠完善,機器就具備了理解語言的基礎。」孫樂說。那麼如何讓機器擁有這樣的「理解力」呢?

「上世紀六十年代,人工智慧先驅麻省理工學院的馬文·明斯基在一個問答系統項目SIR中,使用了實體間語義關系來表示問句和答案的語義,劍橋語言研究部門的瑪格麗特·瑪斯特曼在1961年使用Semantic Network來建模世界知識,這些都可被看作是知識圖譜的前身。」孫樂說。

隨後的Wordnet、中國的知網(Hownet)也進行了人工構建知識庫的工作。

「這里包括主觀知識,比如社交網站上人們對某個產品的態度是喜歡還是不喜歡;場景知識,比如在某個特定場景中應該怎麼做;語言知識,例如各種語言語法;常識知識,例如水、貓、狗,教人認的時候可以直接指著教,卻很難讓計算機明白。」孫樂解釋,從這些初步的分類中就能感受到知識的海量,更別說那些高層次的科學知識了。

構建方式:從手工勞動到自動抽取

「2010年之後,維基網路開始嘗試『眾包』的方式,每個人都能夠貢獻知識。」孫樂說,這讓知識圖譜的積累速度大大增加,後續網路、互動網路等也採取了類似的知識搜集方式,發動公眾使得「積沙」這個環節的時間大大縮短、效率大大增加,無數的知識從四面八方趕來,迅速集聚,只待「成塔」。

面對如此大量的數據,或者說「文本」,知識圖譜的構建工作自然不能再手工勞動,「讓機器自動抽取結構化的知識,自動生成『三元組』。」孫樂說,學術界和產業界開發出了不同的構架、體系,能夠自動或半自動地從文本中生成機器可識別的知識。

孫樂的演示課件中,有一張生動的圖畫,一大摞文件紙吃進去,電腦馬上轉化為「知識」,但事實遠沒有那麼簡單。自動抽取結構化數據在不同行業還沒有統一的方案。在「網路知識圖譜」的介紹中這樣寫道:對提交至知識圖譜的數據轉換為遵循Schema的實體對象,並進行統一的數據清洗、對齊、融合、關聯等知識計算,完成圖譜的構建。「但是大家發現,基於維基網路,結構化半結構化數據挖掘出來的知識圖譜還是不夠,因此目前所有的工作都集中在研究如何從海量文本中抽取知識。」孫樂說,例如谷歌的Knowledge Vault,以及美國國家標准與技術研究院主辦的TAC-KBP評測,也都在推進從文本中抽取知識的技術。

在權威的「知識庫自動構建國際評測」中,從文本中抽取知識被分解為實體發現、關系抽取、事件抽取、情感抽取等4部分。在美國NIST組織的TAC-KBP中文評測中,中科院軟體所—搜狗聯合團隊獲得綜合性能指標第3名,事件抽取單項指標第1名的好成績。

「我國在這一領域可以和國際水平比肩。」孫樂介紹,中科院軟體所提出了基於Co-Bootstrapping的實體獲取演算法,基於多源知識監督的關系抽取演算法等,大幅度降低了文本知識抽取工具構建模型的成本,並提升了性能。

終極目標:將人類知識全部結構化

《聖經·舊約》記載,人類聯合起來興建希望能通往天堂的高塔——「巴別塔」,而今,創造AI的人類正在建造這樣一座「巴別塔」,幫助人工智慧企及人類智能。

自動的做法讓知識量開始形成規模,達到了能夠支持實際應用的量級。「但是這種轉化,還遠遠未達到人類的知識水平。」孫樂說,何況人類的知識一直在增加、更新,一直在動態變化,理解也應該與時俱進地體現在機器「腦」中。

「因此知識圖譜不會是一個靜止的狀態,而是要形成一個循環,這也是美國卡耐基梅隆大學等地方提出來的Never Ending Learning(學無止境)的概念。」孫樂說。

資料顯示,目前谷歌知識圖譜中記載了超過35億事實;Freebase中記載了4000多萬實體,上萬個屬性關系,24億多個事實;網路記錄詞條數1000萬個,網路搜索中應用了聯想搜索功能。

「在醫學領域、人物關系等特定領域,也有專門的知識圖譜。」孫樂介紹,Kinships描述人物之間的親屬關系,104個實體,26種關系,10800個事實;UMLS在醫學領域描述了醫學概念之間的聯系,135個實體,49種關系,6800個事實。

「這是一幅充滿美好前景的宏偉藍圖。」孫樂說,知識圖譜的最終目標是將人類的知識全部形式化、結構化,並用於構建基於知識的自然語言理解系統。

盡管令業內滿意的「真正理解語言的系統」還遠未出現,目前的「巴別塔」還只是在基礎層面,但相關的應用已經顯示出廣闊的前景。例如,在網路輸入「冷凍電鏡」,右豎條的關聯將出現「施一公」,輸入「撒幣」,將直接在搜索項中出現「王思聰」等相關項。其中蘊含著機器對人類意圖的理解。

B. 語義網的研究趨勢

語義網是網路時代的高級智能產物,其應用廣泛,有著美好未來。下面將介紹主要應用技術與研究趨勢。
經典的自底向上和新興的自頂向下的方式。自底向上的方法關注於標注好的信息,使用RDF表示,所以這些信息是機器可讀的。自頂向下則著重於利用現成的頁面信息,從中自動抽取出有意義的信息。近年來每一種方法都有一定的發展。自底向上的方法的一個喜訊來自於Yahoo搜索引擎支持RDF與microformats的聲明。這是一個對於內容發布者、Yahoo和消費者來說三贏的舉措:發布者有了標注自己信息的激勵,Yahoo可以更有效地利用這些信息,用戶可以得到更好、更精確的結果。另一個喜訊來自於Dapper關於提供語義網路服務的聲明,這項服務可以讓內容發布者給現有的網頁添加語義標注。可以期待的是,這種語義工具越多,發布者標注網頁就會越容易。自動標注工具的發展與標注激勵的增多,會使得自底向上的方法更加引人注目。盡管工具與激勵都有了,但要使得自底向上的方法流行起來還是有相當的難度。事實上,今天google的技術已經可以在一定程度上理解那些非結構化的網頁信息。類似地,自頂向下的語義工具關注點在於怎樣處理現有的非完美的信息。這些方法主要是利用自然語言處理的技術來進行實體的抽取,這些方法包括識別文檔中特定實體(與人名、公司、地點等)的文本分析技術,以及能獲取特定領域信息的垂直搜索引擎。
自頂向下的技術關注於從非結構化的信息中獲得知識,但它同樣可以處理結構化的信息,自底向上的標注技術越多,自頂向下方法的性能就越能得到提高。在自底向上的標注方法中,有幾種候選的標注技術,它們都很強大,對它們的選擇需要在簡單性及完全性之間作一個權衡。最完備的方法是RDF:一種強大的基於圖的語言,用於表示事物、屬性及事物間的關系。簡單地來說,你可以認為RDF是這樣的一種語言,它通過這樣的方式來表達事實:Alex IS human (類型表達),Alex HAS a brain (屬性表達),and Alex IS the father of Alice,Lilly,and Sofia (關系表達)。RDF很強大,但因為它是以高度遞歸、精確與數學化而著稱的,同時它也是很復雜的。當前,大多RDF的使用都是為了解決數據的互通性。例如,醫學組織使用RDF來表述染色體組資料庫。因為信息被標准化了,所以,原來孤立的資料庫就可以被一起查詢並相互比較了。一般說來,除了語義方面的意義,RDF最主要的好處在於實現互通性與標准化,特別是對於企業來說(下文有論述)。Microfomats提供了一個簡單的方法――CSS風格-―來給現有的HTML文檔添加語義標記,簡潔的meta數據被嵌入到原有的HTML文檔中。比較流行的Microformats標簽包括hCard:描述個人及公司聯系信息;hReview:添加到評論頁的meta信息;與hCalendar:描述事件的標簽。Microformats因它的簡單而得到流行,但它的能力仍然是很有限的。例如被傳統的語義團體認為是很必要的層次結構的描述,它就做不到。此外,為了使得標記集最小化,難免地它們表達的意思就顯得比較模糊。這就引出了另外一個問題:把標簽嵌入到HTML文檔中是不是一種合適的做法?然而,雖然仍存在很多的問題,Microformats還是因為它的簡單而廣受青睞,像Flickr,Eventful,LinkediIn及其它很多公司都在採用microformats,特別在是Yahoo的搜索聲明發布之後。還有一種更為簡單的方法就是把meta數據放在meta頭中。這種方法已經在一定程度上被使用,可惜的是使用得還不是十分廣泛。紐約時報最近為他們的新聞頁面啟動了一個標注擴展,這種方法的好處已經在那些主題或事件頁面中顯現出來。例如,一個新聞頁面可以通過一組關鍵詞來標識:地點、日期、時間、人物與類別。另一個例子是關於書的頁面,已經在頁面的meta頭里加入了書本的信息:作者、ISBN與書的類別。盡管所有這些方法不盡相同,但相同之處是它們都是很管用的。越多的網頁被標注,就會有越多的標准會被實現,同時信息也會變得更為強大與更易於得到。
關於語義網的討論中,在用戶與企業的關注點是不一樣的。從消費者的立場來說,我們需要一個殺手級的應用(killer app),可以給用戶傳遞實在而簡單的價值。因為用戶只會關注產品的實用性,而不會在乎它建立在什麼技術之上。問題在於,直到目前為止,語義網的關注點更多的都還停留在理論層面,如標注信息以使得機器可讀。我們可以給出這樣的承諾:一但信息都被標注,網路就會變成一個大型的RDF資料庫,大量激動人心的應用也會應運而生。但也有懷疑者指出,首先你必須得達成那樣的假設。
已經有很多基於語義網的應用,如通用及垂直搜索引擎、文本助理工具、個人信息管理系統、語義瀏覽工具等等,但在它們為大眾所接受之前,還有很長的路要走。即便這些技術成功了,用戶也不會有興趣知道那背後使用了些什麼技術。所以說在用戶層面推廣語義網技術是沒什麼前景的。
企業就不一樣了,第一,企業比較習慣於技術方面的論調,對於它們來說,利用語義技術可以增加產品的智能程度,從而形成市場價值。「我們的產品更好更聰明,因為我們使用語義網」,聽起來這對企業來說是一個很不錯的宣傳。
從企業層面來說,RDF解決了數據的互通性標準的問題。這個問題其實在軟體行業的早期便已出現,你可以忘掉語義網,只把它看作是一個標准協議,一個使得兩個程序可以互通信息的標准。這對企業來說無疑是極具價值的。RDF提供了一個基於XML的通訊方案,它所描述的前景使得企業並不在乎它的復雜性。但還存在著一個擴展性的問題,跟已經普及優化的關系型資料庫不同,基於XML的資料庫並沒有普及,這歸咎於其可擴展性與查詢能力。就像九十年代末的對象資料庫一樣,基於XML的資料庫承載了太多的期望,讓我們拭目以待。
語義API是隨著語義網的發展而發展的,這類網路服務以非結構化的文本作為輸入,輸出一些實體與關系。例如路透社的Open Calais API,這項服務接受原始文本的輸入,返迴文本中的人名、地點、公司等信息,並在原文中加以標注。另一個例子是TextWise的Hacker API,該公司還提供了一百萬美元的懸賞,以獎勵基於它的API的最好的商業語義網應用。這個API可以把文檔中的信息分為不同的類別(稱為語義指紋),輸出文檔中的實體與主題。這點和Calais的很相似,但它還提供了一個主題的層次結構,文檔中的實際對象是結構中的葉節點。再一個例子來自於Dapper,那是一個有助於從無結構的HTML頁面提取結構化信息的網路服務。Dapper的工作依賴於用戶在頁面上為對象定義一些屬性,比如,一個圖片出版商會定義作者、ISBN和頁數的信息在哪裡,然後Dapper應用就可以為該站點創建一個識別器,之後就可以通過API來讀取它的信息。從技術的角度來看,這似乎是個倒退,但實際上Dapper的技術在實際當中非常有用。舉個典型的情景為例,對於一個並沒有專門API可以讀取其信息的網站,即便是一個不懂得技術的人都可以在短時間內用Dapper來構造一個API。這是最強大、最快捷的把網站變為網路服務的途徑。
可能語義網發展的最初動機就是因為很久以來搜索的質量都已經很難再得到提升。關於對頁面語義的理解能提高搜索質量這一點假設也已經被證實。語義網搜索兩個主要的競爭者Hakia與PowerSet都已經做出不少的進步,但仍然不足夠。因為,基於統計的google演算法,在處理人物、城市與公司等實體時表現得與語義技術同樣的好。當你提問「法國總統是誰」時,它能返回一個足夠好的答案。越來越多人意識到對搜索技術邊緣化的改進是很難擊敗google的,因而轉向尋找語義網的殺手級應用。很有可能,理解語義對於搜索引擎是有幫助的,但就此並不足以構建一個更好的搜索引擎。充分結合語義、新穎的展示方式與對用戶的識別能提升下一代搜索引擎的搜索體驗。另有一些方法試圖在搜索結果上應用語義。Google也在嘗試把搜索結果分為不同的類別,用戶可以決定他們對哪些類別感興趣。搜索是一場競賽,很多語義公司都在追逐其中。也許會有另一種提高搜索質量的可能:文本處理技術與語義資料庫的結合。下面我們即將談到。我們已經看到越來越多的文本處理工具進入消費市場。像Snap、Yahoo Shortcuts或SmartLinks那樣的文本導航應用可以「理解」文本與鏈接中的對象,並附加相應的信息於其上。其結果是用戶根本不需要搜索就可以得到對信息的理解。讓我們想得更遠一些,文本工具使用語義的方式可以更為有趣。文本工具不再解析用戶在搜索框里輸入的關鍵詞,而是依賴於對網路文檔的分析。這樣對語義的理解會更為精確,或者說減少猜測性。隨後文本工具給用戶提供幾類相關的結果供選擇。這種方式從根本上不同於傳統的把大量文檔中得到的正確結果一起堆放在用戶面前的方式。同樣有越來越多的文本處理工具跟瀏覽器結合起來。自頂向下的語義技術不需要發布者做任何事情,因而可以想像上下文、文本工具可以結合在瀏覽器里。Firefox的推薦擴展頁里提供了很多的文本瀏覽解決方案,如Interclue,ThumbStrips,Cooliris與BlueOrganizer等。
語義資料庫是標注型語義網應用的一個發展方向。Twine正在beta測試階段,它著眼於建立一個關於人物、公司、事件、地點的私人知識庫,數據來源為各類論壇的非結構化內容,這些內容可通過書簽、郵件或手工的方式進行提交。這項技術仍有待成熟,但它所能帶來的好處顯而易見。可以意想的一個基於Twine的應用為個性化的搜索,通過個人的知識庫來對搜索結果進行過濾。Twine底層的數據表示方式是RDF,可以開放給其它的語義網路服務所採用,但其核心的演算法,如實體提取是通過語義API的方式商業化的。路透社也提供了類似的API介面。另外一個語義資料庫的先行者是一家叫Metaweb的公司,它的產品的Freebase。從它所展現的形式來看,Freebase只是一個基於RDF的更結構化的wikipedia翻版。但是Freebase的目標是建立一個像wikipedia那樣的世界信息庫,這個信息庫的強大之處在於它可以進行精確的查詢(就像關系型資料庫那樣)。所以它的前景依然是更好的搜索。但問題在於,Freebase怎樣保持與世界信息同步俱進?google每天對網路文檔進行索引,可以隨著網路發展而發展。Freebase現在的信息僅來自於個人編輯及從wikipedia或其它資料庫中抓回的數據。如果要擴展這個產品,就必須完善從全網路獲取非結構化信息、解析並更新資料庫這一處理流程。保持與世界同步這一問題對所有資料庫方法都是一種挑戰。對於Twine來說,需要有不斷的用戶數據加入,而對於Freebase來說,則需要有來自不斷的來自網路的數據加入。這些問題解決起來並不簡單,在真正實用之前都必須要有一個妥善的處理。所有新技術的出現都需要定義一些概念和得到一些類別。語義網提供了一個很激動人心的前景:提高信息的可發現性,實現復雜的搜索,新穎的網路瀏覽方式。此外語義網對不同的人有不同的意義,它對於企業和對於消費者的定義是不同的,在自頂向下VS自底向上,microformats VS RDF等不同類型中也有不同的含義。除了這些模式,我們也看到了語義API與文本瀏覽工具的發展。所有的這些都還處於其早期發展階段,但都承載著改變我們與網路信息交互方式的期望。
語義網的高級階段使得圖書館,售訂票系統,客戶管理系統,決策系統均能發揮很好的效果。譬如要出去旅行,只要把具體時間要求與自己喜愛的國內旅遊類型提供給語義網支持的查詢系統,那麼很快相應的國內景點,最佳旅遊方案與注意事項,提示以及旅行社的評價均能很快速得准備在瀏覽器頁面上。
語義網終會把網路的高級階段應用到世界的每一個角落,每個人均有自己的網路IP一樣的身份證明.個人消費信用、醫療、檔案等等全在自己的網路身份裡面。同時網路社區更比現實社區更有活躍力,網路社會更有秩序、更和諧。

C. 語義信息的存儲

無論是知識庫還是服務的語義描述都需要具有良好的組織和存儲,以支持高效推理和服務檢索發現。目前對於本體的存儲方法基本有三種(李勇等,2008):

(1)純文本,如 OWL 文件。由於 XML 的信息組織和存儲方式結構復雜,而且存在冗餘等,基於其上的查詢檢索效率通常會比較低。純文本的方式適合本體比較小的時候,不適合本體大規模應用的情況。

(2)資料庫: 是一種比較好的持久化存儲方式,最大好處是便於查找,可存放大本體,查詢效率高,特別在 I/O 效率上。但是資料庫方式存在本體查詢語言到 SQL 的轉換問題,需要藉助於第三方中間件或自定義實現。

(3)專門的管理工具: 比如說 OMM(Ontology Middleware Mole)支持對 RDF、OWL 的存儲管理,還提供各種介面,可以使用查詢語言對 RDF 或者 OWL 進行查詢。綜合對比這三種本體存儲方式,由於關系資料庫存儲幾十年的技術積累,以及它的海量存儲特點而成為了許多研究者的首選。

5.4.3.1 本體的關系資料庫存儲模式

由於本體模型和關系模型的差異,目前存在多種在關系模型中存儲本體的方法,其主要可以分為以下四類(陶皖等,2007; 陳光儀,2009)。

5.4.3.1.1 水平模式

該模式只在資料庫中保留一張通用表,表中列為本體中的屬性。整個本體庫中定義了多少個屬性,這張表就有多少個列,具體如圖 5.28 所示。本體中的每個實例對應該表中的一條記錄。這種存儲模式結構簡單,執行查詢操作比較方便。但是該通用表包含了大量的列,而現有的資料庫系統對一張表中列的個數都是有限制的,所以該模式無法存儲規模較大的本體。而且表中的數據過於稀疏。由於每個實例對應關系表中的一行,如果其在某些屬性列上沒有值,那麼必須將對應的屬性值設置為空,這將導致大量空欄位的出現,不僅浪費存儲空間,而且增加了索引維護的代價。另外該通用表中一個實例的屬性和屬性值只能是一對一,而實際情況往往是一對多,因此無法存儲具有這種特徵的本體。隨著應用中本體的進化,還需要時常更新通用表中的列,重新組織表結構,這將耗費極大的系統代價。

圖 5.28 水平存儲模式

5.4.3.1.2 垂直模式

垂直模式包含一張三元組表,表中的每條記錄都對應一個 RDF 三元組(主語,謂詞,賓語),具體如圖 5.29 所示。因此這種模式下,需要將本體中的所有信息都以 RDF 三元組的形式表示出來。Protege(2002)中便是使用了這種存儲模式將本體存儲於資料庫中。這種模式設計簡單,並且結構穩定。如果本體進行了更新,只需修改表中相應的元組即可。另外,該模式通用性好,因為現有的本體模型都可以轉換為 RDF 模型表示。但是這種模式的可讀性較差,若對本體信息進行查詢,那麼設計對應的 SQL 語句比較麻煩。除此之外,由於所有信息都存放在三元組表中,導致任何一個本體信息查詢都必須遍歷整個數據表,特別是那些需要進行表連接的查詢,使得查詢效率非常低,這是這種模式最大的不足之處。

圖 5.29 垂直存儲模式

5.4.3.1.3 分解模式

該模式與水平模式和垂直模式的一個顯著的區別是它使用了若干張表,其基本思想是將資料庫進行模式分解。根據分解的對象不同,現有的採用分解模式的方法有兩種。①基於類的分解模式,即為本體中的每個類都創建一張單獨的表,表名為類名,表的列為類的屬性,具體如圖 5.30 所示。這種模式結構清晰,但是很難適應本體動態變化的情況,因為隨著本體中類或者屬性的變化,表結構都要隨著變化。②基於屬性的分解模式,即為本體中的每個屬性創建一張單獨的表,表名為屬性名,每個表都包含兩個列,分別代表RDF 三元組中的主語和賓語,具體如圖 5.31 所示。在該模式中對類的隱含實例的查詢代價很大,而且在現有的這兩種分解模式的方法中,隨著本體的變化都要不斷的創建和刪除表,而在資料庫系統中創建和刪除表的效率很低。

圖 5.30 按類分解模式

圖 5.31 按屬性分解模式

5.4.3.1.4 混合模式

該模式通常將上述幾種模式進行混合使用。例如,Pan 等(2003)提出這樣一種將基於類的分解模式與基於屬性的分解模式混合的存儲模式,即在本體中定義一個類就為該類創建一個表(創建方法類似於基於類的分解模式),在本體中定義一個屬性就為該屬性創建一個表(創建方法類似於基於屬性的分解模式)。然而,與基於類的分解模式不同的是,該混合模式在類對應的表中不記錄相應實例的所有信息,而只記錄實例的 ID。實例在各個屬性上的取值則分別記錄在各屬性對應的表中,所以和基於屬性的分解模式類似,該模式在屬性對應的表中仍然需要兩列: 主語和賓語。對於本體類數目不多的情況下,這種模式在簡單檢索的情況下,運行得很好。但是,如果本體的類比較多,這種方式就會存在一些問題,例如: 資料庫無法容納這么多表,或者效率低下。

針對上述四種模式,陳光儀(2009)從四個方面對適用場合、查詢和更新效率、結構清晰以及易理解性、可擴展性四個方面對他們進行了綜合對比(表 5.4):

表 5.4 不同存儲模式的綜合對比

(修改自陳光儀,2009)

通過上述對本體存儲模式的闡述及之間的綜合對比發現,本體存儲模式除了應該具有盡量高的規范化程度(例如滿足第三範式或 BCNF 范圍等),還應該滿足以下三個原則。

(1)模式結構易於理解。該原則是為了便於本體查詢的實現。如果模式結構不直觀,會給查詢語句的設計帶來困難。例如,垂直模式不滿足該要求,它將所有的信息都採用三元組的形式存儲在一張表中,不容易理解表中元組的含義,加重了本體查詢設計的負擔。

(2)模式結構穩定。即本體的變化不會引起資料庫表結構的變化。因為本體是不斷進化的,如果設計的模式結構會隨著本體的變化而變化,資料庫系統對其維護代價太大。現有的水平模式、分解模式和混合模式都不滿足該要求。

(3)查詢效率高。該原則是評價各種存儲模式的一個重要指標。因為本體中不僅包含大量的數據,而且查詢中還經常需要進行表連接。例如在現有的垂直模式和基於屬性的分解模式中,那些涉及表連接的查詢效率非常低。

目前在基於資料庫的本體存儲的實踐上,一些學者開展了相關的研究工作:

燕雲鵬(2007)和陳光儀(2009)提出了類似的針對於針對 OWL 的本體資料庫的混合本體存儲模式(圖 5.32,5.33)。可以看出這種模式是以基於屬性的分解模式與垂直模式的混合體,具有較好的擴展性。但是存在的問題是效率不夠高,所有的類存儲在一個表中,所有的實例也存儲在一個表中,這種方式的檢索效率比較低。另外存儲實例的表(Instance,Proterty,Value)中欄位 Value 必須存儲許多種不同類型的數值,比如有的是文本型,而有的卻是數值型,使得數據不夠清晰。此外,在針對幾何體這種復雜的地理對象,這種欄位就比較難以存儲。

圖 5.32 本體的資料庫混合存儲模式(據燕雲鵬,2007)

ebRIM(ebXML Registry Information Model)是一個主流的信息注冊模型,已成為事實上的標准,得到了 OGC 等支持。OGC 已經實現了基於 ebRIM 的目錄服務,並推薦其作為目錄服務的實現規范。但是目前基於 ebRIM 的目錄服務只支持普通的基於關鍵字的檢索。為此,一些學者已經開始研究如何擴展 ebRIM 實現對語義信息特別是 OWL 的注冊。Dogac 等(2004)提出了如圖 5.34 所示的一種通過將 XML 形式存儲的 OWL 文件轉換為以資料庫形式存儲,使得查詢檢索更加快速,管理維護也更加方便。為了能在 ebRIM 存儲復雜的地理空間信息對象,一些學者開展了基於 ebRIM 的地理擴展方面的研究工作。樂鵬(2007)在其論文中提出了兩種擴展方式: ① 從類 「ExtrinsicObject」 派生了「CSWExtrinsicObject」來描述那些不是 ebRIM 自身定義的元數據對象。比如類 「Dataset」繼承了 「CSWExtrinsicObject」來描述空間數據集。②對 ebRIM 已有的類別增加 「Slot」。每一個從 「RegistryObject」繼承下來的類均允許添加 「Slot」。ebRIM 中的 「Service」類可以用來描述空間服務,但是已有的屬性不足以描述空間網路服務。因此,通過添加「Slot」到 「Service」類中以定義從 ISO 19119 派生的屬性。如圖 5.35 所示為經擴展後的ebRIM 高層模型圖,其中 灰 色 填 充 的 矩 形 框表示 擴 展 的對 象 類。該 模 式 與 前 面 燕 雲 鵬(2007)和陳光儀(2009)提出的模式相比,本質上差別不大,也是以基於屬性的分解模式與垂直模式的混合體,只不過是基於標準的 ebRIM 注冊模型,並且將其中的分類系統相關的類單獨以兩張表存儲。該模式也具有很好的擴展性,也存在同樣的一些問題。

圖 5.33 本體的資料庫混合存儲模式(據陳光儀,2009)

海洋信息網格技術與應用

續表

5.34 OWL 元素到 ebRIM 元素的映射(Dogac et al.,2004)

5.4.3.2 基於多分解策略的混合存儲模式實現

對知識庫以及服務語義注冊信息的存儲的實現上,本書在現有的研究成果的基礎上,結合本體組織構成及特點等實際需求,提出了一種基於多分解策略的混合關系資料庫存儲模式。

該方法的指導思想是: 先按類對其中的數據專題、數據模式、處理模型等進行類的分解,然後結合屬性的特性進行基於屬性的分解。其中基於類的分解中,可能粒度的大小不一,可能是一個類或者具有相關或相似的一些類劃分為一張表存儲; 而基於屬性的剖分,也並不是所有具有該屬性的類以一個表存儲,而可能是只針對一個類也單獨組織為一張表,其具體思路如下:

圖 5.35 經擴展的 ebRIM 高層模型圖(據樂鵬,2007)

(1)類的分解: 因為本研究的存儲模型不是為了實現一個通用的本體存儲模型,而是為了實現一個服務於海洋信息服務領域的本體存儲模型。海洋信息服務領域必然會牽涉到一些對象,比如對服務、模型、參數等對象,並且對這些對象的認識也基本上確定(也就是說這些對象類所具有的屬性及之間的關系基本明確),所以沒必要像上面幾種實現方案那樣因為不能預知都有哪些類,各類都有哪些屬性而將所有的實例的組織按垂直方式進行存儲,也沒有必要有一些表(比如獨立的屬性表,屬性的作用域和值域表等); 而有必要針對海洋信息服務領域內的這些類的信息內容獨立出一些表: 對於海洋專題,地理名實體、處理模型、數據模式等海洋信息檢索發現中常用的對象,則有必要進行分開存儲,否則必然使得結構不清晰,且檢索查詢效率低。

(2)對於專題、空間形態以及模型功效等只是簡單的分類系統,所具有的屬性少,而且今後存在派生新的種類的可能,因此必須具備一定的擴展性。針對這類數據。它們的存儲方式是(ClassID,ParentClassID,ClassType),其中 ClassType 標注本體類是屬於專題(比如 「海流」)或者其他。

(3)對於取值不唯一的屬性,且大部分類或實例都具有的屬性,則採用基於屬性的分解模式。比如對於別名屬性(hasAliasName),有可能一個類實例具有多個別名,這種情況下,則採取基於屬性的組織方式。該表的形式是:(OntologyID,AliasName),其中OntologyID 可以是本體類的 ID,也可以是本體實例的 ID,還可以是本體屬性的 ID,因為類、實例和屬性都可以有別名。

(4)對於復雜的屬性,採取大二進制存儲的方式。比如對於地名實例的空間覆蓋范圍,則不考慮其實際內部是包含多少個組成部分,統一按一個 shape 存儲在資料庫中。當然這里藉助了 ArcGIS 的 GDB 的 FeatureClass 矢量數據模型,並對於不同空間形態的則採用了多張表(點狀地名類、線狀地名類、面狀地名類),其組織方式是(GeoNameObjec-tID,shape)。同樣,對於模型本體中的內部流程本體,也採用了大二進制方式存儲,將整個流程 XML 描述文件,作為一個整體存放於欄位中,其大體組織方式為(ModelID,FlowXML)。

(5)本研究採用 ArcGIS 的 GeoDatabase 作為存儲模型。本體類(ontClass)的存儲結構如圖 5.36 所示,資料庫的總體組織結構如圖 5.37 所示。

圖 5.36 本體類(onClass)的存儲結構

D. 問一下.用D2RQ將資料庫的內容轉化為虛擬的RDF..這個可以用來做本體的建立嗎

您好,D2R 便是其中一個非常流行的工具。它的作用是一個將關系型資料庫發布為 Linked data。D2R 主要包括 D2R Server, D2RQ Engine 以及 D2RQ Mapping 語言。
D2R Server 是一個 HTTP Server,它的主要功能提供對 RDF 數據的查詢訪問介面,以供上層的 RDF 瀏覽器、SPARQL 查詢客戶端以及傳統的 HTML 瀏覽器調用。
D2RQ Engine 的主要功能是使用一個可定製的 D2RQ Mapping 文件將關系型資料庫中的數據換成 RDF 格式。D2RQ engine 並沒有將關系型資料庫發布成真實的 RDF 數據,而是使用 D2RQ Mapping 文件將其映射成虛擬的 RDF 格式。該文件的作用是在訪問關系型數據時將 RDF 數據的查詢語言 SPARQL 轉換為 RDB 數據的查詢語言 SQL,並將 SQL 查詢結果轉換為 RDF 三元組或者 SPARQL 查詢結果。D2RQ Engine 是建立在 Jena(Jena 是一個創建 Semantic Web 應用的 java 平台,它提供了基於 RDF,SPARQL 等的編程環境)的介面之上。

E. 圖譜只有圖嗎

知識圖譜源於語義網,將自然語言文本中描述的知識按照三元組的方式進行描述與表示,從而讓計算機可以進行存儲、計算與應用。其主要數據模型是RDF數據模型。由RDFS於OWL提供模式(schema)的描述方法並支持推理。知識圖譜可以認為是以RDF或屬性圖表示的知識數據本身。其可以用圖資料庫存儲也可以用其他資料庫存儲。2000年的時候Neo4j為了解決多媒體關系系統中schema 經常會發生重大變化的問題,提出了用圖的方式進行數據的組織、存儲與應用。經過發展於2010年正式提出了屬性圖模型。屬性圖數據模型跟RDF數據模型的起源於發展是兩條線,只不過因為屬性圖更加易於理解並且通用(更接近通用的圖抽象方法)知識圖譜也可以用屬性圖模型存儲。知識圖譜中常用的RDF模型可以認為是圖在語義方向的一種特種模型。

F. 什麼是web2.0

要理解WEB2.0,先得看WEB的歷史。 World Wide Web,簡稱WWW,是英國人TimBerners-Lee 1989年在歐洲共同體的一個大型科研機構任職時發明的。通過WEB,互聯網上的資源,可以在一個網頁里比較直觀的表示出來;而且資源之間,在網頁上可以 鏈來鏈去。在WEB1.0上做出巨大貢獻的公司有Netscape,Yahoo和Google。 Netscape研發出第一個大規模商用的瀏覽器,Yahoo的楊致遠提出了互聯網黃頁, 而Google後來居上,推出了大受歡迎的搜索服務。

搜索最大的貢獻是,把互聯網上海量的信息,用機器初步分了個線索。但是,光知道網頁里有哪些關鍵字,只解決了人瀏覽網頁的需求。所以,Tim- Berners-Lee在提出WWW不久,即開始推崇語義網(Semantic Web)的概念。為什麼呢?因為互聯網上的內容,機器不能理解。他的理想是,網頁製作時和架構資料庫時,大家都用一種語義的方式,將網頁里的內容表述成機 器可以理解的格式。這樣,整個互聯網就成了一個結構嚴謹的知識庫。從理想的角度,這是很誘人的,因為科學家和機器都喜歡有次序的東西。Berners- Lee關心的是,互聯網上數據,及能否被其它的互聯網應用所重復引用。舉一個例子說明標准資料庫的魅力。有個產品叫LiberyLink。裝了它後,到 Amazon上去瀏覽時,會自動告訴你某一本書在用戶當地的圖書館能否找到,書號是多少等。因為一本書有統一的書號和書名,兩個不同的互聯網服務 (Amazon 和當地圖書館資料庫檢索)可以公享數據,給用戶提供全新服務。

但是,語義網提出之後,曲高和寡,響應的人不多。為什麼?因為指望要網頁的製作者提供這么多額外的信息去讓機器理解一個網頁,太難;簡直就是人給機器 打工。這違反了人們能偷懶就偷懶的本性。看看Google的成功就知道。 Google有個Page Rank技術,將網頁之間互相鏈接的關系,用來做結果排序的一個依據,變相利用了網頁製作人的判斷力。想一想網頁的製作者們,從數量來說,比純瀏覽者的數 量小得多。但Google就這一個革新,用上了網頁的製作者的一部份力量,已將其推上了互聯網的頂峰。

所以互聯網下一步,是要讓所有的人都忙起來,全民織網,然後用軟體,機器的力量使這些信息更容易被需要的人找到和瀏覽。如果說WEB1.0是以數據為核心 的網,那我覺得WEB2.0是以人為出發點的互聯網。 我們看一看最近的一些WEB2.0產品,就可以理解以上觀點。

Blog: 用戶織網,發表新知識,和其他用戶內容鏈接,進而非常自然的組織這些內容。

RSS: 用戶產生內容自動分發,定閱

Podcasting: 個人視頻/聲頻的發布/定閱

SNS: blog+人和人之間的鏈接

WIKI: 用戶共同建設一個大網路全書

從知識生產的角度看,WEB1.0的任務,是將以前沒有放在網上的人類知識,通過商業的力量,放到網上去。WEB2.0的任務是,將這些知識,通過每個用戶的瀏覽求知的力量,協作工作,把知識有機的組織起來,在這個過程中繼續將知識深化,並產生新的思想火花;

從內容產生者角度看,WEB1.0是商業公司為主體把內容往網上搬,而WEB2.0則是以用戶為主,以簡便隨意方式,通過blog/podcasting 方式把新內容往網上搬;

從交互性看,WEB1.0是網站對用戶為主;WEB2.0是以P2P為主。

從技術上看,WEB客戶端化,工作效率越來越高。比如像Ajax技術, GoogleMAP/Gmail裡面用得出神入化。

我們看到,用戶在互聯網上的作用越來越大;他們貢獻內容,傳播內容,而且提供了這些內容之間的鏈接關系和瀏覽路徑。在SNS裡面,內容是以用戶為核心來組織的。WEB2.0是以用戶為核心的互聯網。

那麼,這種意義上的WEB2.0,和Tim Berners-Lee的語義網,有什麼不同呢?語義網的出發點是數據的規整及可重復被機器調用,提出使用語義化的內容發布工具, 試圖從規則和技術標准上使互聯網更加有序。 Google等搜索引擎,在沒有語義網的情況下,盡可能的給互聯網提供了線索。 WEB2.0則是鼓勵用戶用最方便的辦法發布內容(blog/podcasting),但是通過用戶自發的(blog)或者系統自動以人為核心(SNS) 的互相鏈接給這些看似凌亂的內容提供索引。 因為這些線索是用戶自己提供,更加符合用戶使用感受。互聯網逐漸從以關鍵字為核心的組織方式和閱讀方式,到以互聯網用戶的個人portal(SNS)為線 索,或者以個人的思想脈絡(blog/rss)為線索的閱讀方式。WEB2.0強調用戶之間的協作。WIKI是個典型例子。從這個角度看,互聯網是在變得 更有序,每個用戶都在貢獻:要麼貢獻內容,要麼貢獻內容的次序.

對下一代互聯網的看法,還會有很多的討論。有一點可以肯定,WEB2.0是以人為核心線索的網。提供更方便用戶織網的工具,鼓勵提供內容。根據用戶在 互聯網上留下的痕跡,組織瀏覽的線索,提供相關的服務,給用戶創造新的價值,給整個互聯網產生新的價值,才是WEB2.0商業之道。

CODE:

Web關鍵字

[Web起源]World Wide Web,簡稱WWW,是英國人TimBerners-Lee 1989年在歐洲共同體的一個大型科研機構任職時發明的。通過WEB,互聯網上的資源,可以在一個網頁里比較直觀的表示出來;而且資源之間,在網頁上可以鏈來鏈去。

[Web1.0]在WEB1.0上做出巨大貢獻的公司有Netscape,Yahoo和Google。 Netscape研發出第一個大規模商用的瀏覽器,Yahoo的楊致遠提出了互聯網黃頁, 而Google後來居上,推出了大受歡迎的搜索服務。搜索最大的貢獻是,把互聯網上海量的信息,用機器初步分了個線索。

[語義網路]Tim-Berners-Lee在提出WWW不久,即開始推崇語義網(Semantic Web)的概念。為什麼呢?因為互聯網上的內容,機器不能理解。他的理想是,網頁製作時和架構資料庫時,大家都用一種語義的方式,將網頁里的內容表述成機 器可以理解的格式。

[Web2.0]WEB2.0是以人為核心線索的網。提供更方便用戶織網的工具,鼓勵提供內容。根據用戶在互聯網上留下的痕跡,組織瀏覽的線索,提供相關的服務,給用戶創造新的價值,給整個互聯網產生新的價值。

Web 2.0真的會改變了互聯網嗎

經過10年發展後,人們通過互聯網已經可以完成比之前多得多的工作,得到更豐富、更精確、更迅捷的反饋,以及更加美妙的體驗。然而再過10年我們會發現媒 體,無論報紙、電視還是互聯網,與現在都完全不同,手機而不是紙或pc成為最常用的載體;看電視不再是被動的收看電視台播放的節目而是自己訂閱的,而節目 呢也許是某個人自己攝制的;你也可能在電視或者網路上看到你的手機在不經意間拍攝上傳的畫面,並因此獲得一筆不菲的酬勞。這不是囈語,也不是幻想,這是 Web2.0給我們展現的互聯網,屆時上網將不再是簡單的游戲或者閱讀,網路將提供各種服務,無論是銀行支付、旅遊出行還是搜索愛情。

Web2.0對Web1.0的沖擊

在web1.0時代信息的生產沒有脫離傳統的信息生產模式,即:記者-編輯-發布的精英模式;但web 2.0卻完全顛覆了這個模式,麻省理工的《技術觀察》稱web 2.0"......在強調分眾傳播的對等信息交互,也就是信息接受者同時也是這些信息的創造者,若乾的博客匯集成新的信息輸出者,每個人在擠奶的時候還 要喝奶,這其中自身的商業循環,絕不可能以淺薄的收費服務或者廣告來衡量。"

首先挑動這種變化的就是blog,也稱博客,這是web2.0中最為人所熟悉的元素。互聯網上很早就他的影子,但在人們的觀念中它只是主流媒體的一種補充,不過今年發生的一系列事件正在改變人們對它的看法:blog正在成為一種主流媒體。

如果說發生在今年2月發生的印度洋海嘯,博客還只是傳統媒體的補充的話,那麼半年後發生的倫敦系列爆炸案中,博客正式成為一種主要的報道方式,簡單精確的 圖片,簡短直接的文字,在第一時間將新聞事件報道傳至自己的博客中,人們開始習慣通過博客獲得信息,而不是電視或者報紙,甚至不是門戶網站。

除了個人博客外,博客也開始進入企業家的視野,進而形成企業博客。今年9月Google推出"Google與李開復博士"中文博客,對李開復跳槽引發的糾 紛都可以在這里查詢和提問。同樣微軟也鼓勵員工們寫博客。通用公司副總裁鮑勃·魯茲的"快車道"博客,已經成為通用公司與公眾溝通的重要場所。正在這么做 的公司還有Sun、寶潔、波音公司等。博客正在逐步顛覆傳統的新聞媒體。

在形形色色的文字博客之外,還有一種新的"博客",可以發布聲音和圖像的"博客",在Web2.0家族中被稱為播客(Podcast)。它是收音機、iPod、博客和寬頻互聯網的集體產物。用最簡單的方式描述,播客就是用嘴寫,用耳朵看的博客。

對大多數中國人來說,播客還是新鮮事,在今年上半年國內還只有屈指可數的幾家播客網站,但筆者近日在Google中搜索播客,得到318,000條結果, 在網路中得到1,570,000條結果其中不少是播客網站或頻道,雖然如此播客目前在國內還是面臨幾年前博客網站類似的局面,但在美國,2005年播客的 人數將達到450萬,而2010年這個數字將達到驚人的5680萬。而傳統廣播公司、電視台、互聯網站都從其中看到了機會和威脅。

我們也許可以從早期互聯網的網路電台中找到播客的身影,但播客與網路電台最大的不同在於,它採用rss2.0可以訂閱模式,不再是單純的音頻文件,任何p2p文件都可以成為播客,任何個人都可以製作節目發布廣播,任何擁有mp3、智能手機的人都可以自由的收聽播客節目。

相對於傳統廣播或者電視台而言,播客不需要頻道資源,不需要大量的設備,數碼攝像機、錄音軟體、麥克風等目前家庭常用設備就可以幫助你成為一名播音員或節目主持人,播客們常說每一名讀者就是一名博客,那麼每一名聽眾也就是一名播客。

播客的內容製作和收聽方式極具個性化,打破傳統的廣播方式,因此它一經誕生,就受到傳媒的注意,目前,海外廣播公司紛紛開始增加播客節目,美國波士頓公共 電視台、加拿大多倫多音樂電台以及英國BBC公司都開通了正常的播客服務,美國衛星廣播公司也將啟動播客節目。同時播客也在影響娛樂界,唱片公司開始通過 播客建立歌手與歌迷之間的聯系,不過這僅僅是開始。

互聯網邁向個性化時代

在Web 1.0時代,網站之間是互不相通的,各網站自行其道,但在Web2.0時代藉助rss和xml技術,實現網站之間的交流。Sina點點通、雅虎的my yahoo就加入數十家網站的內容,讀者可以根據自己的喜好,自由選擇信息。

但這一切還僅僅是表面現象。Web2.0倡導的個性化,與傳統網站的個性化有本質的區別。在傳統門戶網站中,個性化意味著頁面設計風格和內容組織方式而非 內容本身,不管怎樣都沒有脫離大而全的中心門戶的特點。web 2.0倡導的個性化則意味著精而專,網站之間有明確的分工,好像同樣報道超女,有人只做李宇春的新聞,有人只做張靚影的新聞一樣,通過RSS將其組合起 來,這時的RSS就起到門戶網站的作用,不同的是其中的內容都是你自己選擇的。

更精彩的還在於,個性化已經由用戶層面進入企業服務層面,IT精英們已經在實踐個性化服務。美國房地產交易地圖網(HousingMaps.com)是目 前美國最受歡迎的房地產交易網站之一。它的特點就在於把時下流行Web2.0式網站craigslist的租房信息和Google Maps結合起來,以可視圖釘的方式將全美房屋交易信息詳細現實出來。

簡而言之,web 2.0時代的個性化不是原來的網頁個性化,而是服務個性化,我們面對的將是一個全新的個性化互聯網。

技術引領Web 2.0

一直以來技術人員都有這樣一個設想,與其安裝昂貴的軟體,不如通過互聯網來使用安裝在伺服器上的軟體。Web 2.0中的AJAX技術使這種設想成為可能。

·AJAX賦予軟體新面孔

AJAX的全稱是Asynchronous JavaScript and XML,它不是一種技術而是數種技術的組合。AJAX採用遠程腳本調用技術,通過JavaScript語言與XMLHttpRequest對象來實現數據 請求,將處理由伺服器轉移到客戶端,減少了伺服器的資源佔用,加快了數據處理的速度。採用AJAX開發的軟體能讓你在使用網路應用軟體時感覺就象在本機上 一樣。

目前AJAX技術已經廣泛應用於網路應用軟體開發中,Google也許是AJAX技術開發投入最大收獲最多的公司,AJAX已經成功應用於GMail、Google Suggest和Google Maps等網路應用軟體中。

除了Google以外還有更多的公司在採用AJAX。在AJAX的幫助下Zimbra公司開發的電子郵件中,比GMail和HotMail更加互動。 Meebo.com公司也在即時通訊軟體中採用AJAX技術,以創造更好的用戶體驗。即使微軟也不能阻擋AJAX的魅力,微軟聲稱將在下一代 HotMail中加入AJAX工具條。

·開放API

以前的開放API(應用程序介面)主要指桌面應用軟體,希望通過開放API融合更多的應用。在WEB1.0時代只有少數網站,比如EBAY, 亞馬遜公司(Amazon)、雅虎公司、Google公司等,在設計之初就遵循各種工業化標准,進而開放API介面,正是由於這些開放的API,他們獲得 了不少有趣、有意思的應用。但大多數公司當時還沒有這種意識,不過在Web 2.0時代,開放API已經成為不可忽視的趨勢。

對於公司來說,技術領域的競爭已經演化為標准之爭,標準的形成在於有多少人在使用,因此開放API就意味更多的人採用,也就意味著標准。Google公司 顯然深諳此道。它所推出的諸多產品都是基於開放的API標准。最典型的例子就是Google map,開放Google Map的API後,Google公司無需花費力氣做更多的市場推廣,其他公司就會主動地整合它的應用。如前文我們提到的美國房地產交易地圖網就是在其網站 中主動整合Google Map。正是看到開放後的巨大前景,微軟、雅虎、Skype也紛紛加入其中。

·軟體向互聯網轉變

在盜版最猖獗的時候,軟體開發商曾經提出一個設想:免費軟體,有償服務;這個設想今天看來有望實現。

在美國誕生了一批新公司,其中就有Upstartle,該公司開發出了一種基於網路的文字處理軟體Writely,進入該公司的網站,注冊後就可以開始寫 作,文檔可以保存在該公司的伺服器上,然後可以在任何地方打開。這種基於網路的文字處理系統很快吸引了大批用戶,一度導致伺服器堵塞。與writely相 同字處理軟體還有goffice,Google也在加緊開發他的在線文字處理軟體openoffice。

而軟體霸主微軟的參與也許更有震撼性。不久前微軟宣布將推出Live戰略,此戰略以其旗艦產品Windows操作系統和Office辦公軟體為基礎,打造 Live.com平台,在此平台上通過互聯網向用戶提供軟體服務。在這個戰略下微軟將為Live捆綁多種軟體,而且完全免費,通過廣告和定購方式獲取利 潤,這是微軟自.net以後的又一次戰略轉變,也標志著軟體業向服務業轉變的開始。

後Web 2.0更值得期待

我們今天所談論的web 2.0應用只是web 2.0初級階段的應用,很多web 2.0應用的商業模式還處於晦暗不明中,web 2.0的倡導者們還在苦苦尋覓合適的商業模式,我們唯一可以肯定的web 2.0是互聯網發展的必然方向,他帶來的沖擊將不僅僅局限於互聯網,很可將全面改變我們現在的生活和工作方式。

·Web 2.0改造傳統電視

寬頻的迅速發展使網路電視的普及成為可能,敏銳的互聯網精英們紛紛把目光投向IPTV,希冀再挖掘一座金山,但如果以傳統的電視台模式來發展IPTV,必然陷入高投入,低產出的怪圈,但以web 2.0的理念來發展IPTV則可走出這個怪圈。

數碼產品的發展使用戶製作電視節目的設備費用大幅降低,後期製作軟體也可以免費從網路上下載,用戶可以自己製作節目,然後將節目上傳,由觀眾自由訂閱,網站進而可以對高收視率節目實行收費,如此就改變了傳統電視中觀眾只能被動收看節目的模式。

·網站小型化成為可能

WEB 2.0倡導專業模式使網站小型化成為可能。在web 1.0時代,網站無不走大型化道路,比拼的是編輯數量,網站規模,web 2.0的社會化、開放化的特性使中心不再成為必需,相反共同參與,使信息來源更加豐富更專業;而且小型化網站成本更容易控制。

與小型網站類似的個人網站將成為互聯網的另一大特色。技術門檻的下降使個人建站更加容易,即使不知道HTML也可以輕松的搭建個人電台、個人電視台、個人DJ、個人游戲、個人商店將充斥互聯網,甚至還可以擁有個人聊天工具,只有你的好友才知道。

·無線應用成為web 2.0應用的下一個擴展空間

中國是個手機大國,手機擁有量已經超越美國,無限互聯網的發展迅速,另一方面,網路終端小型化十分迅速,手寫輸入技術的應用使使用手持設備進行書寫變得十分便捷。

一些web 2.0網站已經將移動博客欄目,但博客只是先行者,只是移動web2.0的初級階段,更多的應用還將陸續產生,如播客、移動商務。

移動web2.0一旦發展起來,好處是顯而易見的,因為他的客戶個體更易確認,服務更加精確。

結束語

現在的互聯網是一個單向的互聯網,Web 2.0正在將互聯網改造成為以人為中心的多向的互聯網,網路反過來也在改變我們的工作和生活方式,也許將來SOHO將成為主要的工作方式,外出也不再需要旅行社的安排,因為你可以通過互聯網安排好一切。

Web 2.0帶來的沖擊將不會僅僅局限於互聯網或者媒體,它對我們的影響也許比你想像的還要大,美國《商業周刊》認為,從軟體業、電信業、媒體業、市場營銷業到娛樂業,幾乎都將受到了這股趨勢的強烈沖擊,並且即將發生翻天覆地的變化。

Web 2.0下的門戶網站建設

博客的出現之所以被稱為網路世界的革命,是因為其極大的降低了建站的技術門檻和資金門檻,而使每一個互聯網用戶都能方便快速的建立屬於自己的網上空間。隨 著配套應用的快速發展,個人博客將在很短的時間內加速成長為類門戶型的微型個人網站。博客走進千家萬戶和各行各業,從而將形成基於個人或小團體的以內容為 導向的群體,而其中一定會出現的佼佼者將在很大程度上從門戶頻道乃至專業網站手裡奪走部分甚至大部分讀者。這在IT業界和互聯網行業正在得到驗證。

Web2.0的定義,我認為是在web1.0的服務基礎上,是互聯網路用戶從信息接受者轉變成為信息製造者和傳播者,從受眾轉向主體,從單個個體轉向 社團的新型互聯網服務模式。在這種情況下,為用戶提供優秀的發布平台、便捷的溝通和展示平台、順暢的進入和退出機制、高效的信息整合機制變的與提供高質量 信息一樣重要,甚至更加重要。Web2.0時代的競爭,將不僅僅是內容的競爭,而是綜合服務的競爭,其中的關鍵點包括以上的數個方面。博客是web2.0 的最主要的代表。
[文摘]web2.0是一個讀寫的互聯網、一個依靠鏈接組織起來的互聯網。

一邊是寫,寫的人活躍在各種各樣的「節點」上,使用各種工具向互聯網上傳遞著數字化的內容,這些內容被保存在資料庫、文件系統,甚至是行動中的手機、 PDA;一邊是讀,讀的人活躍在各種各樣的「主頁」上,這里的「主頁」已經不能簡單的稱呼為某個網站的主頁,而是互聯網上N個活動的節點的主頁,一個「主 頁」上的內容,可能來自幾十個節點,「主頁」的編寫者同節點的所有者一樣,也在使用各種各樣的工具,從節點讀取內容,「主頁」的編寫者的主要工作已經從創 造內容變成了收集和整理內容。

博客

博客的出現,在很大程度上滿足了用戶由單純的信息接受者向信息提供者轉變的需要,從而得到快速的發展。博客通過RSS、博採、Trackback、 TAG等技術,在個體之間已初步形成了社團氛圍和初步的社團機制。可以預見,博客服務提供商們將能提供更多的技術手段來加強這種社團性聯系,如SNS等。 博客圈子的形成,將在另一層意義上大規模提高其內容產生質量和數量。

互動

博客與互聯網路的互動、博客之間的互動客觀上要求BSP提供商適時提供博客與博客網站之間的互動,需要博客網站為博客提供展示自己的舞台。只有這種互 動,才能將博客內容提供質量提高,而進一步深化博客信息質量。從某種程度上說,博客網站的門戶效應將極大影響某類博客的發展態勢和發展程度,而博客門戶也 會因為博客發展程度的原因而停滯或加速發展。兩者相輔相成。

在國內現有BSP競爭格局下,單純的BSP服務和單純的門戶內容提供模式都是缺乏競爭力的。必須把兩者結合起來,這就需要從博客網站和頻道定位開始, 逐步強化互動意識,探索互動的方法和技術。Web2.0時代的門戶頻道建設雖應從傳統門戶借鑒成功的經驗和做法,更重要的是要探索出一條新路,挖掘自身網 站博客的優秀內容。才能使2.0門戶擁有大大超越1.0時代門戶的資訊生產能力和整合、吸納傳統門戶優秀內容的能力。極端的說,即便有更好的產品來取代博 客,探索門戶同博客的深度互動平台也必不可少。

[文摘] 隨著支持RSS和XML-RPC的BLOG站點的興起,WEB2.0的概念也跟著興旺發達廣為傳播,就可以理解了。BLOG作為能夠體現web2.0中 「節點」概念幾乎全部要素的一種形式,是存儲和輸出數字化內容的最佳載體。但是,縱觀國內BLOG站點,多數都是提供了輸入數據的界面,卻沒有能有效的讓 自己再次成為「節點」,實在是有些可惜。

博客相關技術

伴隨博客出現而圍繞博客服務的技術主要有:博採技術、內容聚合技術、同步技術、SNS技術和tag。博採技術為用戶組織了隨時摘取有用內容的有效工 具,其前提是用戶認知到這個信息;RSS技術則將有用的信息源聚合起來,隨時將信息源提供的信息發送到用戶平台,Trackback技術則將博客團體內其 他成員的動向信息傳遞給用戶,保持成員間的有效溝通;SNS技術用於凝聚社團的整體意識,tag是網民自主分類工具。可以說,基於博客單體的技術開發已形 成體系並走向深化。與此對應的是,博客網站門戶和頻道的技術實現還停留在零的狀態,甚至連第一代門戶的技術都不如。

[文摘]如果把wikipedia中的web 2.0的描述當成「定義」或者「經典」是非常片面的。 其實wekipedia並沒有能下出一個定義,只是說明了哪些東西屬於目前所說的web 2.0的技術:

CSS + XHTML

AJAX (最近很紅火的新概念老技術,我自己的理解和定義是:通過網頁內的javascipt調用來減少web頁面刷新的必要性來提高web可用性的一種古老技術)

通過RSS/ATOM同步數據

通過RSS/ATOM聚合數據

友好的URL (例如uuzone的blog url: www.uuzone.com/blog/mao 而不是www.uuzone.com/app/showblog.do?blogid=91829&show=1&session= iuewqiyq32 之類的url)

支持按照blog的方式來發表 (說實話我不理解,為什麼支持按照blog的方式來發表就算web 2.0 )

採用REST(Representational State Transfer)的API或者XML的web service (其實REST本身就是很古老,而且定義不是非常嚴謹的。 不過我一直非常欣賞REST方式的web serivce界面)

社會性,能把東西分享給朋友等 ( 這就算2.0? )

其中還說了一些更general的東西:

系統的數據交換要很容易

一些數據應該由用戶創建和擁有

完全是web based.

博客門戶與博客的相互促進和發展

與傳統門戶主要為瀏覽者提供及時有效的信息不同,web2.0時代的門戶,將承擔以下的功能:1,與傳統門戶相同的內容服務功能;2,激勵或激發專業 博客生產內容;3,提供全息信息,聚合各方信息的功能;4,信息互動的功能;5,梳理信息功能;6,促進、激勵博客群形成的功能;7,商業性的博客頻道還 須建立商業鏈。只有不斷的進行此類功能的開發,才能給博客門戶帶來持續的競爭力。

[文摘] 當網民們打開IE輸入news.sina.com.cn就可以看到新聞的時候(請不要把我想像成為和你一樣的有覺悟),他們還有什麼理由要去費勁的搜集RSS種子?

Web2.0現在有了原旨主義者們,缺少的是「職業者」們,他們才會是實實在在推動Web2.0在中國更廣泛發展的中堅力量,這些「職業者」才會是真正把Web2.0給大眾化的使者。

沒有大眾化的Web2.0隻會繼續遲緩在中國的普及力度,空想構建出來後,更需要實踐者們去身體力行,我想keso在某種意義上來說更像是Raymond,而不是Linus,而如今中國的Web2.0,缺少的正是Linus和Redhat。

Linus讓我們在中文Web2.0上不至於落後,以至於我如今除了Blog,好使的都是國外的產品;Redhat則能讓更多的中國普通網民用更易於接受的方式去把Web2.0用起來。

內容生產的革命性變化給博客門戶內容生產部門帶來的革新

博客門戶內容生產的意義在於揀選信息和高效呈現。博客門戶平台擔負著用戶互動和內容呈現兩大任務。博客個人門戶和博客網站大門戶的互動,必須建立在基於博客相關技術(外部技術)和集取網站博客內容的網站內容管理系統(內部技術)之上。

程序

傳統編輯在進行編輯工作時,其工作重點是把握文章質量、頁面呈現質量、圖片質量以及專題製作質量。而在2.0環境下工作的編輯,更重要的是通過技術上一系列的揀選機制,把相關於門戶呈現的內容博客文章聚集起來,實現大門戶和小門戶的互動。

網路編輯2

G. 什麼是元數據

元數據(Metadata),又稱中介數據、中繼數據,為描述數據的數據(data about data)。

元數據作用是:

1、描述數據屬性(property)的信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。

2、元數據算是一種電子式目錄,為了達到編制目錄的目的,必須在描述並收藏數據的內容或特色,進而達成協助數據檢索的目的。

元數據的應用舉例:

1、數據結構:數據集的名稱、關系、欄位、約束等;

2、數據部署:數據集的物理位置;

3、數據流:數據集之間的流程依賴關系(非參照依賴),包括數據集到另一個數據集的規則;

4、質量度量:數據集上可以計算的度量;

5、度量邏輯關系:數據集度量之間的邏輯運算關系;

6、ETL過程:過程運行的順序,並行、串列;

7、數據集快照:一個時間點上,數據在所有數據集上的分布情況。

(7)rdf圖資料庫擴展閱讀:

元數據的優點:

1、自描述:元數據自動提供 COM 中 IDL 的功能,允許將一個文件同時用於定義和實現。運行庫模塊和程序集甚至不需要向操作系統注冊。結果,運行庫使用的說明始終反映編譯文件中的實際代碼,從而提高應用程序的可靠性。

2、設計:元數據提供所有必需的有關已編譯代碼的信息,以供用戶從用不同語言編寫的 PE 文件中繼承類。用戶可以創建用任何託管語言(任何面向公共語言運行庫的語言)編寫的任何類的實例,而不用擔心顯式封送處理或使用自定義的互用代碼。

H. 什麼是元數據

元數據(Meta Data)是關於數據倉庫的數據,指在數據倉庫建設過程中所產生的有關數據源定義,目標定義,轉換規則等相關的關鍵數據。同時元數據還包含關於數據含義的商業信息,所有這些信息都應當妥善保存,並很好地管理。為數據倉庫的發展和使用提供方便。

元數據是一種二進制信息,用以對存儲在公共語言運行庫可移植可執行文件 (PE) 文件或存儲在內存中的程序進行描述。將您的代碼編譯為 PE 文件時,便會將元數據插入到該文件的一部分中,而將代碼轉換為 Microsoft 中間語言 (MSIL) 並將其插入到該文件的另一部分中。在模塊或程序集中定義和引用的每個類型和成員都將在元數據中進行說明。當執行代碼時,運行庫將元數據載入到內存中,並引用它來發現有關代碼的類、成員、繼承等信息。

元數據以非特定語言的方式描述在代碼中定義的每一類型和成員。元數據存儲以下信息:

程序集的說明。
標識(名稱、版本、區域性、公鑰)。
導出的類型。
該程序集所依賴的其他程序集。
運行所需的安全許可權。
類型的說明。
名稱、可見性、基類和實現的介面。
成員(方法、欄位、屬性、事件、嵌套的類型)。
屬性。
修飾類型和成員的其他說明性元素。

一、元數據的優點

對於一種更簡單的編程模型來說,元數據是關鍵,該模型不再需要介面定義語言 (IDL) 文件、頭文件或任何外部組件引用方法。元數據允許 .NET 語言自動以非特定語言的方式對其自身進行描述,而這是開發人員和用戶都無法看見的。另外,通過使用屬性,可以對元數據進行擴展。元數據具有以下主要優點:

自描述文件。
公共語言運行庫模塊和程序集是自描述的。模塊的元數據包含與另一個模塊進行交互所需的全部信息。元數據自動提供 COM 中 IDL 的功能,允許將一個文件同時用於定義和實現。運行庫模塊和程序集甚至不需要向操作系統注冊。結果,運行庫使用的說明始終反映編譯文件中的實際代碼,從而提高應用程序的可靠性。

語言互用性和更簡單的基於組件的設計。
元數據提供所有必需的有關已編譯代碼的信息,以供您從用不同語言編寫的 PE 文件中繼承類。您可以創建用任何託管語言(任何面向公共語言運行庫的語言)編寫的任何類的實例,而不用擔心顯式封送處理或使用自定義的互用代碼。

二、屬性。

.NET Framework 允許您在編譯文件中聲明特定種類的元數據(稱為屬性)。在整個 .NET Framework 中到處都可以發現屬性的存在,屬性用於更精確地控制運行時您的程序如何工作。另外,您可以通過用戶定義的自定義屬性向 .NET Framework 文件發出您自己的自定義元數據。有關更多信息,請參見利用屬性擴展元數據。

三、元數據的意義

說到元數據的意義,可以從其應用目的來談的。雖然做數據倉庫言必稱元數據,必稱技術、業務元數據,但其到底用於何處?離開了目標去談元數據,就發現元數據包含太多的東西,因為他是描述數據的數據嘛。

還是那客戶關系系統來比喻,這個系統維護客戶信息當然是有目的的,是要用這些信息進行一些自動的流程處理、去挖掘一些客戶潛在的價值、做好客戶服務。當然沒有必要去維護客戶的生命特徵信息,諸如指紋、犯罪史等,這些信息跟客戶關系管理的目標關系不大。元數據也是如此,你可以將所以數據的結構、大小、什麼時間創建、什麼時間消亡、被那些人使用等等,這些信息可以延伸得太廣,如果不管目標,而試圖去建一個非常完美的元數據管理體系,這是一種絕對的"自上而下"做法,必敗無疑。

四、元數據列舉

基於應用,可以將元數據分成以下的若干中。

數據結構:數據集的名稱、關系、欄位、約束等;
數據部署:數據集的物理位置;
數據流:數據集之間的流程依賴關系(非參照依賴),包括數據集到另一個數據集的規則;
質量度量:數據集上可以計算的度量;
度量邏輯關系:數據集度量之間的邏輯運算關系;
ETL過程:過程運行的順序,並行、串列;
數據集快照:一個時間點上,數據在所有數據集上的分布情況;
星型模式元數據:事實表、維度、屬性、層次等;
報表語義層:報表指標的規則、過濾條件物理名稱和業務名稱的對應;
數據訪問日誌:哪些數據何時被何人訪問;
質量稽核日誌:何時、何度量被稽核,其結果;
數據裝載日誌:哪些數據何時被何人裝載;

五、元數據開發應用的標准化框架

1、數字圖書館資源組織框架

2. 元數據開發應用框架

2.1 元數據的基本意義 Metadata(元數據)是「關於數據的數據」;

元數據為各種形態的數字化信息單元和資源集合提供規范、普遍的描述方法和檢索工具;

元數據為分布的、由多種數字化資源有機構成的信息體系(如數字圖書館)提供整合的工具與紐帶。

離開元數據的數字圖書館將是一盤散沙,將無法提供有效的檢索和處理。

3. 元數據應用環境

3.1 Metadata的應用目的

(1)確認和檢索(Discovery andentification),主要致力於如何幫助人們檢索和確認所需要的資源,數據元素往往限於作者、標題、主題、位置等簡單信息,Dublin Core是其典型代表。

(2)著錄描述(Cataloging),用於對數據單元進行詳細、全面的著錄描述,數據元素囊括內容、載體、位置與獲取方式、製作與利用方法、甚至相關數據單元方面等,數據元素數量往往較多,MARC、GILS和FGDC/CSDGM是這類Metadata的典型代表。

(3)資源管理(Resource Administration),支持資源的存儲和使用管理,數據元素除比較全面的著錄描述信息外,還往往包括權利管理(Rights/Privacy Management)、電子簽名(Digital Signature)、資源評鑒(Seal of Approval/Rating)、使用管理(Access Management)、支付審計(Payment and Accounting)等方面的信息。

(4)資源保護與長期保存(Preservation and Archiving),支持對資源進行長期保存,數據元素除對資源進行描述和確認外,往往包括詳細的格式信息、製作信息、保護條件、轉換方式(Migration Methods)、保存責任等內容。

3.2 Metadata在不同領域的應用 根據不同領域的數據特點和應用需要,90年代以來,許多Metadata格式在各個不同領域出現

例如:
網路資源:Dublin Core、IAFA Template、CDF、Web Collections
文獻資料:MARC(with 856 Field),Dublic Core
人文科學:TEI Header
社會科學數據集:ICPSR SGML Codebook
博物館與藝術作品:CIMI、CDWA、RLG REACH Element Set、VRA Core
政府信息:GILS
地理空間信息:FGDC/CSDGM
數字圖像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images
檔案庫與資源集合:EAD
技術報告:RFC 1807
連續圖像:MPEG-7

3.3 Metadata格式的應用程度

不同領域的Metadata處於不同的標准化階段:
在網路資源描述方面,Dublin Core經過多年國際性努力,已經成為一個廣為接受和應用的事實標准;

在政府信息方面,由於美國政府大力推動和有關法律、標準的實行,GILS已經成為政府信息描述標准,並在世界若干國家得到相當程度的應用,與此類似的還有地理空間信息處理的FGDC/CSDGM;

但在某些領域,由於技術的迅速發展變化,仍然存在多個方案競爭,典型的是數字圖像的Metadata,現在提出的許多標准都處於實驗和完善的階段。
3.4 Metadata格式「標准化」程度問題

Metadata開發應用經驗表明,很難有一個統一的Metadata格式來滿足所有領域的數據描述需要;即使在同一個領域,也可能為了不同目的而需要不同的但可相互轉換的Metadata格式。

同時,統一的集中計劃式的Metadata格式標准也不適合Internet環境,不利於充分利用市場機制和各方面力量。

但在同一領域,應爭取「標准化」,在不同領域,應妥善解決不同格式的互操作問題。

4. 元數據結構

4.1 總體結構定義方式 一個Metadata格式由多層次的結構予以定義:

(1)內容結構(Content Structure),對該Metadata的構成元素及其定義標准進行描述。

(2)句法結構(Syntax Structure),定義Metadata結構以及如何描述這種結構。

(3)語義結構(Semantic Structure),定義Metadata元素的具體描述方法。

4.2 內容結構

內容結構定義Metadata的構成元素,可包括: 描述性元素、技術性元素、管理性元素、結構性元素(例如與編碼語言、Namespace、數據單元等的鏈接)。

這些數據元素很可能依據一定標准來選取,因此元數據內容結構中需要對此進行說明,例如MARC記錄所依據的ISBD,EAD所參照的ISAD(G),ICPSR所依據的ICPSR Data Preparation Manual。

4.3 句法結構

句法結構定義格式結構及其描述方式,例如元素的分區分段組織、元素選取使用規則、元素描述方法(例如Dublin Core採用ISO/IEC 11179標准)、元素結構描述方法(例如MARC記錄結構、SGML結構、XML結構)、結構語句描述語言(例如EBNF Notation)等。

有時,句法結構需要指出元數據是否與所描述的數據對象捆綁在一起、或作為單獨數據存在但以一定形式與數據對象鏈接,還可能描述與定義標准、DTD結構和Namespace等的鏈接方式。

4.4 語義結構 語義結構定義元素的具體描述方法,例如 描述元素時所採用的標准、最佳實踐(Best Practices)或自定義的描述要求(Instructions)。

有些元數據格式本身定義了語義結構,而另外一些則由具體採用單位規定語義結構,例如Dublin Core建議日期元素採用ISO 8601、資源類型採用Dublin Core Types、數據格式可採用MIME、識別號採用URL或DOI或ISBN;
又如OhioLink在使用VRA Core時要求主題元素使用A&AT、TGM和TGN,人名元素用ULAN。

5. 元數據編碼語言與製作方式

5.1 元數據編碼語言

元數據編碼語言(Metadata Encoding Languages)指對元數據元素和結構進行定義和描述的具體語法和語義規則,常稱為定義描述語言(DDL)。

在元數據發展初期人們常使用自定義的記錄語言(例如MARC)或資料庫記錄結構(如ROADS等),但隨著元數據格式的增多和互操作的要求,人們開始採用一些標准化的DDL來描述元數據,例如SGML和XML,其中以XML最有潛力。

5.2 元數據製作方式

(1)專門編制模塊(例如對MARC、GILS、FGDC等)

(2)數據處理時自動編制(例如對Dublin Core等)

(3)數據物理處理時自動編制(例如數字圖像掃描時的某些元數據參數)

(4)共享元數據(例如OCLC/CORC、IMESH

6. 元數據互操作性

6.1 元數據互操作性問題

由於不同的領域(甚至同一領域)往往存在多個元數據格式,當在用不同元數據格式描述的資源體系之間進行檢索、資源描述和資源利用時,就存在元數據的互操作性問題(Interoperability):
多個不同元數據格式的釋讀、轉換和由多個元數據格式描述的數字化信息資源體系之間的透明檢索。

6.2 元數據格式映射

利用特定轉換程序對不同元數據元格式進行轉換,稱為元數據映射(Metadata Mapping/Crosswalking)。

目前已有大量的轉換程序存在,供若幹流行元數據格式之間的轉化,例如
Dublin Core與USMARC; Dublin Core與EAD
Dublin Core與GILS; GILS與MARC TEI
Header與MARC FGDC與MARC

也可利用一種中介格式對同一格式框架下的多種元數據格式進行轉換,例如UNIverse項目利用GRS格式進行各種MARC格式和其它記錄格式的轉換。格式映射轉換准確、轉換效率較高。不過,這種方法在面對多種元數據格式並存的開放式環境中的應用效率明顯受到限制。

6.3 標准描述框架

解決元數據互操作性的另一種思路是建立一個標準的資源描述框架,用這個框架來描述所有元數據格式,那麼只要一個系統能夠解析這個標准描述框架,就能解讀相應的Metadata格式. 實際上,XML和RDF從不同角度起著類似的作用。

XML通過其標準的DTD定義方式,允許所有能夠解讀XML語句的系統辨識用XML_DTD定義的Metadata格式,從而解決對不同格式的釋讀問題。

RDF定義了由Resources、Properties和Statements等三種對象組成的基本模型,其中Resources和Properties關系類似於E-R模型,而Statements則對該關系進行具體描述。

RDF通過這個抽象的數據模型為定義和使用元數據建立一個框架,元數據元素可看成其描述的資源的屬性。

進一步地,RDF定義了標准Schema,規定了聲明資源類型、聲明相關屬性及其語義的機制,以及定義屬性與其它資源間關系的方法。另外,RDF還規定了利用XML Namespace方法調用已有定義規范的機制,

6.4 數字對象方式

建立包含元數據及其轉換機制的數字對象可能從另一個角度解決元數據互操作性問題。

Cornell/FEDORA項目提出由內核(Structural Kernel)和功能傳播層(Disseminator Layer)組成的復合數字對象。

內核里,可以容納以比特流形式存在的文獻內容、描述該文獻的元數據、以及對這個文獻及元數據進行存取控制的有關數據。

功能傳播層,主功能傳播器(PrimitiveDisseminator)支持有關解構內核數據類型和對內核數據讀取的服務功能,還可有內容類型傳播器(Content-Type Disseminators),它們可內嵌元數據格式轉換機制。

例如,在一個數字對象的內核中存有MARC格式的元數據,在功能傳播層裝載有請求Dublin Core格式及其轉換服務的內容類型傳播器。當數字對象使用者要求讀取以Dublin Core表示的元數據時,相應的內容類型傳播器將通過網路請求存儲有Dublin Core及其轉換服務程序的數字對象,然後將被請求數字對象中的MARC形式元數據轉換為Dublin Core形式,在輸出給用戶。

7. 幾點建議

跟蹤元數據發展、積極參與制定元數據標准、加快元數據應用、注意國際接軌。
加快研究有效利用元數據進行檢索(包括異構系統透明檢索)、相關性學習、個性化處理等的機制。
加快研究元數據與數字對象和數字化資源體系有機整合的途徑與方法。
推進研究利用元數據進行基於知識的數據組織和知識發現。

I. 語義網是什麼有什麼好處

文/thomas claburn

一些公司聯手致力於語義網開發環境和資料庫的研發。

有人把語義網(semantic web)稱為web3.0,現在它就要粉墨登場了。編程工具開發商topquadrant公司和franz公司日前表示,他們將把前者的topbraid composer和franz的allegrograph 64位rdf存儲資料庫結合起來,形成一個語義網開發環境和資料庫,提高計算機的「智力」。

語義技術可增強計算機對數據的理解,在整合大型數據集時用處特別顯著。它對於搜索應用的用處也很大,因為語義技術讓計算機推斷出未有明確定義的數據元素之間的關系。一個關鍵詞搜索通常僅僅返回包含查詢關鍵字的文檔,而語義搜索則能返回與搜索詞彙的含義有關的結果(例如:tank一詞,有坦克、水容器等兩種含義,語義技術能予以辨別),或者是與搜索詞彙的同義字有關的結果(例如:tank意為坦克時,同義字有armored vehicle,裝甲車)。

目前,還沒有出現真正意義上的語義網,這在很大程度上是因為現有工具還無法承擔這樣的任務。topquadrant的聯合創始人和執行合夥人拉爾夫·霍奇森(ralph hodgson)說:「我們必須要創建出合適的工具,來支持語義網的實現。」他說,包括protege和swoop等在內的公共領域許可軟體都還無法商用。

使用標准資料庫和開發環境的語義程序似乎不能很好地拓展。「你可以用自己的方式進行編程,」霍奇森說,「就是費點勁。」

語義網有許多的標准、協議以及包括rdf、owl(web ontology language,web本體語言)、sparql等在內的多種語言,此外還有可讓開發者在語義框架下組織數據的xml相關技術。上述兩家公司的產品組合,提供了一個基於eclipse的圖形開發環境和一個能與大量rdf數據同比擴大的資料庫。

葛蘭素史克公司(glaxosmithkline,下稱gsk)正在對allegrograph進行測試,以提供一個更為靈活的it基礎設施並通過自動化提高生產力。這家制葯公司正在利用一個語義數據提取層進行試驗。這項生物實驗室工作有很多制葯公司參與其中,因而產生了許多數據,gsk的一位主管羅賓·麥克伊泰(robin mcentire)說:「因此我們希望把它聚合起來,並在更高的一個層級上把它呈現出來,語義技術大有用處。」

該公司的目標是應用基於計算機的推理,從而對大量實驗數據進行評估和過濾。「低層級的推理是很好的開端,我們的科學家從事的任務並非『高科技』,但是特別耗時的任務就可以利用這項技術實現自動化。」麥克伊泰說。

伊士曼-柯達公司(eastman kodak,下稱柯達)也在使用allegrograph軟體,它從可視化數據中進行含義推斷,從而來幫助客戶更好地維護他們日漸龐大、難以管理的數字影像。

「語義理解技術將幫助消費者更好地管理自己的的圖片,」柯達主席兼首席執行官(ceo)彭安東(antonio perez)去年在一場演講中表示,「照片之間也能相互『認識』了—不用人們指點,利用元數據(metadata),一張照片便可尋找到具有相關元數據的另一張照片,因此,所有的照片便能以新的類別進行重新組合,無非取決於它們之間不同的關聯方式而已。」

J. 知識圖譜是什麼有哪些應用價值

知識圖譜 (Knowledge Graph) 是當前的研究熱點。自從2012年Google推出自己第一版知識圖譜以來,它在學術界和工業界掀起了一股熱潮。各大互聯網企業在之後的短短一年內紛紛推出了自己的知識圖譜產品以作為回應。比如在國內,互聯網巨頭網路和搜狗分別推出」知心「和」知立方」來改進其搜索質量。那麼與這些傳統的互聯網公司相比,對處於當今風口浪尖上的行業 - 互聯網金融, 知識圖譜可以有哪方面的應用呢?

目錄
1. 什麼是知識圖譜?
2. 知識圖譜的表示
3. 知識圖譜的存儲
4. 應用
5. 挑戰
6. 結語

1. 什麼是知識圖譜?

知識圖譜本質上是語義網路,是一種基於圖的數據結構,由節點(Point)和邊(Edge)組成。在知識圖譜里,每個節點表示現實世界中存在的「實體」,每條邊為實體與實體之間的「關系」。知識圖譜是關系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關系網路。知識圖譜提供了從「關系」的角度去分析問題的能力。

知識推理

推理能力是人類智能的重要特徵,使得我們可以從已有的知識中發現隱含的知識, 一般的推理往往需要一些規則的支持【3】。例如「朋友」的「朋友」,可以推理出「朋友」關系,「父親」的「父親」可以推理出「祖父」的關系。再比如張三的朋友很多也是李四的朋友,那我們可以推測張三和李四也很有可能是朋友關系。當然,這里會涉及到概率的問題。當信息量特別多的時候,怎麼把這些信息(side information)有效地與推理演算法結合在一起才是最關鍵的。常用的推理演算法包括基於邏輯(Logic) 的推理和基於分布式表示方法(Distributed Representation)的推理。隨著深度學習在人工智慧領域的地位變得越來越重要,基於分布式表示方法的推理也成為目前研究的熱點。如果有興趣可以參考一下這方面目前的工作進展【4,5,6,7】。

大數據、小樣本、構建有效的生態閉環是關鍵

雖然現在能獲取的數據量非常龐大,我們仍然面臨著小樣本問題,也就是樣本數量少。假設我們需要搭建一個基於機器學習的反欺詐評分系統,我們首先需要一些欺詐樣本。但實際上,我們能拿到的欺詐樣本數量不多,即便有幾百萬個貸款申請,最後被我們標記為欺詐的樣本很可能也就幾萬個而已。這對機器學習的建模提出了更高的挑戰。每一個欺詐樣本我們都是以很高昂的「代價」得到的。隨著時間的推移,我們必然會收集到更多的樣本,但樣本的增長空間還是有局限的。這有區別於傳統的機器學習系統,比如圖像識別,不難拿到好幾十萬甚至幾百萬的樣本。

在這種小樣本條件下,構建有效的生態閉環尤其的重要。所謂的生態閉環,指的是構建有效的自反饋系統使其能夠實時地反饋給我們的模型,並使得模型不斷地自優化從而提升准確率。為了搭建這種自學習系統,我們不僅要完善已有的數據流系統,而且要深入到各個業務線,並對相應的流程進行優化。這也是整個反欺詐環節必要的過程,我們要知道整個過程都充滿著博弈。所以我們需要不斷地通過反饋信號來調整我們的策略。

6. 結語

知識圖譜在學術界和工業界受到越來越多的關注。除了本文中所提到的應用,知識圖譜還可以應用在許可權管理,人力資源管理等不同的領域。在後續的文章中會詳細地講到這方面的應用。

參考文獻

【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.

【2】User Behavior Tutorial

【3】劉知遠 知識圖譜——機器大腦中的知識庫 第二章 知識圖譜——機器大腦中的知識庫

【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).

【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).

熱點內容
安卓外部資源怎麼下載 發布:2024-03-29 04:01:17 瀏覽:244
華為被加密碼的相冊在哪裡查看 發布:2024-03-29 04:00:27 瀏覽:747
自動欣悅版有哪些配置 發布:2024-03-29 03:48:26 瀏覽:287
如何用腳本搶 發布:2024-03-29 03:01:59 瀏覽:120
火影忍者手游配置怎麼調 發布:2024-03-29 02:53:53 瀏覽:103
編程畫櫻花 發布:2024-03-29 02:11:24 瀏覽:473
騰訊雲伺服器1mb老掉線 發布:2024-03-29 01:56:11 瀏覽:215
執行sql語句的存儲過程 發布:2024-03-29 01:52:37 瀏覽:697
婚紗攝影腳本 發布:2024-03-29 01:47:40 瀏覽:901
我的世界伺服器咋開外掛 發布:2024-03-29 01:07:45 瀏覽:456