當前位置:首頁 » 操作系統 » 信息檢索演算法

信息檢索演算法

發布時間: 2022-08-08 07:43:49

㈠ 信息檢索的核心問題是什麼啊也請簡要說明理由哈,先謝過了

信息檢索的核心問題就是判斷檢索文章與用戶要求查詢式是否相關,通常通過一個相關性的評價演算法來實現。顯示相關性評價的演算法實現是設計信息檢索系統的核心。可以更好的查找到自己想要找的信息。

㈡ 文獻信息檢索的原理是什麼

信息檢索是指將信息按一定方式組織和儲存起來,並針對信息用戶的特定需求查找出所需信息內容的過程。

計算機信息檢索是指利用一定的檢索演算法,藉助於特定的檢索工具,並針對用戶的檢索需求,從非結構化的數據中獲取有用信息的過程

信息檢索原理示意圖:如圖

信息檢索的實質是信息用戶的需求和一定的信息集合的比較和選擇的過程,即匹配的過程。

信息檢索步驟

分析檢索課題,明確檢索要求

選擇檢索工具,選擇檢索途徑

確定檢索標識,確定檢索運算

構築檢索提問,實施檢索操作

獲取初步信息,調整檢索策略

獲得滿意結果

㈢ 搜索引擎的排序演算法都有哪些是怎麼實現的

2.1基於詞頻統計——詞位置加權的搜索引擎
利用關鍵詞在文檔中出現的頻率和位置排序是搜索引擎最早期排序的主要思想,其技術發展也最為成熟,是第一階段搜索引擎的主要排序技術,應用非常廣泛,至今仍是許多搜索引擎的核心排序技術。其基本原理是:關鍵詞在文檔中詞頻越高,出現的位置越重要,則被認為和檢索詞的相關性越好。
1)詞頻統計
文檔的詞頻是指查詢關鍵詞在文檔中出現的頻率。查詢關鍵詞詞頻在文檔中出現的頻率越高,其相關度越大。但當關鍵詞為常用詞時,使其對相關性判斷的意義非常小。TF/IDF很好的解決了這個問題。TF/IDF演算法被認為是信息檢索中最重要的發明。TF(Term Frequency):單文本詞彙頻率,用關鍵詞的次數除以網頁的總字數,其商稱為「關鍵詞的頻率」。IDF(Inverse Document Frequency):逆文本頻率指數,其原理是,一個關鍵詞在N個網頁中出現過,那麼N越大,此關鍵詞的權重越小,反之亦然。當關鍵詞為常用詞時,其權重極小,從而解決詞頻統計的缺陷。
2)詞位置加權
在搜索引擎中,主要針對網頁進行詞位置加權。所以,頁面版式信息的分析至關重要。通過對檢索關鍵詞在Web頁面中不同位置和版式,給予不同的權值,從而根據權值來確定所搜索結果與檢索關鍵詞相關程度。可以考慮的版式信息有:是否是標題,是否為關鍵詞,是否是正文,字體大小,是否加粗等等。同時,錨文本的信息也是非常重要的,它一般能精確的描述所指向的頁面的內容。
2.2基於鏈接分析排序的第二代搜索引擎
鏈接分析排序的思想起源於文獻引文索引機制,即論文被引用的次數越多或被越權威的論文引用,其論文就越有價值。鏈接分析排序的思路與其相似,網頁被別的網頁引用的次數越多或被越權威的網頁引用,其價值就越大。被別的網頁引用的次數越多,說明該網頁越受歡迎,被越權威的網頁引用,說明該網頁質量越高。鏈接分析排序演算法大體可以分為以下幾類:基於隨機漫遊模型的,比如PageRank和Repution演算法;基於概率模型的,如SALSA、PHITS;基於Hub和Authority相互加強模型的,如HITS及其變種;基於貝葉斯模型的,如貝葉斯演算法及其簡化版本。所有的演算法在實際應用中都結合傳統的內容分析技術進行了優化。本文主要介紹以下幾種經典排序演算法:
1)PageRank演算法
PageRank演算法由斯坦福大學博士研究生Sergey Brin和Lwraence Page等提出的。PageRank演算法是Google搜索引擎的核心排序演算法,是Google成為全球最成功的搜索引擎的重要因素之一,同時開啟了鏈接分析研究的熱潮。
PageRank演算法的基本思想是:頁面的重要程度用PageRank值來衡量,PageRank值主要體現在兩個方面:引用該頁面的頁面個數和引用該頁面的頁面重要程度。一個頁面P(A)被另一個頁面P(B)引用,可看成P(B)推薦P(A),P(B)將其重要程度(PageRank值)平均的分配P(B)所引用的所有頁面,所以越多頁面引用P(A),則越多的頁面分配PageRank值給P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的頁面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。
其計算公式為:

PR(A):頁面A的PageRank值;
d:阻尼系數,由於某些頁面沒有入鏈接或者出鏈接,無法計算PageRank值,為避免這個問題(即LinkSink問題),而提出的。阻尼系數常指定為0.85。
R(Pi):頁面Pi的PageRank值;
C(Pi):頁面鏈出的鏈接數量;
PageRank值的計算初始值相同,為了不忽視被重要網頁鏈接的網頁也是重要的這一重要因素,需要反復迭代運算,據張映海撰文的計算結果,需要進行10次以上的迭代後鏈接評價值趨於穩定,如此經過多次迭代,系統的PR值達到收斂。
PageRank是一個與查詢無關的靜態演算法,因此所有網頁的PageRank值均可以通過離線計算獲得。這樣,減少了用戶檢索時需要的排序時間,極大地降低了查詢響應時間。但是PageRank存在兩個缺陷:首先PageRank演算法嚴重歧視新加入的網頁,因為新的網頁的出鏈接和入鏈接通常都很少,PageRank值非常低。另外PageRank演算法僅僅依靠外部鏈接數量和重要度來進行排名,而忽略了頁面的主題相關性,以至於一些主題不相關的網頁(如廣告頁面)獲得較大的PageRank值,從而影響了搜索結果的准確性。為此,各種主題相關演算法紛紛涌現,其中以以下幾種演算法最為典型。
2)Topic-Sensitive PageRank演算法
由於最初PageRank演算法中是沒有考慮主題相關因素的,斯坦福大學計算機科學系Taher Haveli-wala提出了一種主題敏感(Topic-Sensitive)的PageRank演算法解決了「主題漂流」問題。該演算法考慮到有些頁面在某些領域被認為是重要的,但並不表示它在其它領域也是重要的。
網頁A鏈接網頁B,可以看作網頁A對網頁B的評分,如果網頁A與網頁B屬於相同主題,則可認為A對B的評分更可靠。因為A與B可形象的看作是同行,同行對同行的了解往往比不是同行的要多,所以同行的評分往往比不是同行的評分可靠。遺憾的是TSPR並沒有利用主題的相關性來提高鏈接得分的准確性。
3)HillTop演算法
HillTop是Google的一個工程師Bharat在2001年獲得的專利。HillTop是一種查詢相關性鏈接分析演算法,克服了的PageRank的查詢無關性的缺點。HillTop演算法認為具有相同主題的相關文檔鏈接對於搜索者會有更大的價值。在Hilltop中僅考慮那些用於引導人們瀏覽資源的專家頁面(Export Sources)。Hilltop在收到一個查詢請求時,首先根據查詢的主題計算出一列相關性最強的專家頁面,然後根據指向目標頁面的非從屬專家頁面的數量和相關性來對目標頁面進行排序。
HillTop演算法確定網頁與搜索關鍵詞的匹配程度的基本排序過程取代了過分依靠PageRank的值去尋找那些權威頁面的方法,避免了許多想通過增加許多無效鏈接來提高網頁PageRank值的作弊方法。HillTop演算法通過不同等級的評分確保了評價結果對關鍵詞的相關性,通過不同位置的評分確保了主題(行業)的相關性,通過可區分短語數防止了關鍵詞的堆砌。
但是,專家頁面的搜索和確定對演算法起關鍵作用,專家頁面的質量對演算法的准確性起著決定性作用,也就忽略了大多數非專家頁面的影響。專家頁面在互聯網中占的比例非常低(1.79%),無法代表互聯網全部網頁,所以HillTop存在一定的局限性。同時,不同於PageRank演算法,HillTop演算法的運算是在線運行的,對系統的響應時間產生極大的壓力。
4)HITS
HITS(Hyperlink Inced Topic Search)演算法是Kleinberg在1998年提出的,是基於超鏈接分析排序演算法中另一個最著名的演算法之一。該演算法按照超鏈接的方向,將網頁分成兩種類型的頁面:Authority頁面和Hub頁面。Authority頁面又稱權威頁面,是指與某個查詢關鍵詞和組合最相近的頁面,Hub頁面又稱目錄頁,該頁面的內容主要是大量指向Authority頁面的鏈接,它的主要功能就是把這些Authority頁面聯合在一起。對於Authority頁面P,當指向P的Hub頁面越多,質量越高,P的Authority值就越大;而對於Hub頁面H,當H指向的Authority的頁面越多,Authority頁面質量越高,H的Hub值就越大。對整個Web集合而言,Authority和Hub是相互依賴、相互促進,相互加強的關系。Authority和Hub之間相互優化的關系,即為HITS演算法的基礎。
HITS基本思想是:演算法根據一個網頁的入度(指向此網頁的超鏈接)和出度(從此網頁指向別的網頁)來衡量網頁的重要性。在限定范圍之後根據網頁的出度和入度建立一個矩陣,通過矩陣的迭代運算和定義收斂的閾值不斷對兩個向量Authority和Hub值進行更新直至收斂。
實驗數據表明,HITS的排名准確性要比PageRank高,HITS演算法的設計符合網路用戶評價網路資源質量的普遍標准,因此能夠為用戶更好的利用網路信息檢索工具訪問互聯網資源帶來便利。
但卻存在以下缺陷:首先,HITS演算法只計算主特徵向量,處理不好主題漂移問題;其次,進行窄主題查詢時,可能產生主題泛化問題;第三,HITS演算法可以說一種實驗性質的嘗試。它必須在網路信息檢索系統進行面向內容的檢索操作之後,基於內容檢索的結果頁面及其直接相連的頁面之間的鏈接關系進行計算。盡管有人嘗試通過演算法改進和專門設立鏈接結構計算伺服器(Connectivity Server)等操作,可以實現一定程度的在線實時計算,但其計算代價仍然是不可接受的。
2.3基於智能化排序的第三代搜索引擎
排序演算法在搜索引擎中具有特別重要的地位,目前許多搜索引擎都在進一步研究新的排序方法,來提升用戶的滿意度。但目前第二代搜索引擎有著兩個不足之處,在此背景下,基於智能化排序的第三代搜索引擎也就應運而生。
1)相關性問題
相關性是指檢索詞和頁面的相關程度。由於語言復雜,僅僅通過鏈接分析及網頁的表面特徵來判斷檢索詞與頁面的相關性是片面的。例如:檢索「稻瘟病」,有網頁是介紹水稻病蟲害信息的,但文中沒有「稻瘟病」這個詞,搜索引擎根本無法檢索到。正是以上原因,造成大量的搜索引擎作弊現象無法解決。解決相關性的的方法應該是增加語意理解,分析檢索關鍵詞與網頁的相關程度,相關性分析越精準,用戶的搜索效果就會越好。同時,相關性低的網頁可以剔除,有效地防止搜索引擎作弊現象。檢索關鍵詞和網頁的相關性是在線運行的,會給系統相應時間很大的壓力,可以採用分布式體系結構可以提高系統規模和性能。
2)搜索結果的單一化問題
在搜索引擎上,任何人搜索同一個詞的結果都是一樣。這並不能滿足用戶的需求。不同的用戶對檢索的結果要求是不一樣的。例如:普通的農民檢索「稻瘟病」,只是想得到稻瘟病的相關信息以及防治方法,但農業專家或科技工作者可能會想得到稻瘟病相關的論文。
解決搜索結果單一的方法是提供個性化服務,實現智能搜索。通過Web數據挖掘,建立用戶模型(如用戶背景、興趣、行為、風格),提供個性化服務。

㈣ 信息檢索技術與實現

信息處理系統
定義 信息處理系統
information processing systems
進行信息採集、存儲、檢索、加工、變換、傳輸的系統。又常稱為數據處理系統。理論 信息處理系統一般指以計算機為基礎的處理系統。由輸入、輸出、處理三部分組成(見圖),或者說由硬體(包括中央處理機、存儲器、輸入輸出設備等)、系統軟體(包括操作系統、實用程序、資料庫管理系統等)、應用程序和資料庫所組成。一個信息處理系統是一個信息轉換機構,有一組轉換規則。系統根據輸入內容和資料庫內容決定輸出內容,或根據輸入內容修改資料庫內容。系統必須能識別輸入信息。對於以計算機為核心的信息處理系統,如果輸入信息是數值數據,則系統可以直接接收,不需要任何轉換;如果輸入信息是非數值信息(包括圖像、報告、文獻、消息、語音和文字等),則必須轉換為數值數據後才能予以處理。對應於系統輸出,則有一個相應的逆過程。
分類
信息處理系統有各種不同的分類方法。可按信息處理系統的應用領域區分,如管理信息系統、機票預訂系統、醫院信息系統等;也可按系統的結構和處理方式區分,如批處理系統、隨機處理系統、互動式處理系統、實時處理系統等。
信息處理系統一般按功能來區分。
計算服務系統 對眾多的用戶提供公共的計算服務,服務方式為聯機處理或批處理。
信息存儲和檢索系統 系統存儲大量的數據,並能根據用戶的查詢要求檢索出有關的數據,如情報檢索系統。資料庫由系統設計者設計並建立,輸出是對用戶查詢的回答。
監督控制信息系統 監督某些過程的進行,在給定的情況發生時發出信號,提請用戶採取處置措施。例如,城市交通管理系統、空中交通管理系統、公害監視系統等。這種系統的輸入信息往往是通過感測器或控制器傳進來的,系統周期地處理輸入數據,同資料庫中保存的數據進行比較和分析,以決定是否輸出信號。
業務信息處理系統 系統能完成某幾種具體業務的信息處理。處理過程和輸出形式都是事先規定好的。資料庫中事先存放好完成這些任務所需的各種數據。例如,機票預訂系統、電子資金匯兌系統等。
過程式控制制系統 系統通過各種儀器儀表等感測設備實時地收集被控對象的各種現場數據,加以適當處理和轉換,送入計算機,根據數學模型對數據進行綜合分析判斷,給出控制信息,以控制物理過程。例如,軋鋼過程式控制制系統、化工過程式控制制系統等。
信息傳輸系統 在傳輸線上將消息從發源地傳送到目的地,以達到在地理上分散的機構之間正確、迅速地交換情報的目的。例如,國際信息傳輸系統、全國銀行數據通信系統等。
計算機輔助系統 通過人機對話的方式,計算機輔助人們從事設計、加工、計劃和學習,如計算機輔助設計、計算機輔助教學等。
有些信息處理系統可能是上述某幾類的綜合。如醫療管理系統,其中的事務管理屬於業務信息處理系統,臨床數據管理和醫療器械管理屬於監督控制系統,醫學情報檢索管理則屬於信息存儲和檢索系統,而計算機輔助診療則屬於計算機輔助系統。
概述
信息處理系統是個很復雜的系統。系統的設計、構造、操作和維護都需要很大費用,因此需要從系統工程的觀點加以分析和研究。系統軟體分程序和資料庫兩部分,它們對信息處理系統都是同樣重要的。一個好的信息處理系統必須要有一個良好的人機通信介面。開發信息處理系統的技術尚在不斷發展,已經應用的信息處理系統也還需要不斷更新。

㈤ 如何利用搜索引擎進行信息檢索

可以利用搜索引擎高級搜索指令快速檢索到想要的資源,搜索引擎高級搜索指令常用的只有幾個,可以去網上找找

回答不容易,希望能幫到您,滿意請幫忙採納一下,謝謝 !

㈥ 有誰知道計算機檢索的基本原理和步驟是什麼呀

計算機檢索的基本原理:
檢索技術及其實現
檢索技術包括基本布爾邏輯組配、截詞、詞位限制、檢域限制等。
布爾邏輯組配是現行計算機檢索的基本技術,主要通過「和(and,*)」、「或(or,+)」、「非(not,-)」等將檢索詞聯絡起來
如:信息檢索 AND 計算機
(信息檢索 OR 文獻檢索) AND 計算機
文獻檢索 NOT 文獻檢索課

如果要更詳細資料請瀏覽參考資料(是Microsoft Powerpoint 97 文件)

㈦ 怎麼使用信息搜索

網際網路上的信息浩如煙海,我們怎樣才能從那麼多的信息中找到所需的信息呢?一種辦法是靠自己平時隨時記錄和整理有用的萬維網站點,另一種辦法就是依靠搜索引擎。

搜索引擎是一種萬維網站點,他們除了提供信息內容服務外,還提供信息檢索服務。他們提供的信息檢索服務主要有兩種方式。

一種是索引方式。這種索引將萬維網上的信息按照一種分類方法組織成樹狀結構,你可以一級一級地查下去,直至找到你想瀏覽的網頁。例如,它的第一個網頁上給出政治、科技、文化、藝術、體育等幾個大類的欄目。如果你對體育感興趣,則可把滑鼠移到體育欄上點一下。接著,它會給你展示第二層的欄目,有國內體育和國外體育。再下一層可能是籃球、排球、足球、乒乓球、羽毛球、冰球、手球、棒球、高爾夫球、曲棍球……最後,可能在「最近一周足球比賽結果」欄目下顯示出若干篇報道文章的題目,這時,你就可以選一篇來閱讀了。實際上你每選一次,瀏覽器都把你的選擇傳送給搜索引擎站點,然後搜索引擎站點再將結果傳送給你。如果搜索引擎站點很遠(如在美國),那可能得稍微費點時間。

另一種方式是查找方式。提供這種服務的萬維網站點的第一個網頁上有一個空的欄目,供你填寫查找要求。在那兒,你可以填入要查找內容的主題詞和關鍵詞。例如,你填了「天安門」,搜索引擎站點會查出有關天安門的文章。使用這種方式時,關鍵的一點是你的要求要比較恰當,如果要求太一般,搜索引擎站點可能給你找出成千上萬篇文章;如果要求太嚴,可能查了很長時間,結果一篇也找不到。

搜索引擎的服務能力取決於該站點聯系的萬維網站點的數目、資料庫更新的時間周期、信息分類方法和它的信息檢索演算法。它收集的站點少,自然信息就少;更新周期長,信息就會陳舊;分類不合理,本來可查到的信息可能就查不到;演算法不好,查找的速度就慢。搜索引擎站點有不少,比較著名的搜索引擎站點有網路、谷歌等。

知識點

廣域網

廣域網也稱遠程網。通常跨接很大的物理范圍,所覆蓋的范圍從幾十公里到幾千公里,它能連接多個城市或國家,或橫跨幾個洲並能提供遠距離通信,形成國際性的遠程網路。廣域網的通信子網主要使用分組交換技術。廣域網的通信子網可以利用公用分組交換網、衛星通信網和無線分組交換網,它將分布在不同地區的區域網或計算機系統互連起來,達到資源共享的目的。

㈧ 中國搜索引擎檢索的主要方式有哪兩種

現有的搜索引擎基本上分為三類:
1.1 single search engine(獨立搜索引擎) 它的特點是僅在搜索引擎自身的資料庫檢索信息,比如Yahoo。
1.2 Meta search engine(元搜索引擎) 它在檢索信息時通過調用其它多個獨立的搜索引擎來完成檢索功能,並且能夠將從多個獨立搜索引擎查詢的結果進行不同程度的處理,比如刪除重復結果、校驗連接、結果按照相關度排序等。元搜索引擎本身可以有也可以沒有自己的資料庫。由於不同的元搜索引擎掛接的獨立搜索引擎各不相同,且各自獨立的搜索引擎在查詢語法上的差別較大,使得元搜索引擎本身僅支持AND、0R、N0T等簡單的語法操作,返回的結果只能滿足「最低常用分母」,即不能提高搜索結果的准確性。
1.3 Net search engine(網路搜索軟體) 就是網路用戶可以將相應的搜索軟體下載至本地的計算機上,安裝查詢,這是一種具有網路查詢功能的離線瀏覽器。相對於元搜索引擎,它可以靈活地控制輸出結果,其最大特點是方便用戶使用和能快速地查詢網路相關資源。2 網路搜索引擎的工作原理及其基本構成
用戶檢索信息時,搜索引擎是根據用戶的查詢要求,按照一定的演算法從索引資料庫中查找對應的信息返回給用戶。為了保證用戶查找信息的精度和新鮮度。對於獨立的搜索引擎而言.還需要建立並維護一個龐大的資料庫。獨立搜索引擎中的索引資料庫中的信息是通過一種叫做網路蜘蛛(spider)的程序軟體定期在網上爬行,通過訪問公共網路中公開區域的每一個站點採集網頁,對網路信息資源進行收集,然後利用索引軟體對收集的信息進行自動標引,創建一個可供用戶按照關鍵字等進行查詢的web頁索引資料庫,搜索軟體通過索引資料庫為用戶提供查詢服務。所以,一般的搜索引擎主要由網路蜘蛛、索引和搜索軟體三部分組成.
網路蜘蛛。是一個功能很強的程序,它會定期根據預先設定的地址去查看對應的網頁,如網頁發生變化則重新獲取該網頁,否則根據該網頁中的鏈接繼續去訪問。網路蜘蛛訪問頁面的過程是對互連網上信息遍歷的過程。為了保證網路蜘蛛遍歷信息的廣度,一般事先設定_ 些重要的鏈接,然後進行遍歷。在遍歷的過程中不斷記錄網頁中的鏈接,不斷地遍歷下去,直到訪問完所有的鏈接。
索引軟體。網路蜘蛛將遍歷搜索集得到的網頁存放在資料庫中。為了提高檢索的效率,需要建立索引。索引一般為倒排檔索引。
搜索軟體。該軟體用於篩選索引資料庫中無數的網頁信息,選擇出符合用戶檢索要求的網頁並對它們進行分級排序。然後將分級排序後的結果顯示給用戶。
3 搜索引擎的主要性能評價指標
3.1 搜索引擎建立索引的方法 資料庫中的索引一般是按照倒排文檔的文件格式存放,在建立例排索引的時候,不同的搜索引擎有不同的選項。有些搜索引擎對於信息頁面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;還有些搜索引擎,比如Google建立索引的時候,同時還考慮超文本的不同標記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁面的信息的概括,所以用它來作為所指向的頁面的重要信息。Google、infoseek還在建立索引的過程中收集頁面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結構,利用這些結果信息可以提高頁面相關度判別時的准確度。由於索引不同,在檢索信息時產生的結果會不同。
3.2 搜索引擎的檢索功能搜索引擎所支持的檢索功能的多少及其實現的優劣,直接決定了檢索效果的好壞,所以網路檢索工具除了要支持諸如布爾檢索、鄰近檢索、截詞檢索、欄位檢索等基本的檢索功能之外,更應該根據網上信息資源的變化,及時地應用新技術、新方法,提高高級檢索功能。另外,由於中文信息特有的編碼不統一問題,所以如果搜索引擎能夠實現不同內碼之間的自動轉換,用戶就會全面檢索大陸、港台乃至全世界的中文信息。這樣不但提高了搜索引擎的質量,而且會得到用戶的支持。
3.3 搜索引擎的檢索效果 檢索效果可以從響應時間、查全率、查准率和相關度方面來衡量。響應時間是用戶輸入檢索式開始查詢到檢出結果的時間。查全率是指一次搜索結果中符合用戶要求的數目與和用戶查詢相關的總數之比;查准率是指一次搜索結果集中符合用戶要求的數目與該次搜索結果總數之比;相似度是指用戶查詢與搜索結果之間相似度的一種度量。雖然由於無法估計網路上與某個檢索提問相關的所有信息數量。所以目前尚沒有定量計算查全率的更好方法,但是它作為評價檢索效果的指標還是值得保留。查准率也是一個復雜的概念,一方面表示搜索引擎對搜索結果的排序,另一方面卻體現了搜索引擎對垃圾網頁的抗干擾能力。總之,一個好的搜索引輦應該具有較快的響應速度和高的查全率和查准率,或者有極大的相似度。
3.4 搜索引擎的受歡迎程度 搜索引擎的受歡迎程度體現了用戶對於搜索引擎的偏愛程度,知名度高、性能穩定和搜索質量好的搜索引擎很受用戶的青睞。搜索引擎的受歡迎程度也會隨著它的知名度和服務水平的變化而動態的變化。搜索引擎的服務水平和它所收集的信息量、信息的新鮮度和查詢的精度相關。隨著各種新的搜索技術的出現,智能化的、支持多媒體檢索的搜索引擎將越來越受用戶的歡迎。
另外,搜索引擎的信息佔有量也可以作為評價搜索引擎性能的指標。綜上所述,評價搜索引擎的性能指標可以概括為:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.檢索功能(支持的檢索技術,多媒體檢索,內碼處理等);C.查詢效果(響應時間,查全率,查准率,相關度);d.受歡迎程度;e.信息佔有量。4 搜索引擎檢索信息的局限
2001年Roper的調查指出,36% 的互連網用戶一個星期花超過2個小時的時間在網上搜索;71% 的用戶在使用搜索引擎時遇到過麻煩;平均搜索12分鍾以後發現搜索受挫。另一項由Keen所做的調查顯示,31% 的人使用搜索引擎尋找答案,網上查找答案的半數以上都不成功。從這些調查數據中不難看出。目前的搜索引擎仍然存在不少的局限性。概括起來大致有以下幾個方面。
4.1 搜索引擎對信息的標引深度不夠 目前,搜索引擎檢索的結果往往只提供一些線形的網址和包括關鍵詞的網頁信息,與人們對它的預期存在較大的距離,或者返回過多的無用信息,或者信息丟失,特別是對特定的文獻資料庫的檢索顯得無能為力。
4.2 搜索引擎的信息量佔有不足 作為搜索引擎必須佔有相當大的信息量才能具有一定的查全率和實用性。目前還沒有一種覆蓋整個網際網路信息資源的搜索引擎。
4.3 搜索引擎的查准率不高 分析起來,這是因為:一方面由於網上信息數量巨大、內容龐大、良莠不齊,信息的質量得不到保障;另一方面是由於大多數搜索引擎的索引工作由程序自動完成,根據網頁中詞頻及詞的位置等因素確定關鍵詞,有的網站為了提高點擊率,將一些與網頁主題並不相關的熱門詞彙以隱含方式放在頁面上,並重復多次,從而造成查准率低。
4.4 檢索功能單一,缺乏靈活性 目前許多搜索引擎的查詢方法比較單一,一般只提供分類查詢方式和關鍵詞查詢方式。不能從文獻的多個方面對檢索提問進行限制,只能就某一關鍵詞或者概念進行籠統的檢索。
4.5 搜索引擎自身的技術局限像目前部分搜索引擎還不能支持對多媒體信息的檢索。造成上述信息檢索困難的原因實質在於搜索引擎對要檢索的信息僅僅採用機械的詞語匹配來實現,缺乏知識處理能力和理解能力。也就是說搜索引擎無法處理用戶看來是非常普通的常識性知識,更不能處理隨用戶不同而變化的個性化知識、隨地域不同而變化的區域性知識以及隨領域不同而變化的專業性知識等等。5 搜索引擎未來的發展趨勢
新一代搜索引擎的發展目標就是採用新興的搜索技術為用戶提供更方便易用、更精確的搜索工具來滿足用戶的信息查詢需要。技術上,應該在自然語言理解技術上有所突破,以XML可擴展標記語言為主,並使用向導技術。下面就搜索引擎的發展趨勢談幾點看法。
<strong>答案補充</strong>
5.1 垂直化專業領域搜索 由於社會分工的加大,用戶從事的職業有所不同,不同用戶對信息搜索也往往有自己的專業要求。由於綜合性的搜索引擎收錄各方面、各學科、各行業的信息,因而搜索不相關的信息太多,專業垂直引擎則可以解決這個問題,垂直類搜索引擎是只面向某一特定的領域,專注於自己的特長和核心技術,能夠保證對該領域信息的完全收錄與及時更新。因此,基於專業領域的「垂直搜索引擎」開始成為搜索引擎發展的一個新趨勢。
5.2 智能化搜索 傳統的搜索引擎使用方法是被動搜索,而准確的搜索應建立在對收錄信息和搜索請求的理解之上。顯然,基於自然語言理解技術的搜索引擎由於可以同用戶使用自然語言交談,並深刻理解用戶的搜索請求,則查詢的結果更
加准確。
5.3 關聯式的綜合搜索 所謂關聯式綜合搜索,是這樣一種一站式的搜索服務,它使得用戶在搜索時只需要輸入一次查詢目標,即可以在同一界面得到各種有關聯的查詢結果,這種服務的關鍵在於有一架構在XML基礎上的整合資訊平台。<strong>答案補充</strong>
5.4 個性化搜索 提高搜索精確度的另一個途徑是提供個性化的搜索,也就是將搜索建立在個性化的搜索環境之下,其核心是跟蹤用戶的搜索行為,通過對用戶的不斷了解、分析,積累用戶的搜索個性化數據來提高用戶的搜索效率。
5.5 結構化搜索 所謂結構化搜索,是指充分利用XML等技術使信息結構化,同時使用查詢結構化,從而使搜索的准確度大大提高。
5.6 本土化的搜索 世界上許多著名的搜索引擎都在美國,它們以英語為基礎,完全按他們的思維方式和觀點搜集和檢索資料,這對於全球不同國家的用戶來說是顯然不合適的。各國的文化傳統、思維方式和生活習慣不同,在對於網站的內容的搜索要求上也就存在差異。搜索結果要符合當地用戶的要求,搜索引擎就必須本土化。
5.7 多媒體搜索。隨著寬頻技術的發展,未來的互聯網是多媒體數據的時代,開發出可查詢圖像、聲音、圖片和電影的搜索引擎是一個新的方向,這也將極大地滿足用戶的需求。未來的搜索引擎應該信息量更大、搜索速度更快、搜索精度更高和更能夠滿足用戶的信息查詢需求。

熱點內容
武漢大學編譯原理 發布:2024-04-24 02:25:47 瀏覽:298
自己搭建雲手機平台伺服器配置 發布:2024-04-24 02:00:40 瀏覽:164
澤拉斯開腳本 發布:2024-04-24 01:48:22 瀏覽:161
聊城編程培訓機構 發布:2024-04-24 01:45:28 瀏覽:909
iptables允許訪問外網訪問 發布:2024-04-24 01:20:20 瀏覽:882
p在c語言中是什麼意思 發布:2024-04-24 00:53:13 瀏覽:237
空調壓縮電機 發布:2024-04-24 00:48:03 瀏覽:508
市場如何進行配置資源 發布:2024-04-24 00:42:00 瀏覽:158
編譯好的軟體 發布:2024-04-24 00:41:19 瀏覽:890
多個文件夾建立 發布:2024-04-24 00:21:27 瀏覽:459