當前位置:首頁 » 操作系統 » 截詞演算法

截詞演算法

發布時間: 2022-11-15 14:08:02

⑴ 截詞符 通配符 邏輯演算法的查全率誰最高

邏輯運算又稱布爾運算 布爾用數學方法研究邏輯問題,成功地建立了邏輯演算。他用等式表示判斷,把推理看作等式的變換。這種變換的有效性不依賴人們對符號的解釋,只依賴於符號的組合規律 。這一邏輯理論人們常稱它為布爾代數。20世紀30年代,邏輯代數在電路系統上獲得應用,隨後,由於電子技術與計算機的發展,出現各種復雜的大系統,它們的變換規律也遵守布爾所揭示的規律。邏輯運算 (logical operators) 通常用來測試真假值。最常見到的邏輯運算就是循環的處理,用來判斷是否該離開循環或繼續執行循環內的指令。

⑵ 計算機檢索技術有哪些

計算機信息檢索可以概括為兩個部分:信息存儲和信息檢索。

計算機信息檢索與信息的構造、分析、組織、存儲和傳播有關。計算機信息檢索系統是信息檢索所用的硬體資源、系統軟體和檢索軟體的總合。它能存儲大量的信息,並對信息條目(有特定邏輯含義的基本信息單位)進行分類、編目或編制索引。它可以根據用戶要求從已存儲的信息集合中抽取出特定的信息,並提供插入、修改和刪除某些信息的能力。

(2)截詞演算法擴展閱讀:

計算機信息檢索系統的可靠性與計算機系統的可靠性密切相關。它依賴於計算機系統硬體的可靠性、操作系統的故障恢復機構、資料庫管理系統的恢復機構和應用軟體採取的故障處理措施。任何計算機信息檢索系統都不能保證信息不受到破壞,但是它必須具有從破壞中得以恢復的能力。

計算機信息檢索系統的效能通常根據漏檢索、誤檢率、檢全率、檢准率和響應時間(對聯機檢索)等來衡量。關鍵詞本身錯誤或使用的查找演算法不對會引起漏檢。

php 字元串循環截取,大家都用什麼演算法實現

並不是截取 通過
json_decode 函數轉數組,然後用循環。

⑷ 求MATLAB雙譜分析相關學習資料(作用、用法、說明),我要用於處理神經信息相乾性的,還望大家多多指導呢

低通采樣定理實驗 1.1 實驗目的 1.了解數字信號處理系統的一般構成; 2.掌握奈奎斯特抽樣定理。 1.2 實驗儀器 1.YBLD智能綜合信號源測試儀 1台 2.雙蹤示波器 1台 3.MCOM-TG305數字信號處理與現代通信技術實驗箱 1台 4.PC機(裝有MATLAB、MCOM-TG305配套實驗軟體) 1台 1.3 實驗原理 一個典型的DSP系統除了數字信號處理部分外,還包括A/D和D/A兩部分。這是因為自然界的信號,如聲音、圖像等大多是模擬信號,因此需要將其數字化後進行數字信號處理,模擬信號的數字化即稱為A/D轉換。數字信號處理後的數據可能需還原為模擬信號,這就需要進行D/A轉換。一個僅包括A/D和D/A兩部分的簡化數字信號處理系統功能如圖1所示。 A/D轉換包括三個緊密相關的過程,即抽樣、量化和編碼。A/D轉換中需解決的以下幾個重要問題:抽樣後輸出信號中還有沒有原始信號的信息?如果有能不能把它取出來?抽樣頻率應該如何選擇? 奈奎斯特抽樣定理(即低通信號的均勻抽樣定理)告訴我們,一個頻帶限制在0至fx以內的低通信號x(t),如果以fs≥2fx的抽樣速率進行均勻抽樣,則x(t)可以由抽樣後的信號xs(t)完全地確定,即xs(t)包含有x(t)的成分,可以通過適當的低通濾波器不失真地恢復出x(t)。最小抽樣速率fs=2fx稱為奈奎斯特速率。 低通 解碼 編碼 量化 抽樣 輸入信號 樣點輸出 濾波輸出 A/D(模數轉換) D/A(數模轉換) 圖1 低通采樣定理演示 為方便實現,實驗中更換了一種表現形式,即抽樣頻率固定(10KHz),通過改變輸入模擬信號的頻率來展示低通抽樣定理。我們可以通過研究抽樣頻率和模擬信號最高頻率分量的頻率之間的關系,來驗證低通抽樣定理。 1.4 實驗內容 1.軟體模擬實驗:編寫並調試MATLAB程序,分析有關參數,記錄有關波形。 2.硬體實驗:輸入不同頻率的正弦信號,觀察采樣時鍾波形、輸入信號波形、樣點輸出波形和濾波輸出波形。 1.5 MATLAB參考程序和模擬內容 %*******************************************************************% %f—餘弦信號的頻率 % M—基2 FFT冪次數 N=2^M為采樣點數,這樣取值是為了便於作基2的FFT分析 %2. 采樣頻率Fs %*******************************************************************% function samples(f,Fs,M) N=2^M; % fft點數=取樣總點數 Ts=1/Fs; % 取樣時間間隔 T=N*Ts; % 取樣總時間=取樣總點數*取樣時間間隔 n=0:N-1; t=n*Ts; Xn=cos(2*f*pi*t); subplot(2,1,1); stem(t,Xn); axis([0 T 1.1*min(Xn) 1.1*max(Xn)]); xlabel('t -->'); ylabel('Xn'); Xk=abs(fft(Xn,N)); subplot(2,1,2); stem(n,Xk); axis([0 N 1.1*min(Xk) 1.1*max(Xk)]); xlabel('frequency -->'); ylabel('!Xk!'); %*******************************************************************% 假如有一個1Hz的餘弦信號y=cos(2*π*t),對其用4Hz的采樣頻率進行采樣,共采樣32點,只需執行samples(1,4,5),即可得到模擬結果。 軟體模擬實驗內容如下表所示: 模擬參數 f Fs Wo(計算) Xn(圖形) Xk(圖形) (1,4,5) 另外記錄圖形,並標圖號 (1,8,5) (2,8,6) 自 選 1.6 硬體實驗步驟 本實驗箱采樣頻率fs固定為10KHz,低通濾波器的截止頻率約為4.5KHz。 1、用低頻信號源產生正弦信號,正弦信號源頻率f自定,並將其接至2TP2(模擬輸入)端,將示波器通道一探頭接至2TP6(采樣時鍾)端觀察采樣時鍾波形,示波器通道二探頭接至2TP2觀察並記錄輸入信號波形。 2、將示波器通道二探頭接至2TP3觀察並記錄樣點輸出波形。 3、將示波器通道二探頭接至2TP4觀察並記錄濾波輸出波形。 4、根據采樣定理,分f=fs /8、f=fs/4、f=fs/2等3種情況更改正弦信號頻率,重復步驟2至步驟3。 5、用低頻信號源產生方波信號,重復步驟1至步驟4。 1.7 思考題 1、 討論在模擬實驗中所計算的數字域頻率Wo和Xk的圖形中非零譜線位置之間的對應關系。 2、 討論在模擬實驗中自選參數的意義。 3、將在2TP2端加方波信號後的恢復波形,與相同頻率的正弦信號的恢復波形相比,能夠得出哪些結論? 2 FFT頻譜分析實驗 2.1 實驗目的 1.通過實驗加深對快速傅立葉變換(FFT)基本原理的理解。 2.了解FFT點數與頻譜解析度的關系,以及兩種加長序列FFT與原序列FFT的關系。 2.2 實驗儀器 1.YBLD智能綜合信號源測試儀 1台 2.雙蹤示波器 1台 3.MCOM-TG305數字信號處理與現代通信技術實驗箱 1台 4.PC機(裝有MATLAB、MCOM-TG305配套實驗軟體) 1台 2.3 實驗原理 離散傅里葉變換(DFT)和卷積是信號處理中兩個最基本也是最常用的運算,它們涉及到信號與系統的分析與綜合這一廣泛的信號處理領域。實際上卷積與DFT之間有著互通的聯系:卷積可化為DFT來實現,其它的許多演算法,如相關、濾波和譜估計等都可化為DFT來實現,DFT也可化為卷積來實現。 對N點序列x(n),其DFT變換對定義為: 在DFT運算中包含大量的重復運算。FFT演算法利用了蝶形因子WN的周期性和對稱性,從而加快了運算的速度。FFT演算法將長序列的DFT分解為短序列的DFT。N點的DFT先分解為2個N/2點的DFT,每個N/2點的DFT又分解為2個N/4點的DFT。按照此規律,最小變換的點數即所謂的「基數(radix)。」因此,基數為2的FFT演算法的最小變換(或稱蝶形)是2點DFT。一般地,對N點FFT,對應於N個輸入樣值,有N個頻域樣值與之對應。一般而言,FFT演算法可以分為時間抽取(DIT)FFT和頻率抽取(DIF)兩大類。 在實際計算中,可以採用在原來序列後面補0的加長方法來提高FFT的解析度;可以採用在原來序列後面重復的加長方法來增加FFT的幅度。 2.4 實驗內容 1.軟體模擬實驗:分別觀察並記錄正弦序列、方波序列及改變FFT的點數後的頻譜;分別觀察並記錄正弦序列、方波序列及2種加長序列等信號的頻譜。 2.硬體實驗:分別觀察並記錄正弦信號、方波信號及改變FFT的點數後的頻譜。 2.5 MATLAB參考程序和模擬內容 %*******************************************************************% function[x]=ffts(mode,M) Nfft=2^M; x=zeros(1,Nfft); %定義一個長度為Nfft的一維全0數組 if mode= =1 for n=0:Nfft-1 x(n+1)=sin(2*pi*n/Nfft); end end %定義一個長度為Nfft的單周期正弦序列 if mode= =2 for n=0:Nfft-1 x(n+1)=sin(4*pi*n/Nfft); end end %定義一個長度為Nfft的雙周期正弦序列 if mode= =3 for n=0:Nfft/2-1 x(n+1)=sin(4*pi*n/Nfft); end end %定義一個長度為Nfft/2的正弦序列,後面一半為0序列。 if mode= =4 for n=0:Nfft-1 x(n+1)=square(2*pi*n/Nfft); end end if mode= =5 for n=0:Nfft-1 x(n+1)=square(2*pi*n/Nfft); end end if mode= =6 for n=0:Nfft/2-1 x(n+1)=square(4*pi*n/Nfft); end end n=0:Nfft-1; subplot(2,1,1); stem(n,x); axis([0 Nfft-1 1.1*min(x) 1.1*max(x)]); xlabel('Points-->'); ylabel('x(n)'); X=abs(fft(x,Nfft)); subplot(2,1,2); stem(n,X); axis([0 Nfft-1 1.1*min(X) 1.1*max(X)]); xlabel('frequency-->'); ylabel('!X(k)!'); %*******************************************************************% 假設需觀察方波信號的頻譜,對一個周期的方波信號作32點的FFT,則只需在MATLAB的命令窗口下鍵入:[x]=ffts(21,5) ,程序進行模擬,並且輸出FFT的結果。 關於軟體模擬實驗內容,建議在完成大量模擬例子的基礎上,選擇能夠體現實驗要求的4個以上的例子進行記錄。例如要觀察後面補0的加長方法來提高FFT的解析度的現象,可以模擬ffts(4,5)和ffts(6,6)兩個例子。 2.6 硬體實驗步驟 1.將低頻信號源輸出加到實驗箱模擬通道1輸入端,將示波器探頭接至模擬通道1輸出端。 2.在保證實驗箱正確加電且串口電纜連接正常的情況下,運行數字信號處理與DSP應用實驗開發軟體,在「數字信號處理實驗」菜單下選擇「FFT頻譜分析」子菜單,出現顯示FFT頻譜分析功能提示信息的窗口。 3.用低頻信號產生器產生一個1KHz的正弦信號。 4.選擇FFT頻譜分析與顯示的點數為64點,開始進行FFT運算。此後,計算機將周期性地取回DSP運算後的FFT數據並繪圖顯示 5.改信號源頻率,觀察並記錄頻譜圖的變化。 6.選擇FFT的點數為128點,觀察並記錄頻譜圖的變化。 7.更改正弦信號的頻率,重復步驟4 ~步驟6。 8.用低頻信號產生器產生一個1KHz的方波信號,重復步驟4 ~步驟7。注意:應根據實驗箱采樣頻率fs為10KHz和方波信號的頻帶寬度選擇方波信號的頻率。 本硬體實驗要進行兩種信號,每個信號兩種頻率,每個信號兩種點數等共8次具體實驗內容,性質能夠體現實驗要求的4個以上的例子進行記錄。 2.7 思考題 1.對同一個信號,不同點數FFT觀察到的頻譜圖有何區別? 2.序列加長後FFT與原序列FFT的關系是什麼,試推導其中一種關系。 3.用傅立葉級數理論,試說明正弦信號頻譜和方波信號頻譜之間的關系。 3 IIR濾波器設計實驗 3.1 實驗目的 1.通過實驗加深對IIR濾波器基本原理的理解。 2.學習編寫IIR濾波器的MATLAB模擬程序。 3.2 實驗儀器 1.YBLD智能綜合信號源測試儀 1台 2.雙蹤示波器 1台 3.MCOM-TG305數字信號處理與現代通信技術實驗箱 1台 4.PC機(裝有MATLAB、MCOM-TG305配套實驗軟體) 1台 3.3 實驗原理 IIR濾波器有以下幾個特點: 1.IIR數字濾波器的系統函數可以寫成封閉函數的形式。 2.IIR數字濾波器採用遞歸型結構,即結構上帶有反饋環路。IIR濾波器運算結構通常由延時、乘以系數和相加等基本運算組成,可以組合成直接型、正准型、級聯型、並聯型四種結構形式,都具有反饋迴路。由於運算中的舍入處理,使誤差不斷累積,有時會產生微弱的寄生振盪。 3.IIR數字濾波器在設計上可以藉助成熟的模擬濾波器的成果,如巴特沃斯、契比雪夫和橢圓濾波器等,有現成的設計數據或圖表可查,其設計工作量比較小,對計算工具的要求不高。在設計一個IIR數字濾波器時,我們根據指標先寫出模擬濾波器的公式,然後通過一定的變換,將模擬濾波器的公式轉換成數字濾波器的公式。 4.IIR數字濾波器的相位特性不好控制,對相位要求較高時,需加相位校準網路。 在MATLAB下設計IIR濾波器可使用Butterworth函數設計出巴特沃斯濾波器,使用Cheby1函數設計出契比雪夫I型濾波器,使用Cheby2設計出契比雪夫II型濾波器,使用ellipord函數設計出橢圓濾波器。下面主要介紹前兩個函數的使用。 與FIR濾波器的設計不同,IIR濾波器設計時的階數不是由設計者指定,而是根據設計者輸入的各個濾波器參數(截止頻率、通帶濾紋、阻帶衰減等),由軟體設計出滿足這些參數的最低濾波器階數。在MATLAB下設計不同類型IIR濾波器均有與之對應的函數用於階數的選擇。 一、巴特沃斯IIR濾波器的設計 在MATLAB下,設計巴特沃斯IIR濾波器可使用butter函數。 Butter函數可設計低通、高通、帶通和帶阻的數字和模擬IIR濾波器,其特性為使通帶內的幅度響應最大限度地平坦,但同時損失截止頻率處的下降斜度。在期望通帶平滑的情況下,可使用butter函數。 butter函數的用法為: [b,a]=butter(n,Wn,/ftype/) 其中n代表濾波器階數,Wn代表濾波器的截止頻率,這兩個參數可使用buttord函數來確定。buttord函數可在給定濾波器性能的情況下,求出巴特沃斯濾波器的最小階數n,同時給出對應的截止頻率Wn。buttord函數的用法為: [n,Wn]= buttord(Wp,Ws,Rp,Rs) 其中Wp和Ws分別是通帶和阻帶的拐角頻率(截止頻率),其取值范圍為0至1之間。當其值為1時代表采樣頻率的一半。Rp和Rs分別是通帶和阻帶區的波紋系數。 不同類型(高通、低通、帶通和帶阻)濾波器對應的Wp和Ws值遵循以下規則: 1.高通濾波器:Wp和Ws為一元矢量且Wp>Ws; 2.低通濾波器:Wp和Ws為一元矢量且Wp<Ws; 3.帶通濾波器:Wp和Ws為二元矢量且Wp<Ws,如Wp=[0.2,0.7],Ws=[0.1,0.8]; 4.帶阻濾波器:Wp和Ws為二元矢量且Wp>Ws,如Wp=[0.1,0.8],Ws=[0.2,0.7]。 二、契比雪夫I型IIR濾波器的設計 在期望通帶下降斜率大的場合,應使用橢圓濾波器或契比雪夫濾波器。在MATLAB下可使用cheby1函數設計出契比雪夫I型IIR濾波器。 cheby1函數可設計低通、高通、帶通和帶阻契比雪夫I型濾IIR波器,其通帶內為等波紋,阻帶內為單調。契比雪夫I型的下降斜度比II型大,但其代價是通帶內波紋較大。 cheby1函數的用法為: [b,a]=cheby1(n,Rp,Wn,/ftype/) 在使用cheby1函數設計IIR濾波器之前,可使用cheblord函數求出濾波器階數n和截止頻率Wn。cheblord函數可在給定濾波器性能的情況下,選擇契比雪夫I型濾波器的最小階和截止頻率Wn。 cheblord函數的用法為: [n,Wn]=cheblord(Wp,Ws,Rp,Rs) 其中Wp和Ws分別是通帶和阻帶的拐角頻率(截止頻率),其取值范圍為0至1之間。當其值為1時代表采樣頻率的一半。Rp和Rs分別是通帶和阻帶區的波紋系數。 3.4 實驗內容 1.軟體模擬實驗:編寫並調試MATLAB程序,選擇不同形式,不同類型的4種濾波器進行模擬,記錄幅頻和相頻特性,對比巴特沃斯濾波器和契比雪夫濾波器。 2.硬體實驗:設計IIR濾波器,在計算機上觀察沖激響應、幅頻特性和相頻特性,然後下載到實驗箱。用示波器觀察輸入輸出波形,測試濾波器的幅頻響應特性。 3.5 MATLAB參考程序和模擬內容 %*******************************************************************% %mode: 1--巴特沃斯低通;2--巴特沃斯高通;3--巴特沃斯帶通;4--巴特沃斯帶阻 % 5--契比雪夫低通;6--契比雪夫高通;7--契比雪夫帶通;8--契比雪夫帶阻 %fp1,fp2: 通帶截止頻率,當高通或低通時只有fp1有效 %fs1, fs2: 阻帶截止頻率,當高通或低通時只有fs1有效 %rp: 通帶波紋系數 %as: 阻帶衰減系數 %sample: 采樣率 %h: 返回設計好的濾波器系數 %*******************************************************************% function[b,a]=iirfilt(mode,fp1,fp2,fs1,fs2,rp,as,sample) wp1=2*fp1/sample;wp2=2*fp2/sample; ws1=2*fs1/sample;ws2=2*fs2/sample; %得到巴特沃斯濾波器的最小階數N和3bd頻率wn if mode<3[N,wn]=buttord(wp1,ws1,rp,as); elseif mode<5[N,wn]=buttord([wp1 wp2],[ws1 ws2],rp,as); %得到契比雪夫濾波器的最小階數N和3bd頻率wn elseif mode<7[N,wn]=cheb1ord(wp1,ws1,rp,as); else[N,wn]=cheblord([wp1 wp2],[ws1 ws2],rp,as); end %得到濾波器系數的分子b和分母a if mode= =1[b,a]=butter(N,wn);end if mode= =2[b,a]=butter(N,wn,/high/);end if mode= =3[b,a]=butter(N,wn);end if mode= =4[b,a]=butter(N,wn,/stop/);end if mode= =5[b,a]=cheby1(N,rp,wn);end if mode= =6[b,a]=cheby1(N,rp,wn,/high/);end if mode= =7[b,a]=cheby1(N,rp,wn);end if mode= =8[b,a]=cheby1(N,rp,wn,/stop/);end set(gcf,/menubar/,menubar); freq_response=freqz(b,a); magnitude=20*log10(abs(freq_response)); m=0:511; f=m*sample/(2*511); subplot(3,1,1);plot(f,magnitude);grid; %幅頻特性 axis([0 sample/2 1.1*min(magnitude) 1.1*max(magnitude)]); ylabel('Magnitude');xlabel('Frequency-->'); phase=angle(freq_response); subplot(3,1,2);plot(f,phase);grid; %相頻特性 axis([0 sample/2 1.1*min(phase) 1.1*max(phase)]); ylabel('Phase');xlabel('Frequency-->'); h=impz(b,a,32); %32點的單位函數響應 t=1:32; subplot(3,1,3);stem(t,h);grid; axis([0 32 1.2*min(h) 1.1*max(h)]); ylabel('h(n)');xlabel('n-->'); %*******************************************************************% 假設需設計一個巴特沃斯低通IIR濾波器,通帶截止頻率為2KHz,阻帶截止頻率為3KHz,通帶波紋系數為1,阻帶衰減系數為20,采樣頻率為10KHz,則只需在MATLAB的命令窗口下鍵入: [b,a]=iirfilt(1,2000,3000,2400,2600,1,20,10000) 程序進行模擬,並且按照如下順序輸出數字濾波器系統函數 的系數 b= b0 b1 ……bn a= a0 a1 ……an 關於軟體模擬實驗內容,建議在完成大量模擬例子的基礎上,選擇能夠體現實驗要求的4個例子進行記錄,系統函數只要記錄系統的階數。 3.6 硬體實驗步驟 1.根據實驗箱采樣頻率fs為10KHz的條件,用低頻信號發生器產生一個頻率合適的低頻正弦信號,將其加到實驗箱模擬通道1輸入端,將示波器通道1探頭接至模擬通道1輸入端,通道2探頭接至模擬通道2輸出端。 2.在保證實驗箱正確加電且串口電纜連接正常的情況下,運行數字信號處理與DSP應用實驗開發軟體,在「數字信號處理實驗」菜單下選擇「IIR濾波器」子菜單,出現提示信息。 3.輸入濾波器類型、濾波器截止頻率等參數後,分別點擊「幅頻特性」和「相頻特性」按鈕,在窗口右側觀察IIR濾波器的幅頻特性和相頻特性。此時提示信息將消失,如需查看提示信息,可點擊「設計說明」按鈕。 4.點擊「下載實現」按鈕,IIR濾波器開始工作,此時窗口右側將顯示IIR濾波器的幅頻特性。 5.根據輸入濾波器類型,更改低頻信號源的頻率,觀察示波器上輸入輸出波形幅度的變化情況,測量IIR濾波器的幅頻響應特性,看其是否與設計的幅頻特性一致。 6.更改濾波器類型、濾波器截止頻率等參數(共4種),重復步驟3至步驟5。所選擇的例子參數最好和MATLAB模擬程序的例子一樣。 7.用低頻信號產生器產生一個500Hz的方波信號,分別設計3種濾波器,完成如下表要求的功能,並且記錄參數和波形。 功 能 濾波器類型 參 數 輸出波形 fp1 fp2 fs1 fs2 通過3次及以下次數的諧波 另外記錄圖形,並標圖號 濾除5次及以下次數的諧波 通過3次到5次的諧波 3.7 思考題 1.在實驗箱采樣頻率fs固定為10KHz的條件下,要觀察方波信號頻帶寬度內的各個諧波分量,方波信號的頻率最高不能超過多少,為什麼? 2.硬體實驗內容7中輸出信號各個諧波分量,與原來方波信號同樣諧波分量相比,有沒有發生失真?主要發生了什麼類型的失真?為什麼? 4 窗函數法FIR濾波器設計實驗 4.1 實驗目的 1.通過實驗加深對FIR濾波器基本原理的理解。 2.學習使用窗函數法設計FIR濾波器,了解窗函數的形式和長度對濾波器性能的影響。 4.2 實驗儀器 1.YBLD智能綜合信號源測試儀 1台 2.雙蹤示波器 1台 3.MCOM-TG305數字信號處理與現代通信技術實驗箱 1台 4.PC機(裝有MATLAB、MCOM-TG305配套實驗軟體) 1台 4.3 實驗原理 數字濾波器的設計是數字信號處理中的一個重要內容。數字濾波器設計包括FIR(有限單位脈沖響應)濾波器與IIR(無限單位脈沖響應)濾波器兩種。 與IIR濾波器相比,FIR濾波器在保證幅度特性滿足技術要求的同時,很容易做到嚴格的線性相位特性。設FIR濾波器單位脈沖響應h(n)長度為N,其系統函數H(z)為: H(z)是z-1的N-1次多項式,它在z平面上有N-1個零點,原點z=0是N-1階重極點,因此H(z)是永遠穩定的。穩定和線性相位特性是FIR濾波器突出的優點。 FIR濾波器的設計任務是選擇有限長度的h(n)。使傳輸函數H( )滿足技術要求。FIR濾波器的設計方法有多種,如窗函數法、頻率采樣法及其它各種優化設計方法,本實驗介紹窗函數法的FIR濾波器設計。 窗函數法是使用矩形窗、三角窗、巴特利特窗、漢明窗、漢寧窗和布萊克曼窗等設計出標准響應的高通、低通、帶通和帶阻FIR濾波器。 一、firl函數的使用 在MATLAB下設計標准響應FIR濾波器可使用firl函數。firl函數以經典方法實現加窗線性相位FIR濾波器設計,它可以設計出標準的低通、帶通、高通和帶阻濾波器。firl函數的用法為: b=firl(n,Wn,/ftype/,Window) 各個參數的含義如下: b—濾波器系數。對於一個n階的FIR濾波器,其n+1個濾波器系數可表示為:b(z)=b(1)+b(2)z-1+…+b(n+1)z-n。 n—濾波器階數。 Wn—截止頻率,0≤Wn≤1,Wn=1對應於采樣頻率的一半。當設計帶通和帶阻濾波器時,Wn=[W1 W2],W1≤ω≤W2。 ftype—當指定ftype時,可設計高通和帶阻濾波器。Ftype=high時,設計高通FIR濾波器;ftype=stop時設計帶阻FIR濾波器。低通和帶通FIR濾波器無需輸入ftype參數。 Window—窗函數。窗函數的長度應等於FIR濾波器系數個數,即階數n+1。 二、窗函數的使用 在MATLAB下,這些窗函數分別為: 1.矩形窗:w=boxcar(n),產生一個n點的矩形窗函數。 2.三角窗:w=triang(n),產生一個n點的三角窗函數。 當n為奇數時,三角窗系數為w(k)= 當n為偶數時,三角窗系數為w(k)= 3.巴特利特窗:w=Bartlett(n),產生一個n點的巴特利特窗函數。 巴特利特窗系數為w(k)= 巴特利特窗與三角窗非常相似。巴特利特窗在取樣點1和n上總以零結束,而三角窗在這些點上並不為零。實際上,當n為奇數時bartlett(n)的中心n-2個點等效於triang(n-2)。 4.漢明窗:w=hamming(n),產生一個n點的漢明窗函數。 漢明窗系數為w(k+1)=0.54-0.46cos( ) k=0,…,n-1 5.漢寧窗:w=hanning(n),產生一個n點的漢寧窗函數。 漢寧窗系數為w(k)=0.5[1-cos( )] k=1,…,n 6.布萊克曼窗:w=Blackman(n),產生一個n點的布萊克曼窗函數。 布萊克曼窗系數為w(k)=0.42-0.5cos(2π )+0.8cos(4π )] k=1,…,n 與等長度的漢明窗和漢寧窗相比,布萊克曼窗的主瓣稍寬,旁瓣稍低。 7.凱澤窗:w=Kaiser(n,beta),產生一個n點的凱澤窗數,其中beta為影響窗函數旁瓣的β參數,其最小的旁瓣抑制α與β的關系為: 0.1102(α-0.87) α>50 β= 0.5842(α-21)0.4+0.07886(α-21) 21≤α≤50 0 α<21 增加β可使主瓣變寬,旁瓣的幅度降低。 8.契比雪夫窗:w=chebwin(n,r)產生一個n點的契比雪夫窗函數。其傅里葉變換後的旁瓣波紋低於主瓣r個db數。 4.4 實驗內容 1.軟體模擬實驗:編寫並調試MATLAB程序,觀察不同窗,不同類型濾波器不同點數等共4種FIR濾波器的h(n),並記錄幅頻特性和相頻特性。 2.硬體實驗:用窗函數法設計標准響應的FIR濾波器,在計算機上觀察窗函數幅頻特性、幅頻特性和相頻特性,然後下載到實驗箱。用示波器觀察輸入輸出波形,測試濾波器的幅頻響應特性。 4.5 MATLAB參考程序和模擬內容 %*******************************************************************% %mode: 模式(1--高通;2--低通;3--帶通;4--帶阻) %n: 階數,加窗的點數為階數加1 %fp: 高通和低通時指示截止頻率,帶通和帶阻時指示下限頻率 %fs: 帶通和帶阻時指示上限頻率 %window:加窗(1--矩形窗;2--三角窗;3--巴特利特窗;4--漢明窗; % 5--漢寧窗;6--布萊克曼窗;7--凱澤窗;8--契比雪夫窗) %r: 代表加chebyshev窗的r值和加kaiser窗時的beta值 %sample: 采樣率 %h: 返回設計好的FIR濾波器系數 %*******************************************************************% %mode: 模式(1--高通;2--低通;3--帶通;4--帶阻) %n: 階數,加窗的點數為階數加1 %fp: 高通和低通時指示截止頻率,帶通和帶阻時指示下限頻率 %fs: 你可以試下。不錯,2011/9/26 11:15:24

⑸ 百度是如何實現中文切詞的呢

大規模中文文本處理中的自動切詞和標注技術
--------------------------------------------------------------------------------

Internet網路通信技術和大容量存儲技術的發展,加速了信息流通的速度,形成了大
規模真實文本庫。這些信息具有規模大、實時性強、內容分布廣和格式靈活多樣等特點
,從而迫使人們考慮語言信息處理的新理論和新技術。
傳統的語言信息處理方法目前已發生了明顯的變化。主要表現在:處理對象由少量例
句到大規模的真實文本;處理方法由完全語法分析到部分語法分析;處理范圍由典型領域
到開放的實用領域等。
中文信息處理是語言信息處理的一部分,包括漢字信息處理和漢語信息處理。近年來
,在漢字信息處理取得長足進步的基礎上,漢語信息處理也開展了一系列的探索性工作。
由於漢語獨有的許多難點,如沒有詞的界限標記、沒有形態標記、詞類劃分和兼類情況復
雜等,面對大規模中文文本的處理任務,作為中文信息處理基礎工程的切詞、詞類標注和
語義標注工作,無論是在理論、方法還是工具方面都面臨著如何適應這些變革的問題。
伴隨著大規模真實文本語料庫的出現,應運而生的語料庫語言學(Corpus Linguisti
cs)在80年代嶄露頭角。山西大學是國內較早建立大規模語料庫並從事自然語言處理的單
位之一。1988年受國家語委和國家教委委託,建立了容量為200萬漢字的語料庫,進行了現
代漢語常用字表的統計。1991~1992年建立了包括新聞、經濟、軍事、體育、科技和科
普讀物等題材的100萬漢字的現代漢語語料庫,成功地用語料庫方法進行了漢語切詞和詞
類自動標注的研究。在上述兩個大規模語料庫的基礎上,我們從中精選了部分語料進行了
切詞、詞類標注的精加工,形成了10萬漢字的精加工語料庫。1995年國家863智能介面評
測小組主持的"現代漢語書面語自動切詞與詞類標注評測",其中所用的語料就取自該語料
庫。
"九五"期間,我們在已有的經過粗加工的1000萬字以上語料庫的基礎上建造了200萬
字的平衡語料庫,目前正在進行精加工處理,已完成其中50萬漢字語料的切詞和詞類標注
的精加工以及部分段落語義標注試驗,發現了很多深層次的問題。
一、研究需要引伸的自動切詞技術
1.切詞詞表建造和未登錄詞識別
從目前國內計算機界採用的切詞技術及其切詞結果來看,情況不容樂觀。首先是《分
詞規范》公布後,尚無一套公認的權威性的切詞詞表可供使用。為此,1995年全國智能接
口評測大綱規定,選取《現代漢語詞典》和《漢語拼音正詞法》中的詞語作為評測參考。
這實際上是一種臨時措施,沒有解決根本問題。《現代漢語詞典》是國內和國際上公認的
最具權威性的規范詞典,1995年重版修訂後,增加了9000多條反映新事物、新概念和科技
新發展、社會新變化的新詞語,如代溝、反思、特區、離休、信用卡、桑那浴、人工智慧
、基因工程等,同時也刪去了一些過於陳舊的詞語和過於專門的專科術語。作為一部推廣
普通話、促進漢語規范化服務的詞典,它的水平是很高的,但作為切詞用的詞表,其詞彙的
收集和數量都不能適應語言信息處理的工程性需要,還需進行篩選和補充。從我們已處理
過的幾十萬語料來看,還有數千個普通詞語需要補充。
其次,因為語言的生命力是由人們的使用決定的,它總是以一種動態的面貌展現在人
們的面前。從動態的角度看,人們可以根據表達的需要不斷地構造新詞,這就使語言中詞
的數目永遠是個開放集,任何錶面完備的切詞詞表都不可能把語言中所有的詞涵蓋無遺。
如:唯美/傾向、唯智力/傾向、唯設備/傾向……,非智力/因素、非國有/資產、非生產性
/投資……,其中,"非"、"唯"均為前綴,上述含這兩個前綴而構成的詞都是未登錄詞,也可
看作是一種動態詞。但是,我們應看到,漢語中的很多語素在活動能力、構詞位置上具有
靈活多變的特點,特別是其中有的語素既可以是能獨立運用的成詞語素,又能與別的語素
組合,作為構詞語素或語綴。
如"非"在上面幾例中是前綴,記為"非1",但在"非嚴肅查處不可"、"這件事非老劉不
能解決"中,"非"是一個連詞,記為"非2"。因此,區分"非"在句中是前綴還是詞,這是正確
切詞的關鍵,構詞知識、句法知識、語義知識在此必不可少。我們還應看到,語言中的詞
雖然可以數目無限,但這些詞的構造規則是有限的,這可以看成是語言的靜態一面。這些
靜態知識就是我們動態詞構詞規則庫的內容。
另外,在自動切詞過程中,專名識別也是一個難題。未被辨識出的中外人名、地名、
機構組織名、商標名等是導致切詞錯誤的重要原因之一。專名識別出現的錯誤可分為兩
種,一種是誤檢,把專名誤作普通名詞或其它詞處理,而導致分詞錯誤;另一種是錯檢,把非
人名、地名等誤分作人名、地名,而導致分詞錯誤。
目前,一些切詞系統所採用的專名識別方法是建立人名、地名等專名庫,然後再用機
械匹配的方法進行處理。這種方法從根本上講還是用靜態詞典來匹配動態語言材料,其實
際結果總是不盡如人意。因此,必須從動態的角度研究專名辨識方法。
以中國人名為例。1984年,國家語委和山西大學合作,利用1982年全國人口普查資料
,對我國漢字姓氏人名用字進行了抽樣統計。從北京、上海、遼寧、廣東、福建、陝西、
四川等七個地區(各抽取2.5萬人)抽取人名共計174993個。這項成果具有覆蓋面廣、代表
性強、合理、科學等特點。其中共有姓氏729個,分布相對集中,王、陳、李、張、劉這五
個大姓佔32%,前114個姓佔90%,前365個姓佔99%。同時,從人名用字的統計來看,時代背景
和區域性特色也十分明顯。如單名增長趨勢顯著,在1982年人口普查的抽樣調查中,新中
國成立前出生的總人數為68273個,單名人數佔6.5%,1976年以後的總人數為13621個,單名
佔32.5%。又如人名用"紅"字的,在新中國成立前佔0.136%,而在1966~1976年期間佔2.1
5%。人名用字的時代變化太明顯了。
這些翔實的姓名統計資料清楚地告訴我們,採用姓氏用字型檔、人名用字型檔以及上下文
稱謂等方法進行人名識別是一條可以試驗的方法。目前,由於研究深度不夠,試驗結果還
未能達到實用。
多年的實踐告訴我們,專名識別是一個很復雜的問題,不僅涉及字詞的信息(如是否常
做姓氏和人名),而且還涉及詞語搭配的句法知識和語義知識等。
總之,自然語言具有無限豐富、不斷發展和約定俗成的特點。漢語和其它自然語言一
樣,它的詞彙部分永遠是一個開放集,任何詞表都不能做到將全部詞彙收入。自動切詞系
統中由未登錄詞造成的切詞錯誤遠遠超過歧義切分與欄位引發的錯誤。因此,近年來這個
問題已成為自動切詞研究的焦點。目前,自動切詞的各種演算法設計和切詞精度的提高,還
有賴於從現代漢語詞彙學的角度進行分析研究,如語素的構詞能力、接尾詞和接頭詞的特
性、復合詞的構成方式等,才能從根本上解決切詞詞表的建造和未登錄詞的辨識問題。
2.建造歧義切分的句法構詞知識庫,以提高切詞精度
歧義欄位在中文文本中是普遍存在的,是自動切詞中一個比較棘手的問題。近年來,
國內開展了對歧義切分技術的研究,已研究出一些構詞和語法語義知識,增強了切分歧義
欄位的能力,提高了切詞的精度。但是,這些構詞語法知識庫庫容小、規則有限,無法滿足
大規模真實文本中信息處理的高標准要求。當前,應首先在大規模真實語料中採集各種歧
義現象的基礎上,從語素構詞、詞的句法關系、詞義搭配、短語結構等多個角度進行分析
研究。
目前,我們已從語料中收集整理了近萬條歧義切分欄位及其相應的句子,建立了歧義
切分欄位語料庫,並從中發現,交集型歧義切分欄位占歧義欄位總數的85%以上,而其中又
以二字詞構成的歧義欄位為多,占交集型歧義欄位的90%以上。可見處理這些由二字詞構
成的交集型歧義切分欄位是我們研製歧義切分技術的一個重點。基於以上事實,經過一年
來的不斷攻關,我們共歸納出幾十條歧義欄位切分的句法規則及上百條構詞規則,並用上
述規則進行切詞試驗,取得了較為滿意的效果。如歧義切分欄位庫中所有由介詞構成的歧
義欄位有上百條,而我們只給出兩條句法規則就解決了這些欄位的歧義問題。
規則P1:AJB為交集型歧義欄位,若A為介詞,則切分為A(介)/JB。如除/法律、與/共同
、把/關系、為/人民等。
規則P2:AJB為交集型歧義欄位,若B為介詞,則切分為AJ/B(介)。如發現/在、沒有/用
、習慣/於、主動/向等。
我們還建立了助詞、副詞、連詞、方位詞、趨向動詞、能願動詞、量詞、形容詞等
的句法規則來解決歧義欄位,同樣具有以簡馭繁的功效。
歧義欄位切分時,詞法知識同樣是正確切分中必要的信息。如"己"、"民"、"界"、"
闡"等都是不成詞語素,由這些語素組成的歧義欄位可以利用構詞法的知識給出切分規則
。下面例子中的歧義欄位都能取得正確的切分結果。
拿/出/自己/的/心愛/的/東西。(不可能切成"出自/己")
到時/在/世界/上/展示/風采。(不可能切成"在世/界")
這/段/話/闡明/了/一/個/真理。(不可能切成"闡/明了")
五/鄉/村民/辦/起/了/小/水電。(不可能切成"鄉村/民")
我們在探討歧義欄位切分技術時所建立的歧義切分句法和構詞知識庫,大大地增強了
處理歧義欄位的能力。
二、詞類自動標注中應考慮的兩項技術
1.詞類標注應採取經驗主義和理性主義相結合的方法
1992年國際機器翻譯會議的主題即為"機器翻譯中的經驗主義和理性主義方法"。隨
著對大規模真實文本處理的日益關注,人們已普遍認識到基於語料庫的分析方法(即經驗
主義方法)至少是對基於規則的分析方法(即理性主義方法)的一個重要補充。
在國內詞類自動標注演算法中,關於採用基於大規模語料庫的經驗主義方法和基於規則
的理性主義方法己有試驗報道。我們採用了"成分似然性自動詞類標注系統" (CLAWS)改
進演算法,選擇10萬漢字語料作為訓練集(標記集有174個標記),建立了一個相鄰標記的同現
概率矩陣(174×174)和兼類詞典(收詞1500個,每個兼類詞包括詞類標記及出現概率)。進
行自動標記時,先從輸入文本中截取一個首詞和尾詞非兼類的有限長度的詞串(稱為SPAN
),然後利用同現矩陣提供的數據來計算SPAN產生的每個可能標記的概率積,並選擇概率積
最大的標記串作為詞類標記結果。
試驗結果表明,基於語料庫統計的方法具有很好的一致性和較高的覆蓋率,並且可以
將一些不確定的知識定量化。但是,在這種方法中獲取知識的機制與語言學研究中獲取知
識的機制完全不同,因而所獲取的知識很難與現有的語言學成果相結合。同時,像CLAWS算
法的時間和空間復雜度都比較大,隨著標記跨段長度的增加以及兼類詞標記數目的增大,
其實際運行效率將會降低。
基於規則的理性主義方法可以將大量現成的語言學知識形式化,具有較強的概括性,
便於引用最新研究成果。因為任何詞類都有其內部的共性和區別於其它詞類的個性。只
要我們把詞類的共性和它外部的個性特徵結合起來,詞的兼類問題是可能得到妥善解決的
。比如:名詞的語法個性在於它可以直接受名量詞的修飾,可以受名詞直接修飾,可以做"
有"的賓語,可以與名片語成並列結構。如果某個詞具備了上述特徵,我們就可以判定它是
名詞。 (
例如,主張、計劃、建議可以是動詞,但在下面的語法環境中,它們一定是名詞,這是
因為:
·可以受名量詞的直接修飾 如五點主張、不少計劃、許多建議。
·可以受名詞的直接修飾 如個人主張、教學計劃、家長建議。
·可以做"有"的賓語 如有主張、有計劃、有建議。
·可以與名片語成並列結構 如觀點和主張、材料和計劃、觀點和建議。
我們在對50萬漢字語料進行詞類標注中,根據詞的語法功能這一標准判別兼類詞,既
具科學性又有可操作性,收到了較好的效果。但是,實踐表明,基於規則的方法所描述的語
言知識的顆粒度太大,難以處理復雜的、不規則的信息,特別是當規則數目增多時,很難使
規則全面覆蓋某個領域的各種語言現象。
為此,我們正在把基於規則的方法和基於統計的方法結合起來進行試驗,使語言知識
選擇引用和用統計方法建立的語言模型有機地結合起來,使之互相補充,相得益彰。預計
這一試驗將會取得更為滿意的結果。
2.詞類標注應同切詞過程一體化進行
人們分析和理解自然語言時,其特點和過程是什麼樣的呢?通過仔細觀察和思考,我們
不難發現,人腦處理自然語言的特點和過程是將切詞和詞類識別一體化進行,即邊切詞邊
進行詞類或語義識別,二者是不可分離的兩個方面。下面以處理兼類詞"為"和由"為"構成
的歧義欄位為例,說明切詞和詞類標注不可分離的性質。 例 "他們以服務社會、報效
祖國為人生的第一目標"。
理解這句話的關鍵是判別兼類詞"為"的詞性,並處理歧義切分欄位"為人生"到底該切
分為"為人/生"還是切分為"為/人生"。前者是詞性判別,後者是詞的切分。句法知識在理
解這句話中首先起作用,當我們看/聽到介詞"以"時,我們首先查尋的是這個介詞後面的第
一個動詞,當兼類詞"為"出現時,它的動詞詞性馬上被確認,也就是說介詞的詞性同時被排
除,因為漢語中"以...為..."常作為一種固定搭配使用。確定了"為"的詞性,歧義切分字
段"為人生"的正確分詞結果"為/人生"也被隨之確定下來,可見句法知識不僅解決了詞性
的確定,同時也解決了歧義的切分。詞類判別和切詞是同時進行而不可分離的。
目前把切詞和詞類標注分離開將帶來什麼結果呢?還是以《分詞規范》為例,它明確
規定,"場、室、界、力"等字用在某個單位的末尾時,就要一律按"接尾詞"單獨切分,比如
:運動/場、會議/室、新聞/界、生產/力等。因為切詞的目的不是為切詞而切詞,而是要
為進一步的句法分析和理解語言服務,那麼,詞性標注就成為下一步不可或缺的工作。但
這時,上面的分詞結果就出現了麻煩。"場、室、界、力"如果是詞也只能是名詞,可它們
是詞嗎?如果是詞,為什麼它們從來都不能獨立運用,單獨成詞,而只能以附加的成分出現
在某些名詞性成分之後?語言中真的有粘著的"名詞"嗎?答案都只能是否定的。這種把構
詞成分誤作"分詞單位"切分的做法造成的上述不能自圓其說的窘況,正是脫離詞類標注單
獨切詞的結果。
鑒於此,我們深感應將切詞和詞類標注作為理解和分析語言材料的兩個不可分離的環
節,進行一體化處理。這樣做,才真正符合人處理語言和過程的特點,才無愧於"人工智慧
",由此而得出的結果才可能達到預期效果。
三、應加強漢語文本自動語義標注試驗
在中文信息處理中,詞彙、句法和語義層面的分析研究都需要藉助於詞義特徵。一詞
多義形成了詞的多義現象,自動語義標注主要是解決詞的多義問題。一詞多義雖然是自然
語言中的常見現象,但是在一定的上下文中一個詞一般只能解釋為一個義項。所謂自動語
義標注就是運用邏輯運算和推理機制,對出現在一定上下文中的詞語語義的義項進行正確
的判斷,確定其正確的語義,並加以標注。多義詞的排歧一直是一個老大難問題。
國內對於漢語文本自動語義標注的研究已經起步,並正在進行中。山西大學在漢語全
文檢索中進行了義項標注研究,並對《太原市地方誌大事記》進行了義項標注試驗。這份
材料從公元前514年到1990年,分為10個歷史階段,包括了太原歷史上的政治、經濟、軍事
、文化、科技諸方面具有劃時代意義的事件。全文共50萬漢字語料,經義項標注後,主要
解決了人名、地名、機構名等專有名詞的同義現象,同時提出了普通詞義項標注方法,包
括同義詞的確定和多義詞的排歧。

⑹ 中國搜索引擎檢索的主要方式有哪兩種

現有的搜索引擎基本上分為三類:
1.1 single search engine(獨立搜索引擎) 它的特點是僅在搜索引擎自身的資料庫檢索信息,比如Yahoo。
1.2 Meta search engine(元搜索引擎) 它在檢索信息時通過調用其它多個獨立的搜索引擎來完成檢索功能,並且能夠將從多個獨立搜索引擎查詢的結果進行不同程度的處理,比如刪除重復結果、校驗連接、結果按照相關度排序等。元搜索引擎本身可以有也可以沒有自己的資料庫。由於不同的元搜索引擎掛接的獨立搜索引擎各不相同,且各自獨立的搜索引擎在查詢語法上的差別較大,使得元搜索引擎本身僅支持AND、0R、N0T等簡單的語法操作,返回的結果只能滿足「最低常用分母」,即不能提高搜索結果的准確性。
1.3 Net search engine(網路搜索軟體) 就是網路用戶可以將相應的搜索軟體下載至本地的計算機上,安裝查詢,這是一種具有網路查詢功能的離線瀏覽器。相對於元搜索引擎,它可以靈活地控制輸出結果,其最大特點是方便用戶使用和能快速地查詢網路相關資源。2 網路搜索引擎的工作原理及其基本構成
用戶檢索信息時,搜索引擎是根據用戶的查詢要求,按照一定的演算法從索引資料庫中查找對應的信息返回給用戶。為了保證用戶查找信息的精度和新鮮度。對於獨立的搜索引擎而言.還需要建立並維護一個龐大的資料庫。獨立搜索引擎中的索引資料庫中的信息是通過一種叫做網路蜘蛛(spider)的程序軟體定期在網上爬行,通過訪問公共網路中公開區域的每一個站點採集網頁,對網路信息資源進行收集,然後利用索引軟體對收集的信息進行自動標引,創建一個可供用戶按照關鍵字等進行查詢的web頁索引資料庫,搜索軟體通過索引資料庫為用戶提供查詢服務。所以,一般的搜索引擎主要由網路蜘蛛、索引和搜索軟體三部分組成.
網路蜘蛛。是一個功能很強的程序,它會定期根據預先設定的地址去查看對應的網頁,如網頁發生變化則重新獲取該網頁,否則根據該網頁中的鏈接繼續去訪問。網路蜘蛛訪問頁面的過程是對互連網上信息遍歷的過程。為了保證網路蜘蛛遍歷信息的廣度,一般事先設定_ 些重要的鏈接,然後進行遍歷。在遍歷的過程中不斷記錄網頁中的鏈接,不斷地遍歷下去,直到訪問完所有的鏈接。
索引軟體。網路蜘蛛將遍歷搜索集得到的網頁存放在資料庫中。為了提高檢索的效率,需要建立索引。索引一般為倒排檔索引。
搜索軟體。該軟體用於篩選索引資料庫中無數的網頁信息,選擇出符合用戶檢索要求的網頁並對它們進行分級排序。然後將分級排序後的結果顯示給用戶。
3 搜索引擎的主要性能評價指標
3.1 搜索引擎建立索引的方法 資料庫中的索引一般是按照倒排文檔的文件格式存放,在建立例排索引的時候,不同的搜索引擎有不同的選項。有些搜索引擎對於信息頁面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;還有些搜索引擎,比如Google建立索引的時候,同時還考慮超文本的不同標記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁面的信息的概括,所以用它來作為所指向的頁面的重要信息。Google、infoseek還在建立索引的過程中收集頁面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結構,利用這些結果信息可以提高頁面相關度判別時的准確度。由於索引不同,在檢索信息時產生的結果會不同。
3.2 搜索引擎的檢索功能搜索引擎所支持的檢索功能的多少及其實現的優劣,直接決定了檢索效果的好壞,所以網路檢索工具除了要支持諸如布爾檢索、鄰近檢索、截詞檢索、欄位檢索等基本的檢索功能之外,更應該根據網上信息資源的變化,及時地應用新技術、新方法,提高高級檢索功能。另外,由於中文信息特有的編碼不統一問題,所以如果搜索引擎能夠實現不同內碼之間的自動轉換,用戶就會全面檢索大陸、港台乃至全世界的中文信息。這樣不但提高了搜索引擎的質量,而且會得到用戶的支持。
3.3 搜索引擎的檢索效果 檢索效果可以從響應時間、查全率、查准率和相關度方面來衡量。響應時間是用戶輸入檢索式開始查詢到檢出結果的時間。查全率是指一次搜索結果中符合用戶要求的數目與和用戶查詢相關的總數之比;查准率是指一次搜索結果集中符合用戶要求的數目與該次搜索結果總數之比;相似度是指用戶查詢與搜索結果之間相似度的一種度量。雖然由於無法估計網路上與某個檢索提問相關的所有信息數量。所以目前尚沒有定量計算查全率的更好方法,但是它作為評價檢索效果的指標還是值得保留。查准率也是一個復雜的概念,一方面表示搜索引擎對搜索結果的排序,另一方面卻體現了搜索引擎對垃圾網頁的抗干擾能力。總之,一個好的搜索引輦應該具有較快的響應速度和高的查全率和查准率,或者有極大的相似度。
3.4 搜索引擎的受歡迎程度 搜索引擎的受歡迎程度體現了用戶對於搜索引擎的偏愛程度,知名度高、性能穩定和搜索質量好的搜索引擎很受用戶的青睞。搜索引擎的受歡迎程度也會隨著它的知名度和服務水平的變化而動態的變化。搜索引擎的服務水平和它所收集的信息量、信息的新鮮度和查詢的精度相關。隨著各種新的搜索技術的出現,智能化的、支持多媒體檢索的搜索引擎將越來越受用戶的歡迎。
另外,搜索引擎的信息佔有量也可以作為評價搜索引擎性能的指標。綜上所述,評價搜索引擎的性能指標可以概括為:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.檢索功能(支持的檢索技術,多媒體檢索,內碼處理等);C.查詢效果(響應時間,查全率,查准率,相關度);d.受歡迎程度;e.信息佔有量。4 搜索引擎檢索信息的局限
2001年Roper的調查指出,36% 的互連網用戶一個星期花超過2個小時的時間在網上搜索;71% 的用戶在使用搜索引擎時遇到過麻煩;平均搜索12分鍾以後發現搜索受挫。另一項由Keen所做的調查顯示,31% 的人使用搜索引擎尋找答案,網上查找答案的半數以上都不成功。從這些調查數據中不難看出。目前的搜索引擎仍然存在不少的局限性。概括起來大致有以下幾個方面。
4.1 搜索引擎對信息的標引深度不夠 目前,搜索引擎檢索的結果往往只提供一些線形的網址和包括關鍵詞的網頁信息,與人們對它的預期存在較大的距離,或者返回過多的無用信息,或者信息丟失,特別是對特定的文獻資料庫的檢索顯得無能為力。
4.2 搜索引擎的信息量佔有不足 作為搜索引擎必須佔有相當大的信息量才能具有一定的查全率和實用性。目前還沒有一種覆蓋整個網際網路信息資源的搜索引擎。
4.3 搜索引擎的查准率不高 分析起來,這是因為:一方面由於網上信息數量巨大、內容龐大、良莠不齊,信息的質量得不到保障;另一方面是由於大多數搜索引擎的索引工作由程序自動完成,根據網頁中詞頻及詞的位置等因素確定關鍵詞,有的網站為了提高點擊率,將一些與網頁主題並不相關的熱門詞彙以隱含方式放在頁面上,並重復多次,從而造成查准率低。
4.4 檢索功能單一,缺乏靈活性 目前許多搜索引擎的查詢方法比較單一,一般只提供分類查詢方式和關鍵詞查詢方式。不能從文獻的多個方面對檢索提問進行限制,只能就某一關鍵詞或者概念進行籠統的檢索。
4.5 搜索引擎自身的技術局限像目前部分搜索引擎還不能支持對多媒體信息的檢索。造成上述信息檢索困難的原因實質在於搜索引擎對要檢索的信息僅僅採用機械的詞語匹配來實現,缺乏知識處理能力和理解能力。也就是說搜索引擎無法處理用戶看來是非常普通的常識性知識,更不能處理隨用戶不同而變化的個性化知識、隨地域不同而變化的區域性知識以及隨領域不同而變化的專業性知識等等。5 搜索引擎未來的發展趨勢
新一代搜索引擎的發展目標就是採用新興的搜索技術為用戶提供更方便易用、更精確的搜索工具來滿足用戶的信息查詢需要。技術上,應該在自然語言理解技術上有所突破,以XML可擴展標記語言為主,並使用向導技術。下面就搜索引擎的發展趨勢談幾點看法。
<strong>答案補充</strong>
5.1 垂直化專業領域搜索 由於社會分工的加大,用戶從事的職業有所不同,不同用戶對信息搜索也往往有自己的專業要求。由於綜合性的搜索引擎收錄各方面、各學科、各行業的信息,因而搜索不相關的信息太多,專業垂直引擎則可以解決這個問題,垂直類搜索引擎是只面向某一特定的領域,專注於自己的特長和核心技術,能夠保證對該領域信息的完全收錄與及時更新。因此,基於專業領域的「垂直搜索引擎」開始成為搜索引擎發展的一個新趨勢。
5.2 智能化搜索 傳統的搜索引擎使用方法是被動搜索,而准確的搜索應建立在對收錄信息和搜索請求的理解之上。顯然,基於自然語言理解技術的搜索引擎由於可以同用戶使用自然語言交談,並深刻理解用戶的搜索請求,則查詢的結果更
加准確。
5.3 關聯式的綜合搜索 所謂關聯式綜合搜索,是這樣一種一站式的搜索服務,它使得用戶在搜索時只需要輸入一次查詢目標,即可以在同一界面得到各種有關聯的查詢結果,這種服務的關鍵在於有一架構在XML基礎上的整合資訊平台。<strong>答案補充</strong>
5.4 個性化搜索 提高搜索精確度的另一個途徑是提供個性化的搜索,也就是將搜索建立在個性化的搜索環境之下,其核心是跟蹤用戶的搜索行為,通過對用戶的不斷了解、分析,積累用戶的搜索個性化數據來提高用戶的搜索效率。
5.5 結構化搜索 所謂結構化搜索,是指充分利用XML等技術使信息結構化,同時使用查詢結構化,從而使搜索的准確度大大提高。
5.6 本土化的搜索 世界上許多著名的搜索引擎都在美國,它們以英語為基礎,完全按他們的思維方式和觀點搜集和檢索資料,這對於全球不同國家的用戶來說是顯然不合適的。各國的文化傳統、思維方式和生活習慣不同,在對於網站的內容的搜索要求上也就存在差異。搜索結果要符合當地用戶的要求,搜索引擎就必須本土化。
5.7 多媒體搜索。隨著寬頻技術的發展,未來的互聯網是多媒體數據的時代,開發出可查詢圖像、聲音、圖片和電影的搜索引擎是一個新的方向,這也將極大地滿足用戶的需求。未來的搜索引擎應該信息量更大、搜索速度更快、搜索精度更高和更能夠滿足用戶的信息查詢需求。

⑺ JAVA字元串截取演算法

你好,你上邊的形式我看不懂,我安字元串形式來處理!
你可以試用string的substring()方法
有兩種形式:第一種是:string
substring(int
startindex)
第二種是:string
substring(int
startindex,int
endindex)
//startindex
指開始字元串的下標。endindex
結束字元串的下標。
string
str
=
"1/11/1";
string
str1
=
str.substring(0,
2);
system.out.println(str1);
或者
string
str
=
"1/11/1";
string
str1
=
(string)str.subsequence(0,
2);
system.out.println(str1);

⑻ 迭代法,二分法,牛頓迭代法,弦截法的演算法設計思想

1)迭代法設計思想最簡單:x=f(x) 但這種方法初值很主要,不然容易發散。
2)二分法設計思想是先給定區間[a,b],要求f(a)與f(b)是異號,保證區間內與x軸有交點,求x=(a+b)/2,求f(x),檢查f(x)與f(a)是否同號,如果是同號,把x當成新的a,否則把x當成新的b,得到新的區間,重復求a和b的中點的值,判斷與f(a)是否同號,不斷循環下去,直到達到精度為止。
3)牛頓迭代法設計思想是對f(x0)某點求切線,與x軸交x1點後,把x1當成x0,再求出其相應新的f(x0),再對其求切線,找到與x軸的新交點,不斷循環下去,直到達到精度為止。這種方法要求先對函數求一階導數,然後再迭代:x1=x0-f(x0)/f『(x0)
4)弦截法設計思想利用插值原理,避免上面的求導,要求在f(x)上取二點x0,x1,做過f(x0),f(x1)的直線交x軸一點為x,把原來的x1當成x0,把x當成x1,再重復上面的做直線的過程,不斷循環下去,直到達到精度為止。迭代公式:x=x1-(x1-x0)*f(x1)/(f(x1)-f(x0))

⑼ 有誰知道計算機檢索的基本原理和步驟是什麼呀

計算機檢索的基本原理:
檢索技術及其實現
檢索技術包括基本布爾邏輯組配、截詞、詞位限制、檢域限制等。
布爾邏輯組配是現行計算機檢索的基本技術,主要通過「和(and,*)」、「或(or,+)」、「非(not,-)」等將檢索詞聯絡起來
如:信息檢索 AND 計算機
(信息檢索 OR 文獻檢索) AND 計算機
文獻檢索 NOT 文獻檢索課

如果要更詳細資料請瀏覽參考資料(是Microsoft Powerpoint 97 文件)

c語言中文分詞演算法

沒有掛網公布,需要咨詢專業人士。

C語言是一門面向過程的、抽象化的通用程序設計語言,廣泛應用於底層開發。C語言能以簡易的方式編譯、處理低級存儲器。

C語言是僅產生少量的機器語言以及不需要任何運行環境支持便能運行的高效率程序設計語言。盡管C語言提供了許多低級處理的功能,但仍然保持著跨平台的特性,以一個標准規格寫出的C語言程序可在包括類似嵌入式處理器以及超級計算機等作業平台的許多計算機平台上進行編譯。

C語言誕生於美國的貝爾實驗室,由丹尼斯·里奇(Dennis MacAlistair Ritchie)以肯·湯普森(Kenneth Lane Thompson)設計的B語言為基礎發展而來,在它的主體設計完成後,湯普遜和里奇用它完全重寫了UNIX,且隨著UNIX的發展,c語言也得到了不斷的完善。

為了利於C語言的全面推廣,許多專家學者和硬體廠商聯合組成了C語言標准委員會,並在之後的1989年,誕生了第一個完備的C標准,簡稱「C89」,也就是「ANSI C」,截至2020年,最新的C語言標准為2018年6月發布的「C18」。

熱點內容
內置存儲卡可以拆嗎 發布:2025-05-18 04:16:35 瀏覽:335
編譯原理課時設置 發布:2025-05-18 04:13:28 瀏覽:378
linux中進入ip地址伺服器 發布:2025-05-18 04:11:21 瀏覽:612
java用什麼軟體寫 發布:2025-05-18 03:56:19 瀏覽:32
linux配置vim編譯c 發布:2025-05-18 03:55:07 瀏覽:107
砸百鬼腳本 發布:2025-05-18 03:53:34 瀏覽:944
安卓手機如何拍視頻和蘋果一樣 發布:2025-05-18 03:40:47 瀏覽:739
為什麼安卓手機連不上蘋果7熱點 發布:2025-05-18 03:40:13 瀏覽:803
網卡訪問 發布:2025-05-18 03:35:04 瀏覽:511
接收和發送伺服器地址 發布:2025-05-18 03:33:48 瀏覽:371