当前位置:首页 » 操作系统 » 截词算法

截词算法

发布时间: 2022-11-15 14:08:02

⑴ 截词符 通配符 逻辑算法的查全率谁最高

逻辑运算又称布尔运算 布尔用数学方法研究逻辑问题,成功地建立了逻辑演算。他用等式表示判断,把推理看作等式的变换。这种变换的有效性不依赖人们对符号的解释,只依赖于符号的组合规律 。这一逻辑理论人们常称它为布尔代数。20世纪30年代,逻辑代数在电路系统上获得应用,随后,由于电子技术与计算机的发展,出现各种复杂的大系统,它们的变换规律也遵守布尔所揭示的规律。逻辑运算 (logical operators) 通常用来测试真假值。最常见到的逻辑运算就是循环的处理,用来判断是否该离开循环或继续执行循环内的指令。

⑵ 计算机检索技术有哪些

计算机信息检索可以概括为两个部分:信息存储和信息检索。

计算机信息检索与信息的构造、分析、组织、存储和传播有关。计算机信息检索系统是信息检索所用的硬件资源、系统软件和检索软件的总合。它能存储大量的信息,并对信息条目(有特定逻辑含义的基本信息单位)进行分类、编目或编制索引。它可以根据用户要求从已存储的信息集合中抽取出特定的信息,并提供插入、修改和删除某些信息的能力。

(2)截词算法扩展阅读:

计算机信息检索系统的可靠性与计算机系统的可靠性密切相关。它依赖于计算机系统硬件的可靠性、操作系统的故障恢复机构、数据库管理系统的恢复机构和应用软件采取的故障处理措施。任何计算机信息检索系统都不能保证信息不受到破坏,但是它必须具有从破坏中得以恢复的能力。

计算机信息检索系统的效能通常根据漏检索、误检率、检全率、检准率和响应时间(对联机检索)等来衡量。关键词本身错误或使用的查找算法不对会引起漏检。

php 字符串循环截取,大家都用什么算法实现

并不是截取 通过
json_decode 函数转数组,然后用循环。

⑷ 求MATLAB双谱分析相关学习资料(作用、用法、说明),我要用于处理神经信息相干性的,还望大家多多指导呢

低通采样定理实验 1.1 实验目的 1.了解数字信号处理系统的一般构成; 2.掌握奈奎斯特抽样定理。 1.2 实验仪器 1.YBLD智能综合信号源测试仪 1台 2.双踪示波器 1台 3.MCOM-TG305数字信号处理与现代通信技术实验箱 1台 4.PC机(装有MATLAB、MCOM-TG305配套实验软件) 1台 1.3 实验原理 一个典型的DSP系统除了数字信号处理部分外,还包括A/D和D/A两部分。这是因为自然界的信号,如声音、图像等大多是模拟信号,因此需要将其数字化后进行数字信号处理,模拟信号的数字化即称为A/D转换。数字信号处理后的数据可能需还原为模拟信号,这就需要进行D/A转换。一个仅包括A/D和D/A两部分的简化数字信号处理系统功能如图1所示。 A/D转换包括三个紧密相关的过程,即抽样、量化和编码。A/D转换中需解决的以下几个重要问题:抽样后输出信号中还有没有原始信号的信息?如果有能不能把它取出来?抽样频率应该如何选择? 奈奎斯特抽样定理(即低通信号的均匀抽样定理)告诉我们,一个频带限制在0至fx以内的低通信号x(t),如果以fs≥2fx的抽样速率进行均匀抽样,则x(t)可以由抽样后的信号xs(t)完全地确定,即xs(t)包含有x(t)的成分,可以通过适当的低通滤波器不失真地恢复出x(t)。最小抽样速率fs=2fx称为奈奎斯特速率。 低通 译码 编码 量化 抽样 输入信号 样点输出 滤波输出 A/D(模数转换) D/A(数模转换) 图1 低通采样定理演示 为方便实现,实验中更换了一种表现形式,即抽样频率固定(10KHz),通过改变输入模拟信号的频率来展示低通抽样定理。我们可以通过研究抽样频率和模拟信号最高频率分量的频率之间的关系,来验证低通抽样定理。 1.4 实验内容 1.软件仿真实验:编写并调试MATLAB程序,分析有关参数,记录有关波形。 2.硬件实验:输入不同频率的正弦信号,观察采样时钟波形、输入信号波形、样点输出波形和滤波输出波形。 1.5 MATLAB参考程序和仿真内容 %*******************************************************************% %f—余弦信号的频率 % M—基2 FFT幂次数 N=2^M为采样点数,这样取值是为了便于作基2的FFT分析 %2. 采样频率Fs %*******************************************************************% function samples(f,Fs,M) N=2^M; % fft点数=取样总点数 Ts=1/Fs; % 取样时间间隔 T=N*Ts; % 取样总时间=取样总点数*取样时间间隔 n=0:N-1; t=n*Ts; Xn=cos(2*f*pi*t); subplot(2,1,1); stem(t,Xn); axis([0 T 1.1*min(Xn) 1.1*max(Xn)]); xlabel('t -->'); ylabel('Xn'); Xk=abs(fft(Xn,N)); subplot(2,1,2); stem(n,Xk); axis([0 N 1.1*min(Xk) 1.1*max(Xk)]); xlabel('frequency -->'); ylabel('!Xk!'); %*******************************************************************% 假如有一个1Hz的余弦信号y=cos(2*π*t),对其用4Hz的采样频率进行采样,共采样32点,只需执行samples(1,4,5),即可得到仿真结果。 软件仿真实验内容如下表所示: 仿真参数 f Fs Wo(计算) Xn(图形) Xk(图形) (1,4,5) 另外记录图形,并标图号 (1,8,5) (2,8,6) 自 选 1.6 硬件实验步骤 本实验箱采样频率fs固定为10KHz,低通滤波器的截止频率约为4.5KHz。 1、用低频信号源产生正弦信号,正弦信号源频率f自定,并将其接至2TP2(模拟输入)端,将示波器通道一探头接至2TP6(采样时钟)端观察采样时钟波形,示波器通道二探头接至2TP2观察并记录输入信号波形。 2、将示波器通道二探头接至2TP3观察并记录样点输出波形。 3、将示波器通道二探头接至2TP4观察并记录滤波输出波形。 4、根据采样定理,分f=fs /8、f=fs/4、f=fs/2等3种情况更改正弦信号频率,重复步骤2至步骤3。 5、用低频信号源产生方波信号,重复步骤1至步骤4。 1.7 思考题 1、 讨论在仿真实验中所计算的数字域频率Wo和Xk的图形中非零谱线位置之间的对应关系。 2、 讨论在仿真实验中自选参数的意义。 3、将在2TP2端加方波信号后的恢复波形,与相同频率的正弦信号的恢复波形相比,能够得出哪些结论? 2 FFT频谱分析实验 2.1 实验目的 1.通过实验加深对快速傅立叶变换(FFT)基本原理的理解。 2.了解FFT点数与频谱分辨率的关系,以及两种加长序列FFT与原序列FFT的关系。 2.2 实验仪器 1.YBLD智能综合信号源测试仪 1台 2.双踪示波器 1台 3.MCOM-TG305数字信号处理与现代通信技术实验箱 1台 4.PC机(装有MATLAB、MCOM-TG305配套实验软件) 1台 2.3 实验原理 离散傅里叶变换(DFT)和卷积是信号处理中两个最基本也是最常用的运算,它们涉及到信号与系统的分析与综合这一广泛的信号处理领域。实际上卷积与DFT之间有着互通的联系:卷积可化为DFT来实现,其它的许多算法,如相关、滤波和谱估计等都可化为DFT来实现,DFT也可化为卷积来实现。 对N点序列x(n),其DFT变换对定义为: 在DFT运算中包含大量的重复运算。FFT算法利用了蝶形因子WN的周期性和对称性,从而加快了运算的速度。FFT算法将长序列的DFT分解为短序列的DFT。N点的DFT先分解为2个N/2点的DFT,每个N/2点的DFT又分解为2个N/4点的DFT。按照此规律,最小变换的点数即所谓的“基数(radix)。”因此,基数为2的FFT算法的最小变换(或称蝶形)是2点DFT。一般地,对N点FFT,对应于N个输入样值,有N个频域样值与之对应。一般而言,FFT算法可以分为时间抽取(DIT)FFT和频率抽取(DIF)两大类。 在实际计算中,可以采用在原来序列后面补0的加长方法来提高FFT的分辨率;可以采用在原来序列后面重复的加长方法来增加FFT的幅度。 2.4 实验内容 1.软件仿真实验:分别观察并记录正弦序列、方波序列及改变FFT的点数后的频谱;分别观察并记录正弦序列、方波序列及2种加长序列等信号的频谱。 2.硬件实验:分别观察并记录正弦信号、方波信号及改变FFT的点数后的频谱。 2.5 MATLAB参考程序和仿真内容 %*******************************************************************% function[x]=ffts(mode,M) Nfft=2^M; x=zeros(1,Nfft); %定义一个长度为Nfft的一维全0数组 if mode= =1 for n=0:Nfft-1 x(n+1)=sin(2*pi*n/Nfft); end end %定义一个长度为Nfft的单周期正弦序列 if mode= =2 for n=0:Nfft-1 x(n+1)=sin(4*pi*n/Nfft); end end %定义一个长度为Nfft的双周期正弦序列 if mode= =3 for n=0:Nfft/2-1 x(n+1)=sin(4*pi*n/Nfft); end end %定义一个长度为Nfft/2的正弦序列,后面一半为0序列。 if mode= =4 for n=0:Nfft-1 x(n+1)=square(2*pi*n/Nfft); end end if mode= =5 for n=0:Nfft-1 x(n+1)=square(2*pi*n/Nfft); end end if mode= =6 for n=0:Nfft/2-1 x(n+1)=square(4*pi*n/Nfft); end end n=0:Nfft-1; subplot(2,1,1); stem(n,x); axis([0 Nfft-1 1.1*min(x) 1.1*max(x)]); xlabel('Points-->'); ylabel('x(n)'); X=abs(fft(x,Nfft)); subplot(2,1,2); stem(n,X); axis([0 Nfft-1 1.1*min(X) 1.1*max(X)]); xlabel('frequency-->'); ylabel('!X(k)!'); %*******************************************************************% 假设需观察方波信号的频谱,对一个周期的方波信号作32点的FFT,则只需在MATLAB的命令窗口下键入:[x]=ffts(21,5) ,程序进行模拟,并且输出FFT的结果。 关于软件仿真实验内容,建议在完成大量仿真例子的基础上,选择能够体现实验要求的4个以上的例子进行记录。例如要观察后面补0的加长方法来提高FFT的分辨率的现象,可以仿真ffts(4,5)和ffts(6,6)两个例子。 2.6 硬件实验步骤 1.将低频信号源输出加到实验箱模拟通道1输入端,将示波器探头接至模拟通道1输出端。 2.在保证实验箱正确加电且串口电缆连接正常的情况下,运行数字信号处理与DSP应用实验开发软件,在“数字信号处理实验”菜单下选择“FFT频谱分析”子菜单,出现显示FFT频谱分析功能提示信息的窗口。 3.用低频信号产生器产生一个1KHz的正弦信号。 4.选择FFT频谱分析与显示的点数为64点,开始进行FFT运算。此后,计算机将周期性地取回DSP运算后的FFT数据并绘图显示 5.改信号源频率,观察并记录频谱图的变化。 6.选择FFT的点数为128点,观察并记录频谱图的变化。 7.更改正弦信号的频率,重复步骤4 ~步骤6。 8.用低频信号产生器产生一个1KHz的方波信号,重复步骤4 ~步骤7。注意:应根据实验箱采样频率fs为10KHz和方波信号的频带宽度选择方波信号的频率。 本硬件实验要进行两种信号,每个信号两种频率,每个信号两种点数等共8次具体实验内容,性质能够体现实验要求的4个以上的例子进行记录。 2.7 思考题 1.对同一个信号,不同点数FFT观察到的频谱图有何区别? 2.序列加长后FFT与原序列FFT的关系是什么,试推导其中一种关系。 3.用傅立叶级数理论,试说明正弦信号频谱和方波信号频谱之间的关系。 3 IIR滤波器设计实验 3.1 实验目的 1.通过实验加深对IIR滤波器基本原理的理解。 2.学习编写IIR滤波器的MATLAB仿真程序。 3.2 实验仪器 1.YBLD智能综合信号源测试仪 1台 2.双踪示波器 1台 3.MCOM-TG305数字信号处理与现代通信技术实验箱 1台 4.PC机(装有MATLAB、MCOM-TG305配套实验软件) 1台 3.3 实验原理 IIR滤波器有以下几个特点: 1.IIR数字滤波器的系统函数可以写成封闭函数的形式。 2.IIR数字滤波器采用递归型结构,即结构上带有反馈环路。IIR滤波器运算结构通常由延时、乘以系数和相加等基本运算组成,可以组合成直接型、正准型、级联型、并联型四种结构形式,都具有反馈回路。由于运算中的舍入处理,使误差不断累积,有时会产生微弱的寄生振荡。 3.IIR数字滤波器在设计上可以借助成熟的模拟滤波器的成果,如巴特沃斯、契比雪夫和椭圆滤波器等,有现成的设计数据或图表可查,其设计工作量比较小,对计算工具的要求不高。在设计一个IIR数字滤波器时,我们根据指标先写出模拟滤波器的公式,然后通过一定的变换,将模拟滤波器的公式转换成数字滤波器的公式。 4.IIR数字滤波器的相位特性不好控制,对相位要求较高时,需加相位校准网络。 在MATLAB下设计IIR滤波器可使用Butterworth函数设计出巴特沃斯滤波器,使用Cheby1函数设计出契比雪夫I型滤波器,使用Cheby2设计出契比雪夫II型滤波器,使用ellipord函数设计出椭圆滤波器。下面主要介绍前两个函数的使用。 与FIR滤波器的设计不同,IIR滤波器设计时的阶数不是由设计者指定,而是根据设计者输入的各个滤波器参数(截止频率、通带滤纹、阻带衰减等),由软件设计出满足这些参数的最低滤波器阶数。在MATLAB下设计不同类型IIR滤波器均有与之对应的函数用于阶数的选择。 一、巴特沃斯IIR滤波器的设计 在MATLAB下,设计巴特沃斯IIR滤波器可使用butter函数。 Butter函数可设计低通、高通、带通和带阻的数字和模拟IIR滤波器,其特性为使通带内的幅度响应最大限度地平坦,但同时损失截止频率处的下降斜度。在期望通带平滑的情况下,可使用butter函数。 butter函数的用法为: [b,a]=butter(n,Wn,/ftype/) 其中n代表滤波器阶数,Wn代表滤波器的截止频率,这两个参数可使用buttord函数来确定。buttord函数可在给定滤波器性能的情况下,求出巴特沃斯滤波器的最小阶数n,同时给出对应的截止频率Wn。buttord函数的用法为: [n,Wn]= buttord(Wp,Ws,Rp,Rs) 其中Wp和Ws分别是通带和阻带的拐角频率(截止频率),其取值范围为0至1之间。当其值为1时代表采样频率的一半。Rp和Rs分别是通带和阻带区的波纹系数。 不同类型(高通、低通、带通和带阻)滤波器对应的Wp和Ws值遵循以下规则: 1.高通滤波器:Wp和Ws为一元矢量且Wp>Ws; 2.低通滤波器:Wp和Ws为一元矢量且Wp<Ws; 3.带通滤波器:Wp和Ws为二元矢量且Wp<Ws,如Wp=[0.2,0.7],Ws=[0.1,0.8]; 4.带阻滤波器:Wp和Ws为二元矢量且Wp>Ws,如Wp=[0.1,0.8],Ws=[0.2,0.7]。 二、契比雪夫I型IIR滤波器的设计 在期望通带下降斜率大的场合,应使用椭圆滤波器或契比雪夫滤波器。在MATLAB下可使用cheby1函数设计出契比雪夫I型IIR滤波器。 cheby1函数可设计低通、高通、带通和带阻契比雪夫I型滤IIR波器,其通带内为等波纹,阻带内为单调。契比雪夫I型的下降斜度比II型大,但其代价是通带内波纹较大。 cheby1函数的用法为: [b,a]=cheby1(n,Rp,Wn,/ftype/) 在使用cheby1函数设计IIR滤波器之前,可使用cheblord函数求出滤波器阶数n和截止频率Wn。cheblord函数可在给定滤波器性能的情况下,选择契比雪夫I型滤波器的最小阶和截止频率Wn。 cheblord函数的用法为: [n,Wn]=cheblord(Wp,Ws,Rp,Rs) 其中Wp和Ws分别是通带和阻带的拐角频率(截止频率),其取值范围为0至1之间。当其值为1时代表采样频率的一半。Rp和Rs分别是通带和阻带区的波纹系数。 3.4 实验内容 1.软件仿真实验:编写并调试MATLAB程序,选择不同形式,不同类型的4种滤波器进行仿真,记录幅频和相频特性,对比巴特沃斯滤波器和契比雪夫滤波器。 2.硬件实验:设计IIR滤波器,在计算机上观察冲激响应、幅频特性和相频特性,然后下载到实验箱。用示波器观察输入输出波形,测试滤波器的幅频响应特性。 3.5 MATLAB参考程序和仿真内容 %*******************************************************************% %mode: 1--巴特沃斯低通;2--巴特沃斯高通;3--巴特沃斯带通;4--巴特沃斯带阻 % 5--契比雪夫低通;6--契比雪夫高通;7--契比雪夫带通;8--契比雪夫带阻 %fp1,fp2: 通带截止频率,当高通或低通时只有fp1有效 %fs1, fs2: 阻带截止频率,当高通或低通时只有fs1有效 %rp: 通带波纹系数 %as: 阻带衰减系数 %sample: 采样率 %h: 返回设计好的滤波器系数 %*******************************************************************% function[b,a]=iirfilt(mode,fp1,fp2,fs1,fs2,rp,as,sample) wp1=2*fp1/sample;wp2=2*fp2/sample; ws1=2*fs1/sample;ws2=2*fs2/sample; %得到巴特沃斯滤波器的最小阶数N和3bd频率wn if mode<3[N,wn]=buttord(wp1,ws1,rp,as); elseif mode<5[N,wn]=buttord([wp1 wp2],[ws1 ws2],rp,as); %得到契比雪夫滤波器的最小阶数N和3bd频率wn elseif mode<7[N,wn]=cheb1ord(wp1,ws1,rp,as); else[N,wn]=cheblord([wp1 wp2],[ws1 ws2],rp,as); end %得到滤波器系数的分子b和分母a if mode= =1[b,a]=butter(N,wn);end if mode= =2[b,a]=butter(N,wn,/high/);end if mode= =3[b,a]=butter(N,wn);end if mode= =4[b,a]=butter(N,wn,/stop/);end if mode= =5[b,a]=cheby1(N,rp,wn);end if mode= =6[b,a]=cheby1(N,rp,wn,/high/);end if mode= =7[b,a]=cheby1(N,rp,wn);end if mode= =8[b,a]=cheby1(N,rp,wn,/stop/);end set(gcf,/menubar/,menubar); freq_response=freqz(b,a); magnitude=20*log10(abs(freq_response)); m=0:511; f=m*sample/(2*511); subplot(3,1,1);plot(f,magnitude);grid; %幅频特性 axis([0 sample/2 1.1*min(magnitude) 1.1*max(magnitude)]); ylabel('Magnitude');xlabel('Frequency-->'); phase=angle(freq_response); subplot(3,1,2);plot(f,phase);grid; %相频特性 axis([0 sample/2 1.1*min(phase) 1.1*max(phase)]); ylabel('Phase');xlabel('Frequency-->'); h=impz(b,a,32); %32点的单位函数响应 t=1:32; subplot(3,1,3);stem(t,h);grid; axis([0 32 1.2*min(h) 1.1*max(h)]); ylabel('h(n)');xlabel('n-->'); %*******************************************************************% 假设需设计一个巴特沃斯低通IIR滤波器,通带截止频率为2KHz,阻带截止频率为3KHz,通带波纹系数为1,阻带衰减系数为20,采样频率为10KHz,则只需在MATLAB的命令窗口下键入: [b,a]=iirfilt(1,2000,3000,2400,2600,1,20,10000) 程序进行模拟,并且按照如下顺序输出数字滤波器系统函数 的系数 b= b0 b1 ……bn a= a0 a1 ……an 关于软件仿真实验内容,建议在完成大量仿真例子的基础上,选择能够体现实验要求的4个例子进行记录,系统函数只要记录系统的阶数。 3.6 硬件实验步骤 1.根据实验箱采样频率fs为10KHz的条件,用低频信号发生器产生一个频率合适的低频正弦信号,将其加到实验箱模拟通道1输入端,将示波器通道1探头接至模拟通道1输入端,通道2探头接至模拟通道2输出端。 2.在保证实验箱正确加电且串口电缆连接正常的情况下,运行数字信号处理与DSP应用实验开发软件,在“数字信号处理实验”菜单下选择“IIR滤波器”子菜单,出现提示信息。 3.输入滤波器类型、滤波器截止频率等参数后,分别点击“幅频特性”和“相频特性”按钮,在窗口右侧观察IIR滤波器的幅频特性和相频特性。此时提示信息将消失,如需查看提示信息,可点击“设计说明”按钮。 4.点击“下载实现”按钮,IIR滤波器开始工作,此时窗口右侧将显示IIR滤波器的幅频特性。 5.根据输入滤波器类型,更改低频信号源的频率,观察示波器上输入输出波形幅度的变化情况,测量IIR滤波器的幅频响应特性,看其是否与设计的幅频特性一致。 6.更改滤波器类型、滤波器截止频率等参数(共4种),重复步骤3至步骤5。所选择的例子参数最好和MATLAB仿真程序的例子一样。 7.用低频信号产生器产生一个500Hz的方波信号,分别设计3种滤波器,完成如下表要求的功能,并且记录参数和波形。 功 能 滤波器类型 参 数 输出波形 fp1 fp2 fs1 fs2 通过3次及以下次数的谐波 另外记录图形,并标图号 滤除5次及以下次数的谐波 通过3次到5次的谐波 3.7 思考题 1.在实验箱采样频率fs固定为10KHz的条件下,要观察方波信号频带宽度内的各个谐波分量,方波信号的频率最高不能超过多少,为什么? 2.硬件实验内容7中输出信号各个谐波分量,与原来方波信号同样谐波分量相比,有没有发生失真?主要发生了什么类型的失真?为什么? 4 窗函数法FIR滤波器设计实验 4.1 实验目的 1.通过实验加深对FIR滤波器基本原理的理解。 2.学习使用窗函数法设计FIR滤波器,了解窗函数的形式和长度对滤波器性能的影响。 4.2 实验仪器 1.YBLD智能综合信号源测试仪 1台 2.双踪示波器 1台 3.MCOM-TG305数字信号处理与现代通信技术实验箱 1台 4.PC机(装有MATLAB、MCOM-TG305配套实验软件) 1台 4.3 实验原理 数字滤波器的设计是数字信号处理中的一个重要内容。数字滤波器设计包括FIR(有限单位脉冲响应)滤波器与IIR(无限单位脉冲响应)滤波器两种。 与IIR滤波器相比,FIR滤波器在保证幅度特性满足技术要求的同时,很容易做到严格的线性相位特性。设FIR滤波器单位脉冲响应h(n)长度为N,其系统函数H(z)为: H(z)是z-1的N-1次多项式,它在z平面上有N-1个零点,原点z=0是N-1阶重极点,因此H(z)是永远稳定的。稳定和线性相位特性是FIR滤波器突出的优点。 FIR滤波器的设计任务是选择有限长度的h(n)。使传输函数H( )满足技术要求。FIR滤波器的设计方法有多种,如窗函数法、频率采样法及其它各种优化设计方法,本实验介绍窗函数法的FIR滤波器设计。 窗函数法是使用矩形窗、三角窗、巴特利特窗、汉明窗、汉宁窗和布莱克曼窗等设计出标准响应的高通、低通、带通和带阻FIR滤波器。 一、firl函数的使用 在MATLAB下设计标准响应FIR滤波器可使用firl函数。firl函数以经典方法实现加窗线性相位FIR滤波器设计,它可以设计出标准的低通、带通、高通和带阻滤波器。firl函数的用法为: b=firl(n,Wn,/ftype/,Window) 各个参数的含义如下: b—滤波器系数。对于一个n阶的FIR滤波器,其n+1个滤波器系数可表示为:b(z)=b(1)+b(2)z-1+…+b(n+1)z-n。 n—滤波器阶数。 Wn—截止频率,0≤Wn≤1,Wn=1对应于采样频率的一半。当设计带通和带阻滤波器时,Wn=[W1 W2],W1≤ω≤W2。 ftype—当指定ftype时,可设计高通和带阻滤波器。Ftype=high时,设计高通FIR滤波器;ftype=stop时设计带阻FIR滤波器。低通和带通FIR滤波器无需输入ftype参数。 Window—窗函数。窗函数的长度应等于FIR滤波器系数个数,即阶数n+1。 二、窗函数的使用 在MATLAB下,这些窗函数分别为: 1.矩形窗:w=boxcar(n),产生一个n点的矩形窗函数。 2.三角窗:w=triang(n),产生一个n点的三角窗函数。 当n为奇数时,三角窗系数为w(k)= 当n为偶数时,三角窗系数为w(k)= 3.巴特利特窗:w=Bartlett(n),产生一个n点的巴特利特窗函数。 巴特利特窗系数为w(k)= 巴特利特窗与三角窗非常相似。巴特利特窗在取样点1和n上总以零结束,而三角窗在这些点上并不为零。实际上,当n为奇数时bartlett(n)的中心n-2个点等效于triang(n-2)。 4.汉明窗:w=hamming(n),产生一个n点的汉明窗函数。 汉明窗系数为w(k+1)=0.54-0.46cos( ) k=0,…,n-1 5.汉宁窗:w=hanning(n),产生一个n点的汉宁窗函数。 汉宁窗系数为w(k)=0.5[1-cos( )] k=1,…,n 6.布莱克曼窗:w=Blackman(n),产生一个n点的布莱克曼窗函数。 布莱克曼窗系数为w(k)=0.42-0.5cos(2π )+0.8cos(4π )] k=1,…,n 与等长度的汉明窗和汉宁窗相比,布莱克曼窗的主瓣稍宽,旁瓣稍低。 7.凯泽窗:w=Kaiser(n,beta),产生一个n点的凯泽窗数,其中beta为影响窗函数旁瓣的β参数,其最小的旁瓣抑制α与β的关系为: 0.1102(α-0.87) α>50 β= 0.5842(α-21)0.4+0.07886(α-21) 21≤α≤50 0 α<21 增加β可使主瓣变宽,旁瓣的幅度降低。 8.契比雪夫窗:w=chebwin(n,r)产生一个n点的契比雪夫窗函数。其傅里叶变换后的旁瓣波纹低于主瓣r个db数。 4.4 实验内容 1.软件仿真实验:编写并调试MATLAB程序,观察不同窗,不同类型滤波器不同点数等共4种FIR滤波器的h(n),并记录幅频特性和相频特性。 2.硬件实验:用窗函数法设计标准响应的FIR滤波器,在计算机上观察窗函数幅频特性、幅频特性和相频特性,然后下载到实验箱。用示波器观察输入输出波形,测试滤波器的幅频响应特性。 4.5 MATLAB参考程序和仿真内容 %*******************************************************************% %mode: 模式(1--高通;2--低通;3--带通;4--带阻) %n: 阶数,加窗的点数为阶数加1 %fp: 高通和低通时指示截止频率,带通和带阻时指示下限频率 %fs: 带通和带阻时指示上限频率 %window:加窗(1--矩形窗;2--三角窗;3--巴特利特窗;4--汉明窗; % 5--汉宁窗;6--布莱克曼窗;7--凯泽窗;8--契比雪夫窗) %r: 代表加chebyshev窗的r值和加kaiser窗时的beta值 %sample: 采样率 %h: 返回设计好的FIR滤波器系数 %*******************************************************************% %mode: 模式(1--高通;2--低通;3--带通;4--带阻) %n: 阶数,加窗的点数为阶数加1 %fp: 高通和低通时指示截止频率,带通和带阻时指示下限频率 %fs: 你可以试下。不错,2011/9/26 11:15:24

⑸ 百度是如何实现中文切词的呢

大规模中文文本处理中的自动切词和标注技术
--------------------------------------------------------------------------------

Internet网络通信技术和大容量存储技术的发展,加速了信息流通的速度,形成了大
规模真实文本库。这些信息具有规模大、实时性强、内容分布广和格式灵活多样等特点
,从而迫使人们考虑语言信息处理的新理论和新技术。
传统的语言信息处理方法目前已发生了明显的变化。主要表现在:处理对象由少量例
句到大规模的真实文本;处理方法由完全语法分析到部分语法分析;处理范围由典型领域
到开放的实用领域等。
中文信息处理是语言信息处理的一部分,包括汉字信息处理和汉语信息处理。近年来
,在汉字信息处理取得长足进步的基础上,汉语信息处理也开展了一系列的探索性工作。
由于汉语独有的许多难点,如没有词的界限标记、没有形态标记、词类划分和兼类情况复
杂等,面对大规模中文文本的处理任务,作为中文信息处理基础工程的切词、词类标注和
语义标注工作,无论是在理论、方法还是工具方面都面临着如何适应这些变革的问题。
伴随着大规模真实文本语料库的出现,应运而生的语料库语言学(Corpus Linguisti
cs)在80年代崭露头角。山西大学是国内较早建立大规模语料库并从事自然语言处理的单
位之一。1988年受国家语委和国家教委委托,建立了容量为200万汉字的语料库,进行了现
代汉语常用字表的统计。1991~1992年建立了包括新闻、经济、军事、体育、科技和科
普读物等题材的100万汉字的现代汉语语料库,成功地用语料库方法进行了汉语切词和词
类自动标注的研究。在上述两个大规模语料库的基础上,我们从中精选了部分语料进行了
切词、词类标注的精加工,形成了10万汉字的精加工语料库。1995年国家863智能接口评
测小组主持的"现代汉语书面语自动切词与词类标注评测",其中所用的语料就取自该语料
库。
"九五"期间,我们在已有的经过粗加工的1000万字以上语料库的基础上建造了200万
字的平衡语料库,目前正在进行精加工处理,已完成其中50万汉字语料的切词和词类标注
的精加工以及部分段落语义标注试验,发现了很多深层次的问题。
一、研究需要引伸的自动切词技术
1.切词词表建造和未登录词识别
从目前国内计算机界采用的切词技术及其切词结果来看,情况不容乐观。首先是《分
词规范》公布后,尚无一套公认的权威性的切词词表可供使用。为此,1995年全国智能接
口评测大纲规定,选取《现代汉语词典》和《汉语拼音正词法》中的词语作为评测参考。
这实际上是一种临时措施,没有解决根本问题。《现代汉语词典》是国内和国际上公认的
最具权威性的规范词典,1995年重版修订后,增加了9000多条反映新事物、新概念和科技
新发展、社会新变化的新词语,如代沟、反思、特区、离休、信用卡、桑那浴、人工智能
、基因工程等,同时也删去了一些过于陈旧的词语和过于专门的专科术语。作为一部推广
普通话、促进汉语规范化服务的词典,它的水平是很高的,但作为切词用的词表,其词汇的
收集和数量都不能适应语言信息处理的工程性需要,还需进行筛选和补充。从我们已处理
过的几十万语料来看,还有数千个普通词语需要补充。
其次,因为语言的生命力是由人们的使用决定的,它总是以一种动态的面貌展现在人
们的面前。从动态的角度看,人们可以根据表达的需要不断地构造新词,这就使语言中词
的数目永远是个开放集,任何表面完备的切词词表都不可能把语言中所有的词涵盖无遗。
如:唯美/倾向、唯智力/倾向、唯设备/倾向……,非智力/因素、非国有/资产、非生产性
/投资……,其中,"非"、"唯"均为前缀,上述含这两个前缀而构成的词都是未登录词,也可
看作是一种动态词。但是,我们应看到,汉语中的很多语素在活动能力、构词位置上具有
灵活多变的特点,特别是其中有的语素既可以是能独立运用的成词语素,又能与别的语素
组合,作为构词语素或语缀。
如"非"在上面几例中是前缀,记为"非1",但在"非严肃查处不可"、"这件事非老刘不
能解决"中,"非"是一个连词,记为"非2"。因此,区分"非"在句中是前缀还是词,这是正确
切词的关键,构词知识、句法知识、语义知识在此必不可少。我们还应看到,语言中的词
虽然可以数目无限,但这些词的构造规则是有限的,这可以看成是语言的静态一面。这些
静态知识就是我们动态词构词规则库的内容。
另外,在自动切词过程中,专名识别也是一个难题。未被辨识出的中外人名、地名、
机构组织名、商标名等是导致切词错误的重要原因之一。专名识别出现的错误可分为两
种,一种是误检,把专名误作普通名词或其它词处理,而导致分词错误;另一种是错检,把非
人名、地名等误分作人名、地名,而导致分词错误。
目前,一些切词系统所采用的专名识别方法是建立人名、地名等专名库,然后再用机
械匹配的方法进行处理。这种方法从根本上讲还是用静态词典来匹配动态语言材料,其实
际结果总是不尽如人意。因此,必须从动态的角度研究专名辨识方法。
以中国人名为例。1984年,国家语委和山西大学合作,利用1982年全国人口普查资料
,对我国汉字姓氏人名用字进行了抽样统计。从北京、上海、辽宁、广东、福建、陕西、
四川等七个地区(各抽取2.5万人)抽取人名共计174993个。这项成果具有覆盖面广、代表
性强、合理、科学等特点。其中共有姓氏729个,分布相对集中,王、陈、李、张、刘这五
个大姓占32%,前114个姓占90%,前365个姓占99%。同时,从人名用字的统计来看,时代背景
和区域性特色也十分明显。如单名增长趋势显着,在1982年人口普查的抽样调查中,新中
国成立前出生的总人数为68273个,单名人数占6.5%,1976年以后的总人数为13621个,单名
占32.5%。又如人名用"红"字的,在新中国成立前占0.136%,而在1966~1976年期间占2.1
5%。人名用字的时代变化太明显了。
这些翔实的姓名统计资料清楚地告诉我们,采用姓氏用字库、人名用字库以及上下文
称谓等方法进行人名识别是一条可以试验的方法。目前,由于研究深度不够,试验结果还
未能达到实用。
多年的实践告诉我们,专名识别是一个很复杂的问题,不仅涉及字词的信息(如是否常
做姓氏和人名),而且还涉及词语搭配的句法知识和语义知识等。
总之,自然语言具有无限丰富、不断发展和约定俗成的特点。汉语和其它自然语言一
样,它的词汇部分永远是一个开放集,任何词表都不能做到将全部词汇收入。自动切词系
统中由未登录词造成的切词错误远远超过歧义切分与字段引发的错误。因此,近年来这个
问题已成为自动切词研究的焦点。目前,自动切词的各种算法设计和切词精度的提高,还
有赖于从现代汉语词汇学的角度进行分析研究,如语素的构词能力、接尾词和接头词的特
性、复合词的构成方式等,才能从根本上解决切词词表的建造和未登录词的辨识问题。
2.建造歧义切分的句法构词知识库,以提高切词精度
歧义字段在中文文本中是普遍存在的,是自动切词中一个比较棘手的问题。近年来,
国内开展了对歧义切分技术的研究,已研究出一些构词和语法语义知识,增强了切分歧义
字段的能力,提高了切词的精度。但是,这些构词语法知识库库容小、规则有限,无法满足
大规模真实文本中信息处理的高标准要求。当前,应首先在大规模真实语料中采集各种歧
义现象的基础上,从语素构词、词的句法关系、词义搭配、短语结构等多个角度进行分析
研究。
目前,我们已从语料中收集整理了近万条歧义切分字段及其相应的句子,建立了歧义
切分字段语料库,并从中发现,交集型歧义切分字段占歧义字段总数的85%以上,而其中又
以二字词构成的歧义字段为多,占交集型歧义字段的90%以上。可见处理这些由二字词构
成的交集型歧义切分字段是我们研制歧义切分技术的一个重点。基于以上事实,经过一年
来的不断攻关,我们共归纳出几十条歧义字段切分的句法规则及上百条构词规则,并用上
述规则进行切词试验,取得了较为满意的效果。如歧义切分字段库中所有由介词构成的歧
义字段有上百条,而我们只给出两条句法规则就解决了这些字段的歧义问题。
规则P1:AJB为交集型歧义字段,若A为介词,则切分为A(介)/JB。如除/法律、与/共同
、把/关系、为/人民等。
规则P2:AJB为交集型歧义字段,若B为介词,则切分为AJ/B(介)。如发现/在、没有/用
、习惯/于、主动/向等。
我们还建立了助词、副词、连词、方位词、趋向动词、能愿动词、量词、形容词等
的句法规则来解决歧义字段,同样具有以简驭繁的功效。
歧义字段切分时,词法知识同样是正确切分中必要的信息。如"己"、"民"、"界"、"
阐"等都是不成词语素,由这些语素组成的歧义字段可以利用构词法的知识给出切分规则
。下面例子中的歧义字段都能取得正确的切分结果。
拿/出/自己/的/心爱/的/东西。(不可能切成"出自/己")
到时/在/世界/上/展示/风采。(不可能切成"在世/界")
这/段/话/阐明/了/一/个/真理。(不可能切成"阐/明了")
五/乡/村民/办/起/了/小/水电。(不可能切成"乡村/民")
我们在探讨歧义字段切分技术时所建立的歧义切分句法和构词知识库,大大地增强了
处理歧义字段的能力。
二、词类自动标注中应考虑的两项技术
1.词类标注应采取经验主义和理性主义相结合的方法
1992年国际机器翻译会议的主题即为"机器翻译中的经验主义和理性主义方法"。随
着对大规模真实文本处理的日益关注,人们已普遍认识到基于语料库的分析方法(即经验
主义方法)至少是对基于规则的分析方法(即理性主义方法)的一个重要补充。
在国内词类自动标注算法中,关于采用基于大规模语料库的经验主义方法和基于规则
的理性主义方法己有试验报道。我们采用了"成分似然性自动词类标注系统" (CLAWS)改
进算法,选择10万汉字语料作为训练集(标记集有174个标记),建立了一个相邻标记的同现
概率矩阵(174×174)和兼类词典(收词1500个,每个兼类词包括词类标记及出现概率)。进
行自动标记时,先从输入文本中截取一个首词和尾词非兼类的有限长度的词串(称为SPAN
),然后利用同现矩阵提供的数据来计算SPAN产生的每个可能标记的概率积,并选择概率积
最大的标记串作为词类标记结果。
试验结果表明,基于语料库统计的方法具有很好的一致性和较高的覆盖率,并且可以
将一些不确定的知识定量化。但是,在这种方法中获取知识的机制与语言学研究中获取知
识的机制完全不同,因而所获取的知识很难与现有的语言学成果相结合。同时,像CLAWS算
法的时间和空间复杂度都比较大,随着标记跨段长度的增加以及兼类词标记数目的增大,
其实际运行效率将会降低。
基于规则的理性主义方法可以将大量现成的语言学知识形式化,具有较强的概括性,
便于引用最新研究成果。因为任何词类都有其内部的共性和区别于其它词类的个性。只
要我们把词类的共性和它外部的个性特征结合起来,词的兼类问题是可能得到妥善解决的
。比如:名词的语法个性在于它可以直接受名量词的修饰,可以受名词直接修饰,可以做"
有"的宾语,可以与名词组成并列结构。如果某个词具备了上述特征,我们就可以判定它是
名词。 (
例如,主张、计划、建议可以是动词,但在下面的语法环境中,它们一定是名词,这是
因为:
·可以受名量词的直接修饰 如五点主张、不少计划、许多建议。
·可以受名词的直接修饰 如个人主张、教学计划、家长建议。
·可以做"有"的宾语 如有主张、有计划、有建议。
·可以与名词组成并列结构 如观点和主张、材料和计划、观点和建议。
我们在对50万汉字语料进行词类标注中,根据词的语法功能这一标准判别兼类词,既
具科学性又有可操作性,收到了较好的效果。但是,实践表明,基于规则的方法所描述的语
言知识的颗粒度太大,难以处理复杂的、不规则的信息,特别是当规则数目增多时,很难使
规则全面覆盖某个领域的各种语言现象。
为此,我们正在把基于规则的方法和基于统计的方法结合起来进行试验,使语言知识
选择引用和用统计方法建立的语言模型有机地结合起来,使之互相补充,相得益彰。预计
这一试验将会取得更为满意的结果。
2.词类标注应同切词过程一体化进行
人们分析和理解自然语言时,其特点和过程是什么样的呢?通过仔细观察和思考,我们
不难发现,人脑处理自然语言的特点和过程是将切词和词类识别一体化进行,即边切词边
进行词类或语义识别,二者是不可分离的两个方面。下面以处理兼类词"为"和由"为"构成
的歧义字段为例,说明切词和词类标注不可分离的性质。 例 "他们以服务社会、报效
祖国为人生的第一目标"。
理解这句话的关键是判别兼类词"为"的词性,并处理歧义切分字段"为人生"到底该切
分为"为人/生"还是切分为"为/人生"。前者是词性判别,后者是词的切分。句法知识在理
解这句话中首先起作用,当我们看/听到介词"以"时,我们首先查寻的是这个介词后面的第
一个动词,当兼类词"为"出现时,它的动词词性马上被确认,也就是说介词的词性同时被排
除,因为汉语中"以...为..."常作为一种固定搭配使用。确定了"为"的词性,歧义切分字
段"为人生"的正确分词结果"为/人生"也被随之确定下来,可见句法知识不仅解决了词性
的确定,同时也解决了歧义的切分。词类判别和切词是同时进行而不可分离的。
目前把切词和词类标注分离开将带来什么结果呢?还是以《分词规范》为例,它明确
规定,"场、室、界、力"等字用在某个单位的末尾时,就要一律按"接尾词"单独切分,比如
:运动/场、会议/室、新闻/界、生产/力等。因为切词的目的不是为切词而切词,而是要
为进一步的句法分析和理解语言服务,那么,词性标注就成为下一步不可或缺的工作。但
这时,上面的分词结果就出现了麻烦。"场、室、界、力"如果是词也只能是名词,可它们
是词吗?如果是词,为什么它们从来都不能独立运用,单独成词,而只能以附加的成分出现
在某些名词性成分之后?语言中真的有粘着的"名词"吗?答案都只能是否定的。这种把构
词成分误作"分词单位"切分的做法造成的上述不能自圆其说的窘况,正是脱离词类标注单
独切词的结果。
鉴于此,我们深感应将切词和词类标注作为理解和分析语言材料的两个不可分离的环
节,进行一体化处理。这样做,才真正符合人处理语言和过程的特点,才无愧于"人工智能
",由此而得出的结果才可能达到预期效果。
三、应加强汉语文本自动语义标注试验
在中文信息处理中,词汇、句法和语义层面的分析研究都需要借助于词义特征。一词
多义形成了词的多义现象,自动语义标注主要是解决词的多义问题。一词多义虽然是自然
语言中的常见现象,但是在一定的上下文中一个词一般只能解释为一个义项。所谓自动语
义标注就是运用逻辑运算和推理机制,对出现在一定上下文中的词语语义的义项进行正确
的判断,确定其正确的语义,并加以标注。多义词的排歧一直是一个老大难问题。
国内对于汉语文本自动语义标注的研究已经起步,并正在进行中。山西大学在汉语全
文检索中进行了义项标注研究,并对《太原市地方志大事记》进行了义项标注试验。这份
材料从公元前514年到1990年,分为10个历史阶段,包括了太原历史上的政治、经济、军事
、文化、科技诸方面具有划时代意义的事件。全文共50万汉字语料,经义项标注后,主要
解决了人名、地名、机构名等专有名词的同义现象,同时提出了普通词义项标注方法,包
括同义词的确定和多义词的排歧。

⑹ 中国搜索引擎检索的主要方式有哪两种

现有的搜索引擎基本上分为三类:
1.1 single search engine(独立搜索引擎) 它的特点是仅在搜索引擎自身的数据库检索信息,比如Yahoo。
1.2 Meta search engine(元搜索引擎) 它在检索信息时通过调用其它多个独立的搜索引擎来完成检索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除重复结果、校验连接、结果按照相关度排序等。元搜索引擎本身可以有也可以没有自己的数据库。由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询语法上的差别较大,使得元搜索引擎本身仅支持AND、0R、N0T等简单的语法操作,返回的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性。
1.3 Net search engine(网络搜索软件) 就是网络用户可以将相应的搜索软件下载至本地的计算机上,安装查询,这是一种具有网络查询功能的离线浏览器。相对于元搜索引擎,它可以灵活地控制输出结果,其最大特点是方便用户使用和能快速地查询网络相关资源。2 网络搜索引擎的工作原理及其基本构成
用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对应的信息返回给用户。为了保证用户查找信息的精度和新鲜度。对于独立的搜索引擎而言.还需要建立并维护一个庞大的数据库。独立搜索引擎中的索引数据库中的信息是通过一种叫做网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用户提供查询服务。所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成.
网络蜘蛛。是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的过程是对互连网上信息遍历的过程。为了保证网络蜘蛛遍历信息的广度,一般事先设定_ 些重要的链接,然后进行遍历。在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接。
索引软件。网络蜘蛛将遍历搜索集得到的网页存放在数据库中。为了提高检索的效率,需要建立索引。索引一般为倒排档索引。
搜索软件。该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序。然后将分级排序后的结果显示给用户。
3 搜索引擎的主要性能评价指标
3.1 搜索引擎建立索引的方法 数据库中的索引一般是按照倒排文档的文件格式存放,在建立例排索引的时候,不同的搜索引擎有不同的选项。有些搜索引擎对于信息页面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。Google、infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以提高页面相关度判别时的准确度。由于索引不同,在检索信息时产生的结果会不同。
3.2 搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的优劣,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能。另外,由于中文信息特有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就会全面检索大陆、港台乃至全世界的中文信息。这样不但提高了搜索引擎的质量,而且会得到用户的支持。
3.3 搜索引擎的检索效果 检索效果可以从响应时间、查全率、查准率和相关度方面来衡量。响应时间是用户输入检索式开始查询到检出结果的时间。查全率是指一次搜索结果中符合用户要求的数目与和用户查询相关的总数之比;查准率是指一次搜索结果集中符合用户要求的数目与该次搜索结果总数之比;相似度是指用户查询与搜索结果之间相似度的一种度量。虽然由于无法估计网络上与某个检索提问相关的所有信息数量。所以目前尚没有定量计算查全率的更好方法,但是它作为评价检索效果的指标还是值得保留。查准率也是一个复杂的概念,一方面表示搜索引擎对搜索结果的排序,另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。总之,一个好的搜索引辇应该具有较快的响应速度和高的查全率和查准率,或者有极大的相似度。
3.4 搜索引擎的受欢迎程度 搜索引擎的受欢迎程度体现了用户对于搜索引擎的偏爱程度,知名度高、性能稳定和搜索质量好的搜索引擎很受用户的青睐。搜索引擎的受欢迎程度也会随着它的知名度和服务水平的变化而动态的变化。搜索引擎的服务水平和它所收集的信息量、信息的新鲜度和查询的精度相关。随着各种新的搜索技术的出现,智能化的、支持多媒体检索的搜索引擎将越来越受用户的欢迎。
另外,搜索引擎的信息占有量也可以作为评价搜索引擎性能的指标。综上所述,评价搜索引擎的性能指标可以概括为:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.检索功能(支持的检索技术,多媒体检索,内码处理等);C.查询效果(响应时间,查全率,查准率,相关度);d.受欢迎程度;e.信息占有量。4 搜索引擎检索信息的局限
2001年Roper的调查指出,36% 的互连网用户一个星期花超过2个小时的时间在网上搜索;71% 的用户在使用搜索引擎时遇到过麻烦;平均搜索12分钟以后发现搜索受挫。另一项由Keen所做的调查显示,31% 的人使用搜索引擎寻找答案,网上查找答案的半数以上都不成功。从这些调查数据中不难看出。目前的搜索引擎仍然存在不少的局限性。概括起来大致有以下几个方面。
4.1 搜索引擎对信息的标引深度不够 目前,搜索引擎检索的结果往往只提供一些线形的网址和包括关键词的网页信息,与人们对它的预期存在较大的距离,或者返回过多的无用信息,或者信息丢失,特别是对特定的文献数据库的检索显得无能为力。
4.2 搜索引擎的信息量占有不足 作为搜索引擎必须占有相当大的信息量才能具有一定的查全率和实用性。目前还没有一种覆盖整个因特网信息资源的搜索引擎。
4.3 搜索引擎的查准率不高 分析起来,这是因为:一方面由于网上信息数量巨大、内容庞大、良莠不齐,信息的质量得不到保障;另一方面是由于大多数搜索引擎的索引工作由程序自动完成,根据网页中词频及词的位置等因素确定关键词,有的网站为了提高点击率,将一些与网页主题并不相关的热门词汇以隐含方式放在页面上,并重复多次,从而造成查准率低。
4.4 检索功能单一,缺乏灵活性 目前许多搜索引擎的查询方法比较单一,一般只提供分类查询方式和关键词查询方式。不能从文献的多个方面对检索提问进行限制,只能就某一关键词或者概念进行笼统的检索。
4.5 搜索引擎自身的技术局限像目前部分搜索引擎还不能支持对多媒体信息的检索。造成上述信息检索困难的原因实质在于搜索引擎对要检索的信息仅仅采用机械的词语匹配来实现,缺乏知识处理能力和理解能力。也就是说搜索引擎无法处理用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。5 搜索引擎未来的发展趋势
新一代搜索引擎的发展目标就是采用新兴的搜索技术为用户提供更方便易用、更精确的搜索工具来满足用户的信息查询需要。技术上,应该在自然语言理解技术上有所突破,以XML可扩展标记语言为主,并使用向导技术。下面就搜索引擎的发展趋势谈几点看法。
<strong>答案补充</strong>
5.1 垂直化专业领域搜索 由于社会分工的加大,用户从事的职业有所不同,不同用户对信息搜索也往往有自己的专业要求。由于综合性的搜索引擎收录各方面、各学科、各行业的信息,因而搜索不相关的信息太多,专业垂直引擎则可以解决这个问题,垂直类搜索引擎是只面向某一特定的领域,专注于自己的特长和核心技术,能够保证对该领域信息的完全收录与及时更新。因此,基于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。
5.2 智能化搜索 传统的搜索引擎使用方法是被动搜索,而准确的搜索应建立在对收录信息和搜索请求的理解之上。显然,基于自然语言理解技术的搜索引擎由于可以同用户使用自然语言交谈,并深刻理解用户的搜索请求,则查询的结果更
加准确。
5.3 关联式的综合搜索 所谓关联式综合搜索,是这样一种一站式的搜索服务,它使得用户在搜索时只需要输入一次查询目标,即可以在同一界面得到各种有关联的查询结果,这种服务的关键在于有一架构在XML基础上的整合资讯平台。<strong>答案补充</strong>
5.4 个性化搜索 提高搜索精确度的另一个途径是提供个性化的搜索,也就是将搜索建立在个性化的搜索环境之下,其核心是跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据来提高用户的搜索效率。
5.5 结构化搜索 所谓结构化搜索,是指充分利用XML等技术使信息结构化,同时使用查询结构化,从而使搜索的准确度大大提高。
5.6 本土化的搜索 世界上许多着名的搜索引擎都在美国,它们以英语为基础,完全按他们的思维方式和观点搜集和检索资料,这对于全球不同国家的用户来说是显然不合适的。各国的文化传统、思维方式和生活习惯不同,在对于网站的内容的搜索要求上也就存在差异。搜索结果要符合当地用户的要求,搜索引擎就必须本土化。
5.7 多媒体搜索。随着宽带技术的发展,未来的互联网是多媒体数据的时代,开发出可查询图像、声音、图片和电影的搜索引擎是一个新的方向,这也将极大地满足用户的需求。未来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和更能够满足用户的信息查询需求。

⑺ JAVA字符串截取算法

你好,你上边的形式我看不懂,我安字符串形式来处理!
你可以试用string的substring()方法
有两种形式:第一种是:string
substring(int
startindex)
第二种是:string
substring(int
startindex,int
endindex)
//startindex
指开始字符串的下标。endindex
结束字符串的下标。
string
str
=
"1/11/1";
string
str1
=
str.substring(0,
2);
system.out.println(str1);
或者
string
str
=
"1/11/1";
string
str1
=
(string)str.subsequence(0,
2);
system.out.println(str1);

⑻ 迭代法,二分法,牛顿迭代法,弦截法的算法设计思想

1)迭代法设计思想最简单:x=f(x) 但这种方法初值很主要,不然容易发散。
2)二分法设计思想是先给定区间[a,b],要求f(a)与f(b)是异号,保证区间内与x轴有交点,求x=(a+b)/2,求f(x),检查f(x)与f(a)是否同号,如果是同号,把x当成新的a,否则把x当成新的b,得到新的区间,重复求a和b的中点的值,判断与f(a)是否同号,不断循环下去,直到达到精度为止。
3)牛顿迭代法设计思想是对f(x0)某点求切线,与x轴交x1点后,把x1当成x0,再求出其相应新的f(x0),再对其求切线,找到与x轴的新交点,不断循环下去,直到达到精度为止。这种方法要求先对函数求一阶导数,然后再迭代:x1=x0-f(x0)/f‘(x0)
4)弦截法设计思想利用插值原理,避免上面的求导,要求在f(x)上取二点x0,x1,做过f(x0),f(x1)的直线交x轴一点为x,把原来的x1当成x0,把x当成x1,再重复上面的做直线的过程,不断循环下去,直到达到精度为止。迭代公式:x=x1-(x1-x0)*f(x1)/(f(x1)-f(x0))

⑼ 有谁知道计算机检索的基本原理和步骤是什么呀

计算机检索的基本原理:
检索技术及其实现
检索技术包括基本布尔逻辑组配、截词、词位限制、检域限制等。
布尔逻辑组配是现行计算机检索的基本技术,主要通过“和(and,*)”、“或(or,+)”、“非(not,-)”等将检索词联络起来
如:信息检索 AND 计算机
(信息检索 OR 文献检索) AND 计算机
文献检索 NOT 文献检索课

如果要更详细资料请浏览参考资料(是Microsoft Powerpoint 97 文件)

c语言中文分词算法

没有挂网公布,需要咨询专业人士。

C语言是一门面向过程的、抽象化的通用程序设计语言,广泛应用于底层开发。C语言能以简易的方式编译、处理低级存储器。

C语言是仅产生少量的机器语言以及不需要任何运行环境支持便能运行的高效率程序设计语言。尽管C语言提供了许多低级处理的功能,但仍然保持着跨平台的特性,以一个标准规格写出的C语言程序可在包括类似嵌入式处理器以及超级计算机等作业平台的许多计算机平台上进行编译。

C语言诞生于美国的贝尔实验室,由丹尼斯·里奇(Dennis MacAlistair Ritchie)以肯·汤普森(Kenneth Lane Thompson)设计的B语言为基础发展而来,在它的主体设计完成后,汤普逊和里奇用它完全重写了UNIX,且随着UNIX的发展,c语言也得到了不断的完善。

为了利于C语言的全面推广,许多专家学者和硬件厂商联合组成了C语言标准委员会,并在之后的1989年,诞生了第一个完备的C标准,简称“C89”,也就是“ANSI C”,截至2020年,最新的C语言标准为2018年6月发布的“C18”。

热点内容
c语言发短信 发布:2024-05-18 13:23:08 浏览:833
vb数据库程序 发布:2024-05-18 13:01:57 浏览:111
新建文件夹2免费手机 发布:2024-05-18 12:56:13 浏览:365
自己在家搭建服务器有水冷散热吗 发布:2024-05-18 12:47:27 浏览:649
旧版的安卓手机怎么使用微信 发布:2024-05-18 12:46:36 浏览:467
我的世界服务器开多久 发布:2024-05-18 12:45:32 浏览:593
vba获取网页表格数据库数据库数据库 发布:2024-05-18 12:23:24 浏览:700
腾讯服务器为什么卡顿 发布:2024-05-18 12:02:12 浏览:306
如何知道密码锁有没有nfc 发布:2024-05-18 11:58:09 浏览:962
单片机c语言模块化编程 发布:2024-05-18 11:53:16 浏览:645