当前位置:首页 » 操作系统 » 算法指标网

算法指标网

发布时间: 2023-03-13 04:32:18

㈠ 【search】概述搜索排序算法的评价指标MAP,NDCG,MRR

【原文地址已失效,故粘贴于此】

By Eletva, eletva.com

我们知道,每个算法都有其评估的手段,借此用以指导当前算法模型的好坏,搜索rank是一个相对而言比较常见又比较特殊的场景,因为最后我们需要评估的是一个序列的好坏,是各个个体的相互关系,而不是大部分机器学习算法那样评估的是每个个体的处理好坏。因此,要深入了解搜索rank的机制,那么首先要知道我们是怎样来评估一种排序算法是好的算法,而另一种是不好的。本文中提到了三种评估的方式,都是有各自的试用场景。

因为搜索的意思形态不一样,可能采取的评估指标也可能会随之变化,以下提到的评估手段都可能是当用或者复用,要适当变之。。。

1. MAP(mean average precision):

MAP的衡量标准比较单一,q(query,搜索词)与d(doc,检索到的doc)的关系非0即1,核心是利用q对应的相关的d出现的位置来进行排序算法准确性的评估,比如q1对应相关的d排名是1,2,5,7(假设q1有4个相关d),那么对于q1的ap(average precision)的计算就是(1/1+2/2+3/5+4/7)/4=ap1,对于q2的排序结果结果中与之相关的d的排名是2,3,6(假设q2有5个相关d),那么对于q2的ap就是(1/2+2/3+3/6+0+0)/5=ap2,那么这个排序算法的MAP就是(ap1+ap2)/2

MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就应该越高。如果系统没有返回相关文档,则准确率默认为0。

这里注意的是,在利用MAP的评估的时候,需要知道:1. 每个q有多少个相关的d; 2. 排序结果中这些d的位置 3. 相关的定义

延展:或许这个MAP可以进行部分改进,相关定义的部分可以考虑用0-1之间的系数来确定,而到实际使用中可以用ctr,gmv这些指标进行替换

2. 对于NDCG(Normalized Discounted Cumulative Gain)的理解

N指的是归一化,D指的是衰减率,C指的累加,G指的是熵,其实这个公式的关键就是就是熵,再多了三个形容词:归一化的,带有衰减函数的,再带有累加的熵即是了

仔细看一下上面的公司,停顿两分钟就可以体会其中的含义了

1)公式中最核心的Gain用一个指数函数来表示了,这与一般的信息熵的概念有些不一样,可能指代表着一个信息量的关系的变化,也许这说明熵是可以以任意形式出现的,anyway,这个还要再研究一下

2)那么接下去就是带有衰减因子的G,也就是DG了,用来表示与位置的衰减关系,因为排名越往后,那么说明越被点击的可能越小,因此越往后的衰减因子越小,实际操作中有很多衰减因子的定义函数,比如C*1/log(1+j),上式子是指C为1的特殊形式, 其中C一般还会取值log2之类的一些经验值,这个都可以根据实际情况来进行变化(不过,我们应该清楚的认识到因为)

3)接着,就是累加,将带有衰减因子的熵进行累加,每个排名处进行累加

4)最后,是归一化,用当前的CDG/MAX,MAX即是理想状态下的CDG,那么就进行了归一化处理

总结:这里的相关性体现在Gain的计算处,r将相关性分成了多个档位,这里可以用实际操作中需要的指标去代替

3. MRR(mean reciprocal rank),倒数排序法

这个是最简单的一个,因为他的评估假设是基于唯一的一个相关结果,比如q1的最相关是排在第3位,q2的最相关是在第4位,那么MRR=(1/3+1/4)/2,MRR方法主要用于寻址类检索(Navigational Search)或问答类检索(Question Answering)

--------------------------------------------------------------------------------------------

另外谈到两个常见的算法指标的一些比较本质的东西,一个是Precision(准确率)与Recall(召回率)的关系,另一个是F-Measure,一个用来衡量P与R的指标

P与R之间的关系有些符合其齐夫定律,召回率和准确率分别反映了检索系统的两个最重要的侧面,而这两个侧面又相互制约。因为大规模数据集合中,如果期望检索到更多相关的文档,必然需要“放宽”检索标准,因此会导致一些不相关结果混进来,从而使准确率受到影响。类似的,期望提高准确率,将不相关文档尽量去除时,务必要执行更“严格”的检索策略,这样也会使一些相关的文档被排除在外,使召回率下降。

F-Measure:公式是基于P与R的调和平均数,1/[(1-lamda)*1/p+lamda*1/r), 一般lamda会取0.5,表示p与r的平衡,这里使用调和平均数而不是通常的几何平均或算术平均,原因是调和平均数强调较小数值的重要性,能敏感的反映小数字的变化,因此更适合用来反映算法效果。因为常常,一个指标比多个指标能够方便快捷的定位好坏。

㈡ 算法的评价指标包括什么


一、企业网站评价原则
1、企业网站评价的动态性:由于企业网站本身是一个动态交互的信息平台,因此其评价体系就应当从动态角度出发。
2、企业网站评价的差异性:由于不同行业、不同企业、不同发展阶段,其评价标准是不同的。因此在具体的评价过程中,也应当视具体情况具体分析。
3、企业网站评价的整体性:由于企业网站本身的原因,决定了在评价标准中既有可以量化的标准,又有不可量化的标准。因此在评价中,应当遵从整体性的原则。

二、企业网站评价的指标体系
(一)整体评价
1、域名和URL:域名是Internet上的一个服务器或一个网络系统的名字,在Internet上,没有同样的域名,因此,域名具有唯一性。域名是由英文26个字母和10个阿拉伯数字以及横杠"-"(减号)组成。URL——(Universal Resource Locator)通用资源定位器。一个恰当、精炼的域名对于网站的发展是十分重要的。同时,独立域名是十分重要的一项指标。

2、链接有效性:在企业网站中,链接有效性占有及其重要的地位。无效链接会直接影响用户对网站本身的信任度。在指标评价过程中,链接的完备性是也一项十分重要的指标。

3、下载时间:调查显示,一个网页的打开时间超过20秒会引起浏览者的厌恶感。中国在2002年以拨号方式上网的计算机为1480万台,占总上网计算机的71% 。因此在实际的评价中,网页的加载速度应当以拨号方式来进行测评;同时为了简化评价复杂程度,在实测的过程中,仅考虑首页的下载时间。

4、网站认证:作为一个合法的企业网站,不仅应当提供工商认证,同时还要提供CA认证。对于某些特定行业,还应该提供各种相应认证。

5、符合网络伦理:所谓网络伦理,是Internet上一种特有的商业道德——即充分尊重用户的个人意愿和个人隐私,对用户不能有任何的强迫行为。如不首先发送商业信息,不经过授权的修改、公布访问者的个人资料和信息,或对用户访问提出要求和条件。

6、联系方式:在首页和网站的各个链接上,都需要体统十分详尽的联系方式。不但要提供电子邮件、电话、传真;还要提供公司地址、邮编以及联系人姓名。

7、更新:网站提供内容和页面设计的不断更新;以提高网站的信任度。更为重要的是,最好应当注明网站的最后一次更新时间。

(二)网站设计
1、风格与布局:网站内的所有页面应当遵从统一的风格。包括统一色彩、统一主题、统一语气和人称、统一图片效果。同时在页面布局方面,应当加强视觉效果,加强文案的可视性和可读性。

2、美工与字体:网页色彩应当均衡,要突现可读性;同时切忌将所有颜色都用到,一般要求色彩要控制在3种以内。由于中国大陆汉字系统采用GB编码方式,而台湾地区汉字采用BIG5编码,而欧美用户则没有安装任何支持汉字的系统;鉴于此,定位于国际性质的网站应当针对不同的目标访问者,设计不同的字体或语言。

3、动画与声音:在页面上应该慎用动画和声音,更不能滥用。因为一方面会影响下载速度,另一方面可能会招致用户的厌恶和抵触情绪。

(三)内容提供
1、有用信息
(1) 网站的长期发展是取决于能否长期为访问者提供有用的信息,这个也是网站自身发展的需要。
(2) 准确性:信息资源与数据是否切实可信。如果涉及一些关于信息来源与知识产权的信息,要注明出处与来源。

2、交互性内容
(1) 提供双向交流:网站双向交流的栏目不需要很多,但是作为一个企业网站来说,应当设立如,论坛、留言版、邮件列表之类的栏目;以供浏览者留下他们的信息。有调查表明,提供双向交流站点较简单地留下一个E-mail地址更有亲和力。
(2) FAQ’s:Frequently Asked Questions——常见问题解答;因为企业网站经常收到用户关于某一方面问题的来信,,应当设立一个常见问题解答,既方面访问者,也可以节约网站时间和成本。
3、内容页面长度:网页内容页面的长度以不超过3个屏幕高度为佳,因此将篇幅过长的文档分隔成数篇较小的页面,可以增加网站的亲和力;如果基于特殊理由,应在长页面上加上一些书签,以使用户快速查询。

(四)网站推广与其他
1、搜索引擎中的排名:Meta的使用,Meta标签是纪录当前页面信息的元素,如字符译码、作者、版权、关键字等。Meta标签也提供该服务器信息,如有效日期和刷新频率。正是基于Meta的功能,搜索引擎可以自动找到WEB上的信息。
2、适当的关键词:用户很大程度上搜索目标信息和企业网站习惯于通过搜索引擎。所以一些具有战略性的关键词是十分重要的

3、其他网站提供的交换链接的数量

4、兼容性问题:
(1) 显示兼容:在800*600、1024*768……分辨率条件下能够显示正常。
(2) 操作系统兼容:在WINDOWS9.X/ME/NT/2000/XP/2003、Linux、Mac等操作系统中运行正常。
(3) 浏览器兼容:在IE(1—6)、Netscape(1—6)、Opera(1—7)等浏览器中运行正常。

5、网站服务:
(1) E-mail的自动回复(即时)、E-mail的人工回复(24小时)包括节假日
(2) 电话和传真回复
(3) 800免费电话的提供
(4) 客户资料的保留和挖掘

三、企业网站的综合评价指标体系
企业网站的多指标综合评价应当包括3方面的内容:一是综合评价指标体系及其评价标准的建立,这是整个评价工作的前提;二是用定性或定量的方法确定各指标的具体数值,即指标评价值;三是各评价值的综合,包括综合算法和权重的确定、总评价值的计算等。

㈢ 多分类算法的评估指标

在以往的分类问题求解当中,我们遇到的问题多为二分类问题,我们常用的评估指标有accuracy, precision, recall_score, f1-score, roc_auc_score等。但是在实际生活中,多分类问题也是大量存在的。这一小节,我们就详细的说明一下多分类问题的评估指标。

我们先来看一下sklearn库中的二分类的评估指标,以recall_score为例。在recall_score方法中,有一个很重要的参数'average',它的默认值为'binary'。当在默认参数的情况,该评估方法只能求解二分类问题,如果将该评估方法用于多分类问题,则系统会报错。但'average'同时也向我们提供了其他四个用于解决多分类的问题的参数'micro','macro','weighted','samples'。下面我们以鸢尾花数据集为例来对这四个参数进行逐一说明。
[sklearn.metrics.recall_score](' https://scikit-learn.org/stable/moles/generated/sklearn.metrics.recall_score.html
')

我们以recall_score的计算为例,recall_score的计算公式如下:

为了计算recall_score,我们必须先计算出TP,FN值。我们采用sklearn中的混淆矩阵来计算TP,FN值。

该分类问题的混淆矩阵如下,列为真实类别,行为预测类别:

混淆矩阵(confusion matrix)说明:
TP(True positive):把正例正确地预测为了正例,如把类别0预测为0的个数有16个。
FN(False negative):把正例错误地预测为了负列,如把类别1预测为2的个数有5个。
FP(False positive):把负例错误地预测为了正例,假设0为正例,错误地把1,2预测为0就是FP。
TN(True negative):把负例正确地预测为了负例,假设0为正例,1,2为负例,正确地把1,2预测为1,2就是TN。
对于混淆矩阵,可以这样理解。第一个字母T/F,表示预测的正确与否;第二个字母P/N,表示预测的结果为正例或者负例。如TP就表示预测对了,预测的结果是正例,那它的意思就是把正例预测为了正例。

Micro:把所有类汇总在一起计算出最终recall值,其计算公式如下:

在使用Micro参数时,其recall_score = (16+13+11)/(16+13+11+5) = 0.89。
使用sklearn.metrics方法计算:

从上述计算结果可以看出,两者的计算结果是一致的,均为0.89。

Macro:分别计算出每一类的recall值,再取算数平均值,其计算公式如下:

在使用Macro参数时,其recall_score = [16/(16+0+0) + 13/(0+13+5) + 11/(11+0+0)] * 1/3 = 0.91
使用sklearn.metrics方法计算:

从上述计算结果可以看出,macro参数下的recall值为0.91。

Weighted:分别计算每一类的recall值,再乘以各自的权重,然后求和,其计算公式如下:

计算各类的权重:

在使用weighted参数时,其recall_score = 16/(16+0+0) * 0.356 + 13/(0+13+5) * 0.4 + 11/(11+0+0) * 0.244 = 0.89
使用sklearn.metrics方法计算:

从上述计算结果可以看出,weighted参数下的recall值为0.89。

samples应用于多标签的分类问题,每一个样本拥有一个以上的标签。如一个感染病毒性肺炎的患者,就可以说他既属于病毒性肺炎患者这一类,也可以说他属于肺炎患者类。

小结:
1.对于多分类算法的评估,我们需要将sklearn.metrics.recall_score中的'average'参数修改为'micro'或'macro'或者'weighted'。
2.在这个例子当中,我们以recall来举例,像其他的评估指标precision, roc_auc_score, f1-score都是采用同样的方法。

文章参考:
[1]. https://zhuanlan.hu.com/p/59862986

㈣ 算法的评价指标有哪些

1.时间复杂度
算法的时间复杂度是指执行算法所需要的时间。一般来说,计算机算法是问题规模n 的函数f(n),算法的时间复杂度也因此记做。

T(n)=Ο(f(n))

因此,问题的规模n 越大,算法执行的时间的增长率与f(n) 的增长率正相关,称作渐进时间复杂度

2.空间复杂度
算法的空间复杂度是指算法需要消耗的内存空间。其计算和表示方法与时间复杂度类似,一般都用复杂度的渐近性来表示。同时间复杂度相比,空间复杂度的分析要简单得多。

3.正确性

算法的正确性是评价一个算法优劣的最重要的标准。

4.可读性

算法的可读性是指一个算法可供人们阅读的容易程度。
5.健壮性
健壮性是指一个算法对不合理数据输入的反应能力和处理能力,也成为容错性。

㈤ 算法的评价指标有哪些

时间复杂度和空间复杂度。

1、时间复杂度

算法的时间复杂度是指执行算法所需要的计算工作量。一般来说,计算机算法是问题规模n 的函数f(n),算法的时间复杂度也因此记做。

T(n)=Ο(f(n))

因此,问题的规模n 越大,算法执行的时间的增长率与f(n) 的增长率正相关,称作渐进时间复杂度(Asymptotic Time Complexity)。

2、空间复杂度

算法的空间复杂度是指算法需要消耗的内存空间。其计算和表示方法与时间复杂度类似,一般都用复杂度的渐近性来表示。同时间复杂度相比,空间复杂度的分析要简单得多。

空间复杂度记做S(n)=O(f(n))。比如直接插入排序的时间复杂度是O(n^2),空间复杂度是O(1) 。而一般的递归算法就要有O(n)的空间复杂度了,因为每次递归都要存储返回信息。一个算法的优劣主要从算法的执行时间和所需要占用的存储空间两个方面衡量。

(5)算法指标网扩展阅读:

算法的方法:

1、递推法

递推是序列计算机中的一种常用算法。它是按照一定的规律来计算序列中的每个项,通常是通过计算机前面的一些项来得出序列中的指定项的值。其思想是把一个复杂的庞大的计算过程转化为简单过程的多次重复,该算法利用了计算机速度快和不知疲倦的机器特点。

2、递归法

程序调用自身的编程技巧称为递归(recursion)。一个过程或函数在其定义或说明中有直接或间接调用自身的一种方法,它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解,递归策略只需少量的程序就可描述出解题过程所需要的多次重复计算,大大地减少了程序的代码量。递归的能力在于用有限的语句来定义对象的无限集合。

一般来说,递归需要有边界条件、递归前进段和递归返回段。当边界条件不满足时,递归前进;当边界条件满足时,递归返回。

注意:

(1) 递归就是在过程或函数里调用自身.

(2) 在使用递归策略时,必须有一个明确的递归结束条件,称为递归出口。

㈥ 评价算法优劣的指标包括算法的什么

1、时间复杂度

算法的时间复杂度是指执行算法所需要的计算工作量。一般来说,计算机算法是问题规模n 的函数f(n),算法的时间复杂度也因此记做。

2、空间复杂度

算法的空间复杂度是指算法需要消耗的内存空间。其计算和表示方法与时间复杂度类似,一般都用复杂度的渐近性来表示。同时间复杂度相比,空间复杂度的分析要简单得多。

3、正确性

算法的正确性是评价一个算法优劣的最重要的标准。

4、可读性

算法的可读性是指一个算法可供人们阅读的容易程度。

5、健壮性

健壮性是指一个算法对不合理数据输入的反应能力和处理能力,也称为容错性。

热点内容
我的世界国际服服务器pvp视频 发布:2025-08-23 05:45:03 浏览:833
androidviewgroup滑动 发布:2025-08-23 05:35:44 浏览:318
什么是自动配置驱动 发布:2025-08-23 05:33:23 浏览:392
c算法教程 发布:2025-08-23 05:17:37 浏览:13
查看数据库的表的内容 发布:2025-08-23 05:12:24 浏览:996
bbs论坛源码java 发布:2025-08-23 04:39:21 浏览:636
如斯脚本 发布:2025-08-23 04:34:52 浏览:593
c语言等腰三角形 发布:2025-08-23 04:31:17 浏览:578
氦气压缩 发布:2025-08-23 04:28:20 浏览:257
android生成随机数 发布:2025-08-23 04:27:36 浏览:752