敏感词过滤算法
Ⅰ 微软小冰什么原理
作者:梁川
链接:http://www.hu.com/question/23952075/answer/26243159
来源:知乎
着作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
刚好做过一个类似的产品,虽然没有那么高大上,但一些核心技术原理应该也参考意义,说一下做的思路。
类似小冰这样的产品说简单也简单,说复杂也复杂。单纯从外面看你会觉得小冰与去年人人网上流行的小黄鸡类似,但在技术实现上有本质的差异。
此类应用的大致流程都是:用户输入一段话(不一定只是单词)->后端语义引擎对用户输入的语句进行语义解析->推断用户最可能的意图->调用对应的知识库、应用、计算引擎->返回结果给用户。
1、最初级的实现方法:关键词匹配
建一个关键词词库,对用户输入的语句进行关键词匹配,然后调用对应的知识库。
此种方式入门门槛很低,基本上是个程序员都能实现,例如现在微信公众平台的智能回复、诸多网站的敏感词过滤就是此类。
但此种方式存在诸多问题,例如:
a、由于是关键词匹配,如果用户输入的语句中出现多个关键词,此时由于涉及关键词权重(与知识库的关键词对比)等等问题,此时关键词匹配的方法就不擅长了
b、不存在对用户输入语句语义的理解,导致会出现答非所问的现象。当然在产品上对回答不上的问题就采用卖萌的方式来规避掉。
c、基本上无自学习能力,规则只能完全由人工维护,且规则基本是固定死的。
d、性能、扩展性较差。还是上面的一句话中包含多个关键词的例子,采用普通程序语言来做关键词匹配,性能奇差。即便采用一些文本处理的算法来做(例如Double-array trie tree),也很难满足大规模场景需求。
2、稍微高级点的实现方法:基于搜索引擎、文本挖掘、自然语言处理(NLP)等技术来实现
相对于1的关键词匹配,此种实现方法要解决的核心的问题可以大致理解为:根据一段短文本(例如用户问的一句话)的语义,推测出用户最可能的意图,然后从海量知识库内容中找出相似度最高的结果。
具体技术实现就不细说了。举一个很粗糙的例子来简单说一下此种实现方法处理的思路(不严谨,只是为了说明思路)。
假如用户问:北京后天的温度是多少度?
如果采用纯搜索引擎的思路(基于文本挖掘、NLP的思路不尽相同,但可参考此思路),此时实际流程上分成几步处理:
1、对输入语句分词,得到北京、后天、温度3个关键词。分词时候利用了预先建好的行业词库,“北京”符合预先建好的城市库、“后天”符合日期库、“温度”符合气象库
2、将上述分词结果与规则库按照一定算法做匹配,得出匹配度最高的规则。假定在规则库中有一条天气的规则:城市库+日期库+气象库,从而大致可以推测用户可能想问某个地方某天的天气。
3、对语义做具体解析,知道城市是北京,日期是后天,要获取的知识是天气预报
4、调用第三方的天气接口,例如中国天气网-专业天气预报、气象服务门户 的数据
5、将结果返回给用户
以上例子其实很粗糙,实际上还有诸多问题没提到:语义上下文、语义规则的优先级等等。
例如用户上一句问:北京后天的温度是多少度?下一句问:后天的空气质量呢?这里实际上还涉及语义上下文、用户历史喜好数据等等诸多问题。
此种处理方法存在的最大问题:规则库还主要依赖于人工的建立,虽然有一定的学习能力,但自我学习能力还是较弱。可以借助一些训练算法来完善规则,但效果并不是很好。而这也是目前流行的深度挖掘技术所擅长的。
3、当下时髦且高级的玩法:基于深度挖掘、大数据技术来实现
这是cornata、google now等后端的支撑技术,至于小冰,感觉应该是以2为主+部分领域知识的深度挖掘。
Ⅱ 公众号文章违规检测的工具有哪些
我现在在用的是西瓜助手,里面有文章违规检测工具,我觉得还不错,直接拿文章链接进去检测就可以了,如果文章有违规的话,马上就可以检测出来,及时删除可以避免公众号被封。
Ⅲ 句易网敏感词过滤教程是怎么样的
这个文案过滤平台筛选敏感词都是实时更新,只要搜索,你就可以准确地审核,整个效率也很高,文本的用户优化,融合你整个的语义去检测,更好的检测出敏感词,让大家的文案都可以更加的安全,软件内的数据样板都是根据大数据来的,整体都是非常的高效率的。
营销推广文案模板也很齐全,不需要充钱也没有门槛限制,多少次都免费,非常方便,新手也可以理解。
有了这个,用户在发布复制时,可以非常方便,直接拷贝在过滤栏,所有敏感词、禁用词都会按字识别,操作不难,可以点击界面直接使用,方便易用。使用过它的抖音用户不再需要担心因为抖音敏感词而被禁。识别优化的文案资源可以。
Ⅳ 名词解释 算法
算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。
Ⅳ 腾讯企业邮箱发送邮件总是为垃圾邮件
摘要 避免邮件被当作垃圾邮件的几点方法
Ⅵ 京东聊天敏感词检测一般多久
5到7天。
京东聊天敏感词检测一般是5到7天。而且大部分客服聊天中也不知道自己是否发违规词了,多注意下就行了。
敏感词汇,有时叫非法字符、过滤词.简单的简单的说就是不符合审核原则的字符。
Ⅶ 微博敏感词汇有哪些
智能过滤敏感词汇是构建敏感词库后,通过算法来遍历文本,并与敏感词树匹配,进而达到识别并过滤敏感词汇的作用。目前网易易盾基于海量样本数据和第三代内容安全技术,智能策略定制,高效过滤色情、广告、涉政、暴恐等多类敏感词和违禁变种。
也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词,例如很多电子商务网站会将一些涉及侵犯知识产权,不宜销售的商品。
古代讳词:
在中国古代,人们往往会碰到“讳词”,多是因为不能直呼皇帝、长辈的名字,要用另一个词替代。后来也有“雅称”,比如上厕所叫去一号,或者上卫生间、洗手,不能直接说小便大便。说到这里,也有个笑话。
去过越南的人都知道,越南人说“再见”的发音就是TamBiet,跟中国人说“大便”是一样的,所以在越南旅游时中国人到处能听到“大便大便”,这个发音在越南一点也没有不雅的感觉。
以上内容参考:网络-敏感词
Ⅷ 网络直播弹幕过滤目的
网络直播弹幕过滤目的是提高直播间弹幕质量,达到提高直播观看体验的目的。直播弹幕本身具有数量庞大、实时性、隐蔽性、文本的不规范性等固有特点,违规弹幕的处理增加了难度。
敏感词拦截。目前几乎所有的直播平台都有自己的敏感词库,系统自动通过敏感词匹配达到拦截违规弹幕的目的。词库过滤。弹幕中有时还充斥着大量毫无意义的特殊字符,通过过滤词库能够将弹幕中匹配的字符过滤掉,留下有实质意义的文字。
按用户屏蔽弹幕。系统对黑名单用户弹幕全部屏蔽的做法也是直播平台弹幕过滤较常用的做法,甚至有的会有用户禁言黑名单。规则引擎。规则匹配相对关键词来说,更具精确性,可以达到更加细化的匹配效果。
文本挖掘、语义分析。随着数据挖掘的迅速发展,文本挖掘也开始逐渐应用到数据推荐、垃圾信息处理中。
Ⅸ QQ空间敏感词过滤标准是什么
只要涉及敏感政治历史事件,网页黄页链接,涉及长篇大论的非主流政军地缘政治私人心得,这些东西,发布在QQ空间里,都会被过滤。
担心的话可以先用微信的敏感词检测工具检测一下,或许能打开新世界。“敏感词过滤”功能支持内置敏感词词库和自定义敏感词两种过滤方式。
介绍
“敏感词过滤”是指对互联网发布的言论和文章中含有的敏感词进行过滤。敏感词经过在互联网的传播和扩散会影响社会的稳定和用户的使用。
云锁的“敏感词过滤”功能可以对用户post请求的内容阻止并提示,而get请求的内容则使用“*”号替代敏感词。如果网站开启GZIP时,敏感词过滤则不生效。
Ⅹ 微博图片违禁词有哪些
这个没有固定的。
一般设置政治性的都会是敏感词。智能过滤敏感词汇是构建敏感词库后,通过算法来遍历文本,并与敏感词树匹配,进而达到识别并过滤敏感词汇的作用。
于海量样本数据和第三代内容安全技术,智能策略定制,高效过滤色情、广告、涉政、暴恐等多类敏感词和违禁变种。