敏感詞過濾演算法
Ⅰ 微軟小冰什麼原理
作者:梁川
鏈接:http://www.hu.com/question/23952075/answer/26243159
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。
剛好做過一個類似的產品,雖然沒有那麼高大上,但一些核心技術原理應該也參考意義,說一下做的思路。
類似小冰這樣的產品說簡單也簡單,說復雜也復雜。單純從外面看你會覺得小冰與去年人人網上流行的小黃雞類似,但在技術實現上有本質的差異。
此類應用的大致流程都是:用戶輸入一段話(不一定只是單詞)->後端語義引擎對用戶輸入的語句進行語義解析->推斷用戶最可能的意圖->調用對應的知識庫、應用、計算引擎->返回結果給用戶。
1、最初級的實現方法:關鍵詞匹配
建一個關鍵詞詞庫,對用戶輸入的語句進行關鍵詞匹配,然後調用對應的知識庫。
此種方式入門門檻很低,基本上是個程序員都能實現,例如現在微信公眾平台的智能回復、諸多網站的敏感詞過濾就是此類。
但此種方式存在諸多問題,例如:
a、由於是關鍵詞匹配,如果用戶輸入的語句中出現多個關鍵詞,此時由於涉及關鍵詞權重(與知識庫的關鍵詞對比)等等問題,此時關鍵詞匹配的方法就不擅長了
b、不存在對用戶輸入語句語義的理解,導致會出現答非所問的現象。當然在產品上對回答不上的問題就採用賣萌的方式來規避掉。
c、基本上無自學習能力,規則只能完全由人工維護,且規則基本是固定死的。
d、性能、擴展性較差。還是上面的一句話中包含多個關鍵詞的例子,採用普通程序語言來做關鍵詞匹配,性能奇差。即便採用一些文本處理的演算法來做(例如Double-array trie tree),也很難滿足大規模場景需求。
2、稍微高級點的實現方法:基於搜索引擎、文本挖掘、自然語言處理(NLP)等技術來實現
相對於1的關鍵詞匹配,此種實現方法要解決的核心的問題可以大致理解為:根據一段短文本(例如用戶問的一句話)的語義,推測出用戶最可能的意圖,然後從海量知識庫內容中找出相似度最高的結果。
具體技術實現就不細說了。舉一個很粗糙的例子來簡單說一下此種實現方法處理的思路(不嚴謹,只是為了說明思路)。
假如用戶問:北京後天的溫度是多少度?
如果採用純搜索引擎的思路(基於文本挖掘、NLP的思路不盡相同,但可參考此思路),此時實際流程上分成幾步處理:
1、對輸入語句分詞,得到北京、後天、溫度3個關鍵詞。分詞時候利用了預先建好的行業詞庫,「北京」符合預先建好的城市庫、「後天」符合日期庫、「溫度」符合氣象庫
2、將上述分詞結果與規則庫按照一定演算法做匹配,得出匹配度最高的規則。假定在規則庫中有一條天氣的規則:城市庫+日期庫+氣象庫,從而大致可以推測用戶可能想問某個地方某天的天氣。
3、對語義做具體解析,知道城市是北京,日期是後天,要獲取的知識是天氣預報
4、調用第三方的天氣介面,例如中國天氣網-專業天氣預報、氣象服務門戶 的數據
5、將結果返回給用戶
以上例子其實很粗糙,實際上還有諸多問題沒提到:語義上下文、語義規則的優先順序等等。
例如用戶上一句問:北京後天的溫度是多少度?下一句問:後天的空氣質量呢?這里實際上還涉及語義上下文、用戶歷史喜好數據等等諸多問題。
此種處理方法存在的最大問題:規則庫還主要依賴於人工的建立,雖然有一定的學習能力,但自我學習能力還是較弱。可以藉助一些訓練演算法來完善規則,但效果並不是很好。而這也是目前流行的深度挖掘技術所擅長的。
3、當下時髦且高級的玩法:基於深度挖掘、大數據技術來實現
這是cornata、google now等後端的支撐技術,至於小冰,感覺應該是以2為主+部分領域知識的深度挖掘。
Ⅱ 公眾號文章違規檢測的工具有哪些
我現在在用的是西瓜助手,裡面有文章違規檢測工具,我覺得還不錯,直接拿文章鏈接進去檢測就可以了,如果文章有違規的話,馬上就可以檢測出來,及時刪除可以避免公眾號被封。
Ⅲ 句易網敏感詞過濾教程是怎麼樣的
這個文案過濾平台篩選敏感詞都是實時更新,只要搜索,你就可以准確地審核,整個效率也很高,文本的用戶優化,融合你整個的語義去檢測,更好的檢測出敏感詞,讓大家的文案都可以更加的安全,軟體內的數據樣板都是根據大數據來的,整體都是非常的高效率的。
營銷推廣文案模板也很齊全,不需要充錢也沒有門檻限制,多少次都免費,非常方便,新手也可以理解。
有了這個,用戶在發布復制時,可以非常方便,直接拷貝在過濾欄,所有敏感詞、禁用詞都會按字識別,操作不難,可以點擊界面直接使用,方便易用。使用過它的抖音用戶不再需要擔心因為抖音敏感詞而被禁。識別優化的文案資源可以。
Ⅳ 名詞解釋 演算法
演算法(Algorithm)是指解題方案的准確而完整的描述,是一系列解決問題的清晰指令,演算法代表著用系統的方法描述解決問題的策略機制。也就是說,能夠對一定規范的輸入,在有限時間內獲得所要求的輸出。如果一個演算法有缺陷,或不適合於某個問題,執行這個演算法將不會解決這個問題。不同的演算法可能用不同的時間、空間或效率來完成同樣的任務。一個演算法的優劣可以用空間復雜度與時間復雜度來衡量。
Ⅳ 騰訊企業郵箱發送郵件總是為垃圾郵件
摘要 避免郵件被當作垃圾郵件的幾點方法
Ⅵ 京東聊天敏感詞檢測一般多久
5到7天。
京東聊天敏感詞檢測一般是5到7天。而且大部分客服聊天中也不知道自己是否發違規詞了,多注意下就行了。
敏感詞彙,有時叫非法字元、過濾詞.簡單的簡單的說就是不符合審核原則的字元。
Ⅶ 微博敏感詞彙有哪些
智能過濾敏感詞彙是構建敏感詞庫後,通過演算法來遍歷文本,並與敏感詞樹匹配,進而達到識別並過濾敏感詞彙的作用。目前網易易盾基於海量樣本數據和第三代內容安全技術,智能策略定製,高效過濾色情、廣告、涉政、暴恐等多類敏感詞和違禁變種。
也有一些網站根據自身實際情況,設定一些只適用於本網站的特殊敏感詞,例如很多電子商務網站會將一些涉及侵犯知識產權,不宜銷售的商品。
古代諱詞:
在中國古代,人們往往會碰到「諱詞」,多是因為不能直呼皇帝、長輩的名字,要用另一個詞替代。後來也有「雅稱」,比如上廁所叫去一號,或者上衛生間、洗手,不能直接說小便大便。說到這里,也有個笑話。
去過越南的人都知道,越南人說「再見」的發音就是TamBiet,跟中國人說「大便」是一樣的,所以在越南旅遊時中國人到處能聽到「大便大便」,這個發音在越南一點也沒有不雅的感覺。
以上內容參考:網路-敏感詞
Ⅷ 網路直播彈幕過濾目的
網路直播彈幕過濾目的是提高直播間彈幕質量,達到提高直播觀看體驗的目的。直播彈幕本身具有數量龐大、實時性、隱蔽性、文本的不規范性等固有特點,違規彈幕的處理增加了難度。
敏感詞攔截。目前幾乎所有的直播平台都有自己的敏感詞庫,系統自動通過敏感詞匹配達到攔截違規彈幕的目的。詞庫過濾。彈幕中有時還充斥著大量毫無意義的特殊字元,通過過濾詞庫能夠將彈幕中匹配的字元過濾掉,留下有實質意義的文字。
按用戶屏蔽彈幕。系統對黑名單用戶彈幕全部屏蔽的做法也是直播平台彈幕過濾較常用的做法,甚至有的會有用戶禁言黑名單。規則引擎。規則匹配相對關鍵詞來說,更具精確性,可以達到更加細化的匹配效果。
文本挖掘、語義分析。隨著數據挖掘的迅速發展,文本挖掘也開始逐漸應用到數據推薦、垃圾信息處理中。
Ⅸ QQ空間敏感詞過濾標準是什麼
只要涉及敏感政治歷史事件,網頁黃頁鏈接,涉及長篇大論的非主流政軍地緣政治私人心得,這些東西,發布在QQ空間里,都會被過濾。
擔心的話可以先用微信的敏感詞檢測工具檢測一下,或許能打開新世界。「敏感詞過濾」功能支持內置敏感詞詞庫和自定義敏感詞兩種過濾方式。
介紹
「敏感詞過濾」是指對互聯網發布的言論和文章中含有的敏感詞進行過濾。敏感詞經過在互聯網的傳播和擴散會影響社會的穩定和用戶的使用。
雲鎖的「敏感詞過濾」功能可以對用戶post請求的內容阻止並提示,而get請求的內容則使用「*」號替代敏感詞。如果網站開啟GZIP時,敏感詞過濾則不生效。
Ⅹ 微博圖片違禁詞有哪些
這個沒有固定的。
一般設置政治性的都會是敏感詞。智能過濾敏感詞彙是構建敏感詞庫後,通過演算法來遍歷文本,並與敏感詞樹匹配,進而達到識別並過濾敏感詞彙的作用。
於海量樣本數據和第三代內容安全技術,智能策略定製,高效過濾色情、廣告、涉政、暴恐等多類敏感詞和違禁變種。