匹配推薦演算法
㈠ 3分鍾輕鬆了解個性化推薦演算法
推薦這種體驗除了電商網站,還有新聞推薦、電台音樂推薦、搜索相關內容及廣告推薦,基於數據的個性化推薦也越來越普遍了。今天就針對場景來說說這些不同的個性化推薦演算法吧。
說個性化之前,先提一下非個性化。 非個性化的推薦也是很常見的,畢竟人嘛都有從眾心理,總想知道大家都在看什麼。非個性化推薦的方式主要就是以比較單一的維度加上半衰期去看全局排名,比如,30天內點擊排名,一周熱門排名。
但是只靠非個性化推薦有個弊端,就是馬太效應,點的人越多的,經過推薦點得人有更多。。。強者越強,弱者機會越少就越弱,可能導致兩級分化嚴重,一些比較優質素材就被埋沒了。
所以,為了解決一部分馬太效應的問題,也主要是順應數據化和自動化的模式,就需要增加個性化的推薦(可算說到正題了。。。)個性化的優點是不僅體驗好,而且也大大增加了效率,讓你更快找到你感興趣的東西。YouTube也曾做過實驗測試個性化和非個性化的效果,最終結果顯示個性化推薦的點擊率是同期熱門視頻的兩倍。
1.新聞、視頻、資訊和電台(基於內容推薦)
一般來說,如果是推薦資訊類的都會採用基於內容的推薦,甚至早期的郵件過濾也採用這種方式。
基於內容的推薦方法就是根據用戶過去的行為記錄來向用戶推薦相似額推薦品。簡單來說就是你常常瀏覽科技新聞,那就更多的給你推薦科技類的新聞。
復雜來說,根據行為設計權重,根據不同維度屬性區分推薦品都是麻煩的事,常用的判斷用戶可能會喜歡推薦品程度的餘弦向量公式長這樣,我就不解釋了(已經勾起了我關於高數不好的回憶)。。。
但是,這種演算法缺點是由於內容高度匹配,導致推薦結果的驚喜度較差,而且有冷啟動的問題,對新用戶不能提供可靠的推薦結果。並且,只有維度增加才能增加推薦的精度,但是維度一旦增加計算量也成指數型增長。如果是非實體的推薦品,定義風格也不是一件容易的事,同一個作者的文風和曲風也會發生改變。
2.電商零售類(協同過濾推薦和關聯規則推薦)
說電商推薦那不可能不講到亞馬遜,傳言亞馬遜有三成的銷售額都來自個性化的商品推薦系統。實際上,我自己也常常在這里找到喜歡的書,也願意主動的去看他到底給我推薦了什麼。
一般,電商主流推薦演算法是基於一個這樣的假設,「跟你喜好相似的人喜歡的東西你也很有可能喜歡。」即協同過濾過濾演算法。主要的任務就是找出和你品味最相近的用戶,從而根據最近他的喜好預測你也可能喜歡什麼。
這種方法可以推薦一些內容上差異較大但是又是用戶感興趣的物品,很好的支持用戶發現潛在的興趣偏好。也不需要領域知識,並且隨著時間推移性能提高。但是也存在無法向新用戶推薦的問題,系統剛剛開始時推薦質可能較量差。
電商行業也常常會使用到基於關聯規則的推薦。即以關聯規則為基礎,把已購商品作為規則頭,規則體為推薦對象。比如,你購買了羽毛球拍,那我相應的會向你推薦羽毛球周邊用品。關聯規則挖掘可以發現不同商品在銷售過程中的相關性,在零售業中已經得到了成功的應用。
3.廣告行業(基於知識推薦)
自從可以瀏覽器讀取cookies,甚至獲得年齡屬性等信息,廣告的個性化投放就也可以根據不同場景使用了。
當用戶的行為數據較少時,基於知識的推薦可以幫助我們解決這類問題。用戶必須指定需求,然後系統設法給出解決方式。假設,你的廣告需要指定某地區某年齡段的投放,系統就根據這條規則進行計算。基於知識的推薦在某種程度是可以看成是一種推理技術。這種方法不需要用戶行為數據就能推薦,所以不存在冷啟動問題。推薦結果主要依賴兩種形式,基於約束推薦和基於實例推薦。
4.組合推薦
由於各種推薦方法都有優缺點,所以在實際中,並不像上文講的那樣採用單一的方法進行建模和推薦(我真的只是為了解釋清楚演算法)。。。
在組合方式上,也有多種思路:加權、變換、混合、特徵組合、層疊、特徵擴充、元級別。 並且,為了解決冷啟動的問題,還會相應的增加補足策略,比如根據用戶模型的數據,結合挖掘的各種榜單進行補足,如全局熱門、分類熱門等。 還有一些開放性的問題,比如,需不需要幫助用戶有品味的提升,引導人去更好的生活。
最後,我總想,最好的推薦效果是像一個了解你的朋友一樣跟你推薦,因為他知道你喜歡什麼,最近對什麼感興趣,也總能發現一些有趣的新東西。這讓我想到有一些朋友總會興致勃勃的過來說,嘿,給你推薦個東西,你肯定喜歡,光是聽到這句話我好像就開心起來,也許這就是我喜歡這個功能的原因。
㈡ KMP模式匹配演算法是什麼
KMP模式匹配演算法是一種改進演算法,是由D.E.Knuth、J.H.Morris和v.R.Pratt提出來的,因此人們稱它為「克努特-莫里斯-普拉特操作」,簡稱KMP演算法。此演算法可以在O(n+m)的時間數量級上完成串的模式匹配操作。其改進在於:每當一趟匹配過程出現字元不相等時,主串指針i不用回溯,而是利用已經得到的「部分匹配」結果,將模式串的指針j向右「滑動」盡可能遠的一段距離後,繼續進行比較。
1.KMP模式匹配演算法分析回顧圖4-5所示的匹配過程示例,在第三趟匹配中,當i=7、j=5字元比較不等時,又從i=4、j=1重新開始比較。然而,經仔細觀察發現,i=4和j=1、i=5和j=1以及i=6和j=1這三次比較都是不必進行的。因為從第三趟部分匹配的結果就可得出,主串中的第4、5和6個字元必然是b、c和a(即模式串第2、第2和第4個字元)。因為模式中的第一個字元是a,因此它無須再和這三個字元進行比較,而僅需將模式向右滑動2個字元的位置進行i=7、j=2時的字元比較即可。同理,在第一趟匹配中出現字元不等時,僅需將模式串向右移動兩個字元的位置繼續進行i=2、j=1時的字元比較。由此,在整個匹配過程中,i指針沒有回溯,如圖1所示。
圖1改進演算法的模式匹配過程示意
㈢ 關於對戰游戲,隊伍匹配的演算法問題。
1
ELO演算法是累積
當你贏得頂級球隊的時候,你會增加很多的ELO價值
當你失去了一個強大的團隊,你會減少少量的ELO BR />當弱隊時,你贏了,你會增加少量的ELO值
你輸給弱隊的時候,你會減少很多的ELO值
不管下降的同時,或以其他方式。該值將被計算。
例如,如果你放棄了,但到底你的球隊取得勝利,你還是會增加ELO。
匹配模式ELO隱藏
看不到
多玩盒子看戰鬥力評估,只需按照你的
行位,勝率,總場數數。 ,
僅供參考,實際的游戲戰網與ELO值相差很大。
例如,你能贏得兩強的球隊失去了一個強大的團隊,你一個實際的ELO值高
但是,如果你贏了弱和他的團隊輸給弱隊,您的實際ELO值?低
但的發揮更只有運營商,兩場比賽.500勝率的欄位數。
㈣ 推薦演算法模型原則~運營推廣
網店運營:推薦演算法建模原理。
直通車,手淘搜索,手淘首頁推薦兩個核心原則:第一,標簽匹配度高優先,第二,權重高優先。
標簽匹配,有顧客標簽和寶貝標簽,顧客標簽包括瀏覽痕跡和購買記錄,有些顧客標簽比較模糊。嬰兒標簽包括成交記錄,顧客搜索你的嬰兒然後成交,顧客標簽和搜索關鍵字給嬰兒打標簽。
先基本加權店權,再基本加權點擊率、轉化率、坑產、評價。半標品基本是銷量權重越大越好。非標品的熱度權重較高。
總之,演算法模式在淘寶上都是為了使顧客能夠快速找到他們需要的產品,並獲得滿意的產品。還能使公司利潤最大化。很多商店不能做到這一點,是因為同行競爭太激烈,功夫再高也比不上菜刀。
網店運營中,如何做好主圖和直通車圖點擊率高。
淘寶店的運作。
銷售不到300的寶貝(對標同店銷售超過10000個),最好的辦法就是搞優惠活動。
然後是銷售300以上(對標同店最高1萬以上),方法二:
淘寶店的運作。
在同類公司中研究一下銷量前10名的主圖和他們的汽車圖,看看他們的汽車圖就知道了,汽車圖很費時找,再結合他們的優勢做主圖和車圖。
叫客服統計的客戶咨問做多了有什麼問題?把客戶關心的問題列出來,製作一個表格,統計15天的數據,找出三個客戶最關心的問題,然後把客戶關心的三個問題以圖表的形式展示出來,這樣就可以消除客戶關心的三個問題。
㈤ 王者榮耀的匹配演算法是怎麼實現的
王者榮耀的匹配機制至少分為三種,分別是匹配賽匹配機制,賞金賽匹配機制,以及排位賽匹配機制。
先來說說匹配賽排位機制吧,這個匹配機制,其實參考的並不是小夥伴的段位勝率等因素,而是把小夥伴打的所有比賽以某種演算法的形式算出一個「綜合分」,這個綜合分又被叫做隱藏分數,僅最大可能代表一個人的最真實實力。所以匹配的話,青銅遇到王者也不奇怪,畢竟有人王者實力就是不喜歡打排位。
賞金賽的匹配機制採用的是一種難度遞進的機制:最通俗的說法就是像闖關一樣,一關比一關難。對於真正的大神來說可能無所謂,但對於小白來說,前後實力差距之大真不是吹的。
最後是排位賽匹配機制:單排,雙排,三排都是按照隊伍平均段位水平去匹配,五排是按照五個人中最高的段位去匹配。一般情況下,黃金雙排不會遇到鉑金玩家,除非是另外的人里有鉑金,而假設對面有三鉑金,說明你這邊至少有對應的段位。
最後,賽季初是一段很混亂的時期,既有大神掉下來的,又要渾水摸魚上來的,除非你有真大神的實力,否則不建議打排位。總體來說,只要技術過硬,上王者基本都是時間早晚的問題。
㈥ 生活中的人工智慧之搜索和推薦演算法
姓名:陳心語 學號:21009102266 書院:海棠1號書院
轉自: 人工智慧在搜索中的應用_u014033218的專欄-CSDN博客
人工智慧在搜索的應用和實踐_qq_40954115的博客-CSDN博客
【嵌牛導讀】日常生活中的搜索和推薦演算法也與人工智慧有所關聯,讓我們一起來看看吧!
【嵌牛鼻子】人工智慧運用於搜索和推薦演算法。
【嵌牛提問】人工智慧在搜索和推薦演算法中有什麼運用呢?
【嵌牛正文】
智能交互
智能交互有三個方面的這部分組成,第一個就是Query推薦,這是比較古老的課題;第二個做智能導購,這是現在正在做的一個原形,後面我會講為什麼做智能導購;第三個內容的展示和個性化的創意。就是說你把商品怎麼展示給用戶,也是我們認為是交互的一部分。
第一個是Query推薦,這個問題怎麼來抽象呢?Query推薦是一個用戶當前Query下面我們怎麼推薦其它Query,這是我們相關搜索一樣的。我們推薦這樣的一個Query以後,如果用戶一旦點了其中的一個Query,用戶的狀態就會發生變化,從當前的Query跳到另外一個Query,這是用戶狀態的變化。第二個就是說我們怎麼評價我們推薦的Query的好壞,它由幾部分組成,一個Query有沒有被點,第二個就是說推薦Query裡面,它的SRP頁會不會點,因為Query推薦本質上不是Query推薦做的最好就是最好的,它是說最終要在搜索SRP用戶有沒有買,有沒有點擊,這才是做的好的,這是第二個收益。還有一個更加間接的,通過Query推,這個狀態轉到下一個狀態以後,這個裡面還會推其它Query,還會有其它點擊,這個時候也是個間接推薦。如果我不推Query就不能到這個狀態,不到狀態不會有這個Query,不會有這個收益。我們了解,這就是典型的一個馬爾科夫決策過程,我們是用強化學習來做的,Actions就是我們的Query list,根據用戶和當前Query推薦其他Query,狀態就是User + Query,收益就是包括推薦Query擊,還有一個間接收益,間接收益通過bellman 公式可以算出來,這就是一個DQN的強化學習項目。
智能導購
現在的搜索呈現的問題就是說,如果去看搜索的Query都是一些品類詞、品牌詞、型號詞或者屬性詞。假定用戶他知道買什麼再來搜索搜,但是有各很大的東西用戶不知道買什麼嗎?智能導購就是做做一個類似智能導購機器人的產品,引導用戶怎麼搜,用戶也可以主動問,獲取知識或購物經驗。這是後台的演算法的一個原形,不久後會上線。
智能內容
因為淘寶的商品,賣家為了適應我們的引擎,做了大量的SEO,裡面都是羅列熱門的關健詞,導致問題淘寶的標題沒什麼差異,都寫的差不多,看標題也不知道什麼東西,或者知道但裡面沒有很多特色的內容。我們做智能內容很重要的出發點是怎麼從商品的評價、詳情頁、屬性裡面挖出一些比較有賣點,或者商品比較有特色的東西展示給用戶,讓用戶更好的了解商品,這是第一個。第二個淘寶上面還有類似商品聚合的,比如清單,生成一個清單,怎麼給清單生成一個比較好的導入的描述,讓用戶描述這個清單干什麼。這裡面主要做了這兩個事情。具體怎麼做的?一個會生成一些Topic,比如行業運營加上我們挖的一些點,比如像手機一般大家關注點會是手機的性價比,拍照是不是清晰,還有速度是不是快,是不是發熱什麼的,這是用戶關注的興趣點。然後它會根據這個商品會選擇一個興趣點,通過Seq2seq生成短文本。
語義搜索
我們的商品屬性基本上是比較標准化的,因為這里淘寶有一個這樣的商品庫,非標准化的內容是沒法上傳的。導致的問題是我們的商品內容相對來說是比較規范化的,但是用戶的輸入的Query不是這樣的,比如我這里舉一些例子,比如一個新品有各種表達,2017新品,2017冬季新品,是吧?新品,有很多的表達。所以就是從從用戶的需求跟商品的內容,就存在了一個語義的Gap。還有我們經常舉例,比如三口之家用的電飯鍋,很多這種語義的問題,這個語義從語義角度解決語義Match的事情。
大概會有這么幾個方面。比如一個就是意圖的理解,還有意圖的Mapping,比如大容量冰箱,首先知道大的是跟冰箱的容量相關的,冰箱是個類目,最後要Mapping到人的冰箱,把『大』改寫成一個容量大於多少升,類目是冰箱這樣才能夠比較好的解決我們這個搜索的這個召回的問題。 第二個語義理解,這裡麵包括Query和商品都要做語義理解,比如通過image tagging計算從圖片裡面抽取很多文本的語義標簽補充到商品文本索引中。 第三個就是現在有這個端到端的深度學習技術來直接學Query和商品的Similarity,通過端到端的深度學習技術來做語義的召回和語義的相關性。
智能匹配
主要就是講個性化,做個性化的首要就是個性化數據。個性化本質上就是說以用戶為中心構建用戶的標簽,用戶的行為,還有用戶的偏好,再通過這些數據找到,去Match到商品,比如說你看過相似商品,典型的協同過濾,還有你偏好的品牌的其它商品。那就是基於這些經歷了一個以用戶為中心的電商圖譜,這裡面還加了一些輔助的數據,比如商品的相似度,店鋪之間的相似度,這樣構建了我們這樣的叫電商圖譜。
個性化召回與向量化召回
召回是這樣的,首先從咱們的電商圖譜里取出用戶的信息,包括比如說年齡性別,還有當地溫度是多少,還有行為足跡等等之類的,社交現在沒用了,因為這是幾年前社交特別火,什麼都要摻和一下,其實社交,信息的社交到電商其實風馬牛不相及的領域,沒有任何價值。所以現在好友這東西幾乎沒有用。因為不同Query中,用戶信息重要性是不一樣的,我們根據上下文會做用戶信息的篩選或者排序,會找出比較重要的信息做個性化召回。以上是淘寶商品索引結構,傳統的搜索關鍵字是通過搜索關鍵字召回,而個性化商品索引,除了Query還會有商品簇,簇與簇之間的關系,品牌店鋪等等之類的,會加很多個性化的特徵做召回,通過這種帶的好處是召回的結果跟用戶是直接相關的,就召回這一步帶來個性化。
但是這種基於行為召回還是存在一個問題的。最重要的問題它的泛化能力會比較差。最典型的比如說你通過協同過濾來做,如果兩個商品,沒有用戶同時看過的話,這兩個商品你認為他們相似度是零,這個結論是錯的,但是如果通過協同過濾就有這個問題。我們今年實現了向量化召回,包括兩步:一個是Similarity learning,通過這個深度學習做端到端的Similarity learning,就會把這個我們的User 和Item會變成一個向量;第二步就是做向量化召回,比如層次聚類,隨機遊走,learning to hash等,這樣的話就是說會極大的提升召回的深度。
個性化工作
在個性化領域其實最重要的一個核心的問題就是怎麼去理解用戶,怎麼感知用戶和預測用戶行為及偏好。
首先是數據,用戶在淘寶有兩個中類型重要的基本信息:一個是用戶標簽,比如年齡、性別、職業等;第二是用戶足跡,比如 點過,買過的商品,店鋪等;
其次是用戶感知要和搜索上下文相關,即這個用戶的表徵和要用戶搜索意圖相關;
第三是搜索有很多差異化的任務,比如用戶消費能力的預估, User到Item的CTR預估和用戶購物狀態預估等,是為每個任務做個端到端的深度學習模型還是用統一的用戶表徵來完成不同的Task?如果每一個任務都做端到端深度學習會有很多問題,比如離線和在線的性能開銷會大很多,或部分任務樣本太少。
如圖是用戶感知深度模型,輸入X是用戶的點擊行為序列,下一步是embedding,embedding完以後,通過LSTM把用戶行為序列做embedding,因為在搜索用戶感知和Query相關,所以加入query 的 attention層,選擇和當前query有關系的行為,表徵完是Multi-task learning 網路。整個這個網路的參數大概有一百億個參數,我在雙11我們還實現了在線學習。
演算法包括智能交互、語義搜索、智能匹配和搜索策略四個方向。
智能交互
商品搜索就是帶交互的商品推薦,用戶通過關鍵字輸入搜索意圖,引擎返回和搜索意圖匹配的個性化推薦結果,好的交互技術能夠幫助到用戶更好的使用搜索引擎,目前搜索的交互主要是主動關鍵字輸入和關鍵字推薦,比如搜索框中的默認查詢詞和搜索結果中的文字鏈等,推薦引擎根據用戶搜索歷史、上下文、行為和狀態推薦關鍵字。和商品推薦的區別是,關鍵字推薦是搜索鏈路的中間環節,關鍵字推薦的收益除了關鍵字的點擊行為外,還需要考慮對整個購物鏈路的影響,包括在推薦關鍵字的後續行為中是否有商品點擊、加購和成交或跳轉到另外一個關鍵字的後繼行為,這是一個典型的強化學習問題,action 是推薦的關鍵字候選集合,狀態是用戶當前搜索關鍵詞、上下文等,收益是搜索引導的成交。除了被動的關鍵字推薦,我們也在思考搜索中更加主動的交互方式,能夠做到像導購員一樣的雙向互動,主動詢問用戶需求,挑選個性化的商品和給出個性化的推薦理由,目前我們已經在做智能導購和智能內容方向的技術原型及論證,智能導購在技術上主要是借鑒對話系統,通過引導用戶和引擎對話與關鍵字推薦方式互為補充,包括自然語言理解,對話策略,對話生成,知識推理、知識問答和商品搜索等模塊,功能主要包括:a. 根據用戶搜索上下文生成引導用戶主動交互的文本,比如搜索「奶粉」時,會生成「您寶寶多大?0~6個月,6個月到1歲….」引導文案,提示用戶細化搜索意圖,如果用戶輸入「3個月」後,會召回相應段位的奶粉,並在後續的搜索中會記住對話狀態「3個月」寶寶和提示用戶「以下是適合3個月寶寶的奶粉」,b. 知識導購,包含提高售前知識問答或知識提示,比如「3個月寶寶吃什麼奶粉」 回答「1段」,目前對話技術還不太成熟,尤其是在多輪對話狀態跟蹤、知識問答和自動評價幾個方面,但隨著深度學習、強化學習和生成對抗學習等技術在NLP、對話策略、閱讀理解等領域的應用,越來越多的訓練數據和應用場景,domain specific 的對話技術未來幾年應該會突飛猛進;智能內容生成,包括生成或輔助人工生成商品和清單的「賣點」,短標題和文本摘要等,讓淘寶商品表達更加個性化和多元化。
語義搜索
語義搜索主要是解決關鍵字和商品內容之間的語義鴻溝,比如搜索「2~3周歲寶寶外套」,如果按照關鍵字匹配召回結果會遠小於實際語義匹配的商品。語義搜索的范圍主要包括:a. query tagging和改寫,比如新品,年齡,尺碼,店鋪名,屬性,類目等搜索意圖識別和歸一化,query tagging模型是用的經典的序列標注模型 bi-lstm + CRF,而標簽分類(歸一化) 作為模型另外一個任務,將序列標注和分類融合在一起學習;b. query 改寫,主要是計算query之間相似度,把一個query改寫成多個語義相似的query,通常做法是先用不同改寫策略生成改寫候選query集合,比如詞替換、向量化後top k、點擊商品相似度等,然後在用ltr對後續集合排序找出合適的改寫集合,模型設計和訓練相對簡單,比較難的是如何構建高質量的訓練樣本集合,線上我們用bandit 的方法探測部分query 改寫結果的優劣,離線則用規則和生成對抗網路生成一批質量較高的樣本; c. 商品內容理解和語義標簽,通過商品圖片,詳情頁,評價和同義詞,上下位詞等給商品打標簽或擴充商品索引內容,比如用 image tagging技術生成圖片的文本標簽豐富商品內容,或者更進一步用直接用圖片向量和文本向量融合,實現富媒體的檢索和查詢;d. 語義匹配,經典的DSSM 模型技術把query 和商品變成向量,用向量內積表達語義相似度,在問答或閱讀理解中大量用到多層LSTM + attention 做語義匹配,同樣高質量樣本,特別是高質量負樣本很大程度上決定了模型的質量,我們沒有采樣效率很低的隨機負采樣,而是基於電商知識圖譜,通過生成字面相似但不相關的query及相關文檔的方法生成負樣本。從上面可以看到query tagging、query相似度、語義匹配和語義相關性是多個目標不同但關聯程度非常高的任務,下一步我們計劃用統一的語義計算框架支持不同的語義計算任務,具體包括1. 開發基於商品內容的商品表徵學習框架,為商品內容理解,內容生成,商品召回和相關性提供統一的商品表徵學習框架,重點包括商品標題,屬性,詳情頁和評價等文本信息抽取,圖像特徵抽取和多模信號融合;2. query 表徵學習框架,為query 類目預測,query改寫,query 推薦等提供統一的表徵學習框架,重點通過多個query 相似任務訓練統一的query表徵學習模型;3. 語義召回,語義相關性等業務應用模型框架。語義搜索除了增加搜索結果相關性,提升用戶體驗外,也可以一定程度上遏制淘寶商品標題堆砌熱門關鍵詞的問題。
智能匹配
這里主要是指個性化和排序。內容包括:a. ibrain (深度用戶感知網路),搜索或推薦中個性化的重點是用戶的理解與表達,基於淘寶的用戶畫像靜態特徵和用戶行為動態特徵,我們基於multi-modals learning、multi-task representation learning以及LSTM的相關技術,從海量用戶行為日誌中直接學慣用戶的通用表達,該學習方法善於「總結經驗」、「觸類旁通」,使得到的用戶表達更基礎且更全面,能夠直接用於用戶行為識別、偏好預估、個性化召回、個性化排序等任務,在搜索、推薦和廣告等個性化業務中有廣泛的應用場景,感知網路超過10B個參數,已經學習了幾千億次的用戶行為,並且會保持不間斷的增量學習越來越聰明; b. 多模學習,淘寶商品有文本、圖像、標簽、id 、品牌、類目、店鋪及統計特徵,這些特徵彼此有一定程度的冗餘和互補,我們利用多模學習通過多模聯合學習方法把多維度特徵融合在一起形成統一的商品標准,並多模聯合學習中引入self-attention實現特徵維度在不同場景下的差異,比如女裝下圖片特徵比較重要,3C下文本比較重要等;c. deepfm,相對wide & deep 模型,deepfm 增加了特徵組合能力,基於先驗知識的組合特徵能夠應用到深度學習模型中,提升模型預測精度;d. 在線深度排序模型,由於行為類型和商品重要性差異,每個樣本學習權重不同,通過樣本池對大權重樣本重復分批學習,有效的提升了模型學習穩定性,同時通過融合用戶狀態深度ltr模型實現了千人千面的排序模型學習;e. 全局排序,ltr 只對單個文檔打分然後按照ltr分數和打散規則排序,容易導致搜索結果同質化,影響總頁效率,全局排序通過已知排序結果做為上下文預測下一個位置的商品點擊概率,有效提升了總頁排序效率;f. 另外工程還實現了基於用戶和商品向量的向量召回引擎,相對倒排索引,向量化召回泛化能力更強,對語義搜索和提高個性化匹配深度是非常有價值的。以上實現了搜索從召回、排序特徵、排序模型、個性化和重排的深度學習升級,在雙11無線商品搜索中帶來超過10% (AB-Test)的搜索指標提升。
智能決策
搜索中個性化產品都是成交最大化,導致的問題是搜索結果趨同,浪費曝光,今年做的一個重要工作是利用多智能體協同學習技術,實現了搜索多個異構場景間的環境感知、場景通信、單獨決策和聯合學習,實現聯合收益最大化,而不是此消彼長,在今年雙11中聯合優化版本帶來的店鋪內和無線搜索綜合指標提升12% (AB-Test),比非聯合優化版本高3% (AB-Test)。
性能優化
在深度學習剛起步的時候,我們意識到深度模型inference 性能會是一個瓶頸,所以在這方面做了大量的調研和實驗,包括模型壓縮(剪枝),低秩分解,量化和二值網路,由於缺少相應的指令集和硬體支持,最終只在個別場景下上線,期待支持低精度矩陣計算和稀疏矩陣計算的硬體早日出現。
未來計劃
通用用戶表徵學習。前面介紹的DUPN 是一個非常不錯的用戶表徵學習模型,但基於query 的attention 只適合搜索,同時缺少基於日誌來源的attention,難以推廣到其他業務,在思考做一個能夠適合多個業務場景的用戶表徵模型,非搜索業務做些簡單fine tuning 就能取得比較好的效果;同時用戶購物偏好受季節和周期等影響,時間跨度非常大,最近K個行為序列假設太簡單,我們在思考能夠做life-long learning 的模型,能夠學慣用戶過去幾年的行為序列;搜索鏈路聯合優化。從用戶進入搜索到離開搜索鏈路中的整體優化,比如 搜索前的query 引導(底紋),搜索中的商品和內容排序,搜索後的 query推薦(錦囊)等場景;跨場景聯合優化。今年搜索內部主搜索和店鋪內搜索聯合優化取得了很好的結果,未來希望能夠拓展在更多大流量場景,提高手淘的整體購物體驗;多目標聯合優化。搜索除了成交外,還需要承擔賣家多樣性,流量公平性,流量商業化等居多平台和賣家的訴求,搜索產品中除了商品搜索外還有「穹頂」,「主題搜索」,「錦囊」,「內容搜索」等非商品搜索內容,不同搜索目標和不同內容(物種)之間的聯合優化未來很值得深挖。
㈦ 個性化推薦演算法
隨著演算法的普及,大量的產品有了個性化推薦的功能,這也成為內容類產品的標配。個性化定製化逐漸成為了互聯網思維的新補充,被提升到了越來越重要的地位。演算法推薦經過了很長一段時間的發展,才逐漸達到能給用戶驚喜的階段。比如在電商領域,推薦演算法可以挖掘用戶潛在購買需求,縮短用戶選取商品的時間,提升用戶的購物體驗;在新聞或段視頻領域,推薦演算法可以推送用戶喜歡的內容,提高用戶的閱讀效率,減少用戶選擇內容的時間,也增加了用戶在產品上的停留時長。
演算法應用階段
內容類產品發展初期,推薦演算法一般為「熱度演算法」,就是系統把熱點內容優先推薦送給用戶,完成熱點內容的高閱讀率。在積累了一定的用戶數據後,會發現用戶閱讀內容過於集中於熱點信息,長尾信息中的優質資源往往被忽略,造成資源浪費。「千人一面」的狀況已不是一個優質的解決方案,所以演算法逐漸演變為「個性化推薦」,也就是協同過濾的方法論支撐下的一種演算法。協同過濾能很好的根據用戶的喜好,推薦匹配的內容,減少資源浪費,增加用戶使用的友好體驗。真正做到「千人千面」。
推薦演算法的信息來源
第三方數據
一個新系統在初期沒有數據積累的情況下,可與第三方合作,互授部分信息共享。比如,很多系統支持微信登陸,這時候可以獲取客戶的微信信息,生活地點,部分生活習慣等。同時會獲取用戶的社交信息,共同好友越多表明圈子越相似,可以推薦更多相似的內容。
用戶行為數據
記錄用戶在系統內的使用習慣,可以准確的描述單個用戶的行為特徵,愛好特徵等有效的信息,系統根據提取出的分析結果,將內容與之匹配,完成更精準的推薦。如,某用戶經常瀏覽體育信息,系統將對應推薦更多體育相關的咨詢,省去用戶搜索篩選的時間。
基於生活習慣
基於生活習慣,生活常識的推薦,往往也可以作為內置的一個信息來源途徑。比如,外賣的app推薦用戶的餐廳,一般默認是位置優先,就近推薦,如果是快中午的時間段使用,系統默認推薦午餐,其次是晚餐。靠生活常識作出的系統演算法,可以更符合人類的習慣,給用戶更好的體驗。
熱度演算法
熱度演算法簡單的說就是把最核心的內容優先推薦,用新聞舉例,每一條新聞都具有實效性,隨著時間的推移,該條新聞的關注度降低,關注點被新的熱點新聞取代。量化以上的過程,把各個影響因素設定為變數,會得出以下的公式:
新聞熱度=初始熱度分+用戶交互熱度分-衰減熱度分
初始熱度分為新聞產生時,系統對新聞主體的預判熱度值。預判的分值一般為以下兩種模式,一種情況,按照新聞類別的不同,娛樂新聞大於財經新聞,大於國際新聞,大於文化新聞等等系統的預設,依次給出不同的初始熱度分;另一種情況,系統預置熱詞詞庫,用新聞的關鍵詞和詞庫的去匹配,匹配度高的,初始熱度分高。
用戶的交互熱度分也是一個變數,先要明確用的哪些行為會影響新聞熱度,然後對這些行為量化,加權或打分等方式。例如,網易雲音樂,用戶的聽歌,重復循環,收藏,評論,分享等行為,系統為每一種行為打分,求和後得出用戶交互的熱度分:
用戶交互熱度分=聽歌X10+循環X5+收藏X10+評論X5+分享X3
此公式還可以繼續細化,每一種操作的分值也可以作為變數,在產品前期時,傳播產品為主要任務,所以分享的加權要大一些,隨著網易雲的發展,社區的概念逐漸強化,評論區互動的加權會加大,所以評論的分值會增加,系統隨時調整分數加權,得出更准確的用戶交互的影響值。
衰減熱度分是一個隨時間變化而變化的數值,往往是一個函數的表達。用新聞舉例,新聞的熱度會隨著時間的推移而衰減,並且趨勢是越來越快,人們在接受新的熱點後,迅速忘記「舊聞」,直至熱度趨近於零。根據理論數據,構建函數,准確的表達衰減分值。
還有很多其他的影響因素,比如傳播次數,傳播層數,停留時長等等,都會影響熱度值,要想更精準的表達,就需要把涉及到的因素都作為變數,不斷完善演算法,才能更精準的完成推薦。
個性化推薦演算法
隨著用戶量的增加,產品日活的增加,用戶也不能僅限於千人一面熱點閱讀的模式中,個性化推薦在此時顯得尤為重要。個性化推薦有兩種常見的解決方案,一種是基於內容的推薦演算法,推薦內容往往是根據用戶的使用習慣得來,較為精準;另一種是基於用戶的協同推薦演算法,系統會根據以往使用內容,為用戶建模,然後根據群體中個體的使用習慣,推薦更多超預期的內容,達到預測推薦的效果。
基於內容的推薦演算法-預期內
基於內容的推薦演算法,靠收集用戶的使用習慣,進而推薦相關的內容。系統使用分詞庫匹配、關鍵詞匹配等等方式,達到內容的匹配,做到內容的精確劃分。比如,用戶瀏覽了某部科幻電影,系統就會按照該電影所對應的標簽,如科幻,然後系統推薦相同標簽的影片給用戶。
這樣的推薦方案,確定性強,推薦的內容都是根據用戶的歷史來確定,不能挖掘用戶的潛在需求。
基於用戶的協同推薦-超預期
做到精準推薦後,系統會繼續挖掘更潛在的推薦需求,給用戶超預期的推薦體驗。這就到了基於用戶協同推薦的階段。簡單的說,這種演算法是增加了用戶建模的環節,將同標簽的用戶群分,對比群體中單個個體的特徵,默認這種特徵為這類人的潛在特徵,再將此特徵內容推薦給同標簽的用戶,達到超預期的推薦效果。
比如,某用戶購買了一個蘋果手機,系統會將此用戶歸類為果粉,系統識別出很多果粉除了買蘋果的商品,還會購買小米作為備用機,這個特徵會被系統識別為潛在需求,推薦給果粉,減少果粉選擇備用機的時間。
這樣的推薦演算法,不僅能完成精準的推薦,還能給用戶小驚喜,讓系統「有溫度」。但是這樣的推薦方式,往往需要積累了大量用戶資料為基礎,才可以精確的完成。
㈧ 推薦演算法中有哪些常用排序演算法
外排序、內排序、插入類排序、直接插入排序、希爾排序、選擇類排序。
推薦演算法是計算機專業中的一種演算法,通過一些數學演算法,推測出用戶可能喜歡的東西,應用推薦演算法比較好的地方主要是網路。所謂推薦演算法就是利用用戶的一些行為,通過一些數學演算法,推測出用戶可能喜歡的東西。
在基於內容的推薦系統中,項目或對象是通過相關特徵的屬性來定義的,系統基於用戶評價對象的特徵、學慣用戶的興趣,考察用戶資料與待預測項目的匹配程度。用戶的資料模型取決於所用的學習方法,常用的有決策樹、神經網路和基於向量的表示方法等。基於內容的用戶資料需要有用戶的歷史數據,用戶資料模型可能隨著用戶的偏好改變而發生變化。
基於內容的推薦與基於人口統計學的推薦有類似的地方,只不過系統評估的中心轉到了物品本身,使用物品本身的相似度而不是用戶的相似度來進行推薦。
㈨ 圖像匹配的演算法
迄今為止,人們已經提出了各種各樣的圖像匹配演算法,但從總體上講,這些匹配演算法可以分成關系結構匹配方法、結合特定理論工具的匹配方法、基於灰度信息的匹配方法、基於亞像元匹配方法、基於內容特徵的匹配方法五大類型 基於內容特徵的匹配首先提取反映圖像重要信息的特徵,而後以這些特徵為模型進行匹配。局部特徵有點、邊緣、線條和小的區域,全局特徵包括多邊形和稱為結構的復雜的圖像內容描述。特徵提取的結果是一個含有特徵的表和對圖像的描述,每一個特徵由一組屬性表示,對屬性的進一步描述包括邊緣的定向和弧度,邊與線的長度和曲率,區域的大小等。除了局部特徵的屬性外,還用這些局部特徵之間的關系描述全局特徵,這些關系可以是幾何關系,例如兩個相鄰的三角形之間的邊,或兩個邊之間的距離可以是輻射度量關系,例如灰度值差別,或兩個相鄰區域之間的灰度值方差或拓撲關系,例如一個特徵受限於另一個特徵。人們一般提到的基於特徵的匹配絕大多數都是指基於點、線和邊緣的局部特徵匹配,而具有全局特徵的匹配實質上是我們上面提到的關系結構匹配方法。特徵是圖像內容最抽象的描述,與基於灰度的匹配方法比,特相對於幾何圖像和輻射影響來說更不易變化,但特徵提取方法的計算代價通常較,並且需要一些自由參數和事先按照經驗選取的閉值,因而不便於實時應用同時,在紋理較少的圖像區域提取的特徵的密度通常比較稀少,使局部特徵的提 取比較困難。另外,基於特徵的匹配方法的相似性度量也比較復雜,往往要以特徵屬性、啟發式方法及閉方法的結合來確定度量方法。基於圖像特徵的匹配方法可以克服利用圖像灰度信息進行匹配的缺點,由於圖像的特徵點比象素點要少很多,因而可以大大減少匹配過程的計算量同時,特徵點的匹配度量值對位置的變化比較敏感,可以大大提高匹配的精確程度而且,特徵點的提取過程可以減少雜訊的影響,對灰度變化,圖像形變以及遮擋等都有較好的適應能力。所以基於圖像特徵的匹配在實際中的應用越來越廣-泛。所使用的特徵基元有點特徵明顯點、角點、邊緣點等、邊緣線段等。