提升度演算法
㈠ 個性化推薦演算法的四大策略02
在復雜的推薦系統中,推薦演算法作為其最核心、最關鍵的部分,很大程度上決定了推薦系統性能的好壞,且重點體現在數據決策層。
在個性化推薦系統中,簡單推薦策略主要分為:基於熱門推薦推薦、基於基本信息推薦、基於內容推薦、基於關聯規則推薦。
熱門推薦,顧名思義就是使用統計的方法將最熱門的物品進行推薦,越熱門的物品被點擊的可能性越大。
基於基本信息推薦是根據用戶的基本信息如:領域、職位、工作年齡、性別和所在地等給用戶推薦感興趣或者相關的內容,比如年齡-關聯電影表、收入-關聯商品類型表,性別-文章關聯表等等。
因為基於熱門推薦與基於基本信息推薦使用比較簡單,所以這兩個推薦策略應用比較廣泛。
基於內容推薦是指(Content Based Recommandation)利用用戶和物品的相關信息,例如前述用戶和物品畫像信息及用戶對物品的行為構建的模型,例如瀏覽、點擊、打電話、收藏、評論、下單等。內容推薦演算法根據用戶行為推斷用戶偏好,並為用戶推薦相同偏好的物品。
基於內容推薦的計算過程一般分為四個步驟:
由這些共性屬性查找其他物品,並實施推薦。
基於關聯規則推薦(Association Rules)是通過數據挖掘的方法找到物品之間的相關關系,再進行標簽推薦,比如大家所熟知的「啤酒」和「尿布」,就是某超市工作人員通過對顧客的購物清單進行分析後,才發現了啤酒和尿布之間的共現關系。
而衡量物品之間的關聯性時,主要看支持度、置信度和提升度這三大指標。
支持度表示 AB 共現情況占所有情況的比例,則有表達式 Support(A->B)=P(A&B),它往往用來評估搜索詞當中該詞出現的概率。
置信度表示 AB 共現情況占 A 情況的比例,其表達式為 Confidence(A->B)=P(A&B)/P(A)。
提升度表示以 A 為前提下 B 出現的情況與 B 情況的比例,表達式為 Lift(A->B)=P(B|A)/P(B) ,它往往用來評估推薦效果。
在計算 Lift(A->B) 時,主要出現以下三種情況:
Lift(A->B)>1 時,說明搜索 A 時推薦 B 比直接推薦 B 的效果更好
Lift(A->B)=1 時,說明搜索 A 和搜素 B 屬於獨立事件,二者沒什麼關系
Lift(A->B)<1 時,說明搜索 A 和搜索 B 負相關,搜索 A 還不如不去推薦 B。
㈡ 關聯規則-演算法原理與案例
✓ 關聯規則(Association Rules)反映一個事務與其他事務之間的相
互依存性和關聯性。如果兩個或者多個事務之間存在一定的關聯關
系,那麼,其中一個事務就能夠通過其他事務預測到。
✓ 關聯規則是無監督的機器學習方法,用於知識發現,而非預測
✓ 關聯規則的學習器(learner)無需事先對訓練數據進行打標簽,因
為無監督學習沒有訓練這個步驟。缺點是很難對關聯規則學習器進
行模型評估,一般都可以通過業務經驗觀測結果是否合理
關聯規則之前,需要理解一些基本概念。
下圖數據集中,每一組數據ti表示不同的顧客一次在商場購買的商品
的集合,以該數據為例來說明關聯規則相關概念。
圖片顯示, 表中存儲著二維結構的記錄集,記為D,簡稱事務集D,含事務的個數稱為|D|。那麼圖片中從t1,t2,......直到t7含7個事務,|D|=7。
設I={i1,i2,…im}是m個不同項目的集合,每個ik(k=1,2,…m)稱為一個項目(Item),I是所有項目(Item)的集合,稱為所有項集(Items)。圖片中所有項集I={牛肉,雞肉,牛奶,乳酪,靴子,衣服},其中,「牛 肉」、「雞肉」等均為項目。
在事務數據集里的一筆記錄,記為事務T,{牛肉、雞肉、牛奶}便是一個事務,每個事務T(Transaction)是所有項集I的一個子集。
項目的集合簡稱為項集(Itemset),其元素個數為項集的長度,長度為k的項集稱為k-項集(k-Itemset)。
如{牛肉}、{雞肉}均為1-項集,{牛肉、乳酪}為2-項集,{雞肉、衣 服、牛奶}為3-項集。
重點概念5-項集的支持度:項集支持度用於描述X的重要性,對於項集X,count為事務集D中包含X的事務的數量,項集X的支持度就是項集X出現的概率。
項集的支持度就是該項集出現的次數除以總的記錄數,例如,上述的7個事務中,{牛肉、雞肉}出現的次數是3次,支持度就是3/7 。
我們在發現規則的時候,希望關注頻次高的項集,發現關聯規則要求項集必須滿足的最小支持閾值,稱為項集的最小支持度(Minimum Support),記為supmin。支持度大於或等於最小支持度的項集稱為頻繁項集,簡稱頻繁集,反之則稱為非頻繁集。支持度在這個演算法中通常是人為規定的參數。
規則R的支持度是交易集中同時包含X和Y的交易數與所有交易數之比;
支持度計算在事務集中,既有A又有B的概率。
例:在7條記錄中,既有牛肉又有雞肉的記錄有3條,則 R:牛肉 雞肉的支持度為3/7,即 ,表示在所有顧客當中有3/7同時購買了牛肉和雞肉,其反映了同時購買牛肉和雞肉的顧客在所有顧客當中的覆蓋范圍。
規則R的置信度是指包含X和Y的交易數與包含X的交易數之比。
規則的置信度的意義在於項集{X,Y}同時出現的次數占項集{X}出現次數的比例,即發生X的條件下,又發生Y的概率。
關聯規則的最小支持度也就是衡量頻繁集的最小支持度(Minimum
Support),記為supmin,它用於衡量規則需要滿足的最低重要性。
Minimum Support是一個閾值參數,必須在處理關聯規則之前指定該
參數。該參數表示用戶對某些項集和規則感興趣,這些規則表示數
據集的最低支持度。它是用於對項集進行限制,而不是對規則進行
限制。
✓ 如果關聯規則R: A→B滿足Support(A→B )>=supmin 且
Confidence( A→B )>=confmin,則稱關聯規則R: 為強關聯規則,否
則稱關聯規則為弱關聯規則;
✓ 在挖掘關聯規則時,產生的關聯規則要經過supmin和confmin的衡量,
篩選出來的強關聯規則才能用於指導商家的決策;
引入例題來計算這個概念,例:在所分析的10000個事務中,6000個事務包含計算機游戲,7500包含游戲機游戲,4000個事務同時包含兩者。
下面我們計算:關聯規則(計算機游戲 → 游戲機游戲)支持度=4000/10000=0.4,置信度=4000/6000=0.67,但其實這個關聯規則是一個誤導。
在用戶購買了計算機游戲後有(4000/6000)=0.667的概率去購買游戲機游戲,而在沒有任何前提條件下,用戶反而有(7500/10000) =0.75的概率去購買游戲機游戲,也就是說設置了購買計算機游戲這樣的條件反而會降低用戶去購買游戲機游戲的概率,所以計算機游戲和游戲機游戲是相斥的。
此時需要引入提升度的概念。
如果兩個條件相互獨立,則P(XY)=P(X)· P(Y),即提升度為1;如果小於1,說明使用這條規則來進行推薦,還不如不推薦(推薦無效);
一般在數據挖掘中當提升度大於3時,我們才承認挖掘出的關聯規則是有價值的。
上述例子中,假設購買計算機游戲為X,購買游戲機游戲為Y,則有提升度數=0.667/0.75<1
這表明這樣的推薦是無效的,提升度小於1,還不如不推薦。
第一步,生成候選項集,然後根據指定的最小支持度,過濾掉非頻繁項集,生成頻繁項集。
該步驟需要多次遍歷:第一次遍歷,對所有單項的支持度進行計數並確定頻繁項;在後續的每次遍歷中,利用上一次遍歷所得頻繁項集作為種子項集,產生新的頻繁項集-候選項集,並對候選項集的支持度進行計數,在本次遍歷結束時統計滿足最小支持度的候選項集,本次遍歷對應的頻繁項集就算是確定了,這些頻繁項集又成為下一次遍歷的種子;重復此遍歷過程,直到再不能發現新的頻繁項集。
第二步,找出第一步的頻繁項集中的規則,然後根據指定的最小置信度,過濾掉弱規則。第一步的計算量比第二步的計算量大。
步驟1:
✓ 生成候選1-項集C1,計算支持度
✓ 根據最小支持度,生成頻繁1-項集L1
步驟2:
✓ 生成候選2-項集C2,計算支持度
✓ 根據最小支持度,生成頻繁2-項集L2
✓ 生成關聯規則時,最簡單的方法就是對於每個頻繁項集,列出其所有非空
真子集,任取其中兩個分別作為LHS和RHS,形成關聯規則,並計算每條關
聯規則的置信度,刪除弱規則
✓ 上例中 , 對於頻繁項集 {B,C,E} , 它的非空子集有 {B},{C},{E},
{B,C},{B,E},{C,E}。據此獲得的關聯規則及其置信度,置信度>=50%(最小
置信度),都是強關聯規則
✓ Apriori原理可以幫助減少計算量
✓ Apriori原理:某個項集是頻繁的,那麼它的所有子集也是頻繁的;
更常用的是它的逆否命題,即如果一個項集是非頻繁的,那麼它的
所有超集也是非頻繁的(稱為項集的反單調性,向下閉合性)
已知陰影項集{2,3}是非頻繁的。利用Apriori原理,我們知道項集{0,2,3}, {1,2,3}以及{0,1,2,3}也是非頻繁的。也就是說,一旦計算出了{2,3}的支持 度 , 知 道 它 是 非 頻 繁 的 , 就 可 以 緊 接 著 排 除 {0,2,3} , {1,2,3} 和 {0,1,2,3}。
✓ 反單調性能迅速剪枝,提高搜索頻繁項集的處理效率
在商品列表中找出頻繁項集,構建商品列表。
創建模型,傳入數據,輸出的support就是支持度。
該段輸出結果如下
接下來可以篩選支持度大於某特定值的二項集
輸出結果
㈢ 電梯提升高度如何計演算法
提升高度就是從最底層到最頂層的一個提升高度,也就是從最底層的電梯地砍到最頂層的電梯地砍之間的一個距離。 電梯地坑深度就是從最底層地砍面到底坑地面之間一個垂直間距 頂層空間高度就是從最頂層廳門地砍面到井道頂面之間的一個垂直間距。
如果採用螺桿式電梯,一般提升高度在13米以內,迅立達電梯採用曳引式驅動電梯其安全性與穩定性更高,採用這種驅動方式的家用電梯提升高度可以做到18米,一般的6層別墅和高層復式樓都可以安裝。
(3)提升度演算法擴展閱讀
北極星水力發電網訊:2018年1月11日,世界提升最高的升船機,向家壩升船機進實船過機預演圓滿成功,為即將進行的實船試驗提供了有力保證,
同時也證明了向家壩升船機製造、安裝、調試質量的優良,預示向家壩水電站的通航已進入倒計時。向家壩升船機進實船過機預演由武漢船舶工業公司、三峽集團升船機部、向家壩電廠聯合進行。
㈣ 數據挖掘中提升度是什麼意思
採用數據挖掘方法作分析後,對於問題(客戶識別等)判斷效率的提升幅度。
如,貸款客戶的違約率為2%,你用數據挖掘方法建立了一個預測貸款客戶將來違約可能性的模型,用這個模型將客戶進行評分後,違約可能性最高的10%的客戶中,實際違約客戶佔了50%,說明你所建立的模型對於這一部分客戶識別的提升率是25(50%是2%的25倍),你只要做好這10%的客戶的貸後管理,就能夠避免50%違約客戶的損失,比起你毫無目的地對所有貸款客戶進行貸後管理效率要高得多。
㈤ 誰能告訴我『提升度』的准確含義及計算方法
用完成的數減原完成的數
如120-50=70
再用原完成的數除以多出來的數乘上100%
如50/70*100%=71%
㈥ 單一決策樹 隨機森林和梯度提升演算法的區別
其實,在計算量方面,兩者有很大的不同,因而在面對給定的問題時,可以有選擇性的根據問題的性質選擇兩種方法中的一個. 具體來說,最 小二乘法的矩陣公式是 ,這里的 A 是一個矩陣,b 是一個向量.如果有離散數據點,,而想要擬合的方程又大致形如 ,那麼,A 就是一個 的矩陣,第 i 行的數據點分別是 ,而 b 則是一個向量,其值為 .而又已知,計算一個矩陣的逆是相當耗費時間的,而且求逆也會存在數值不穩定的情況 (比如對希爾伯特矩陣求逆就幾乎是不可能的).因而這樣的計算方法有時不值得提倡. 相比之下,梯度下降法雖然有一些弊端,迭代的次數可能也比較高,但是相對來說計算量並不是特別大.而且,在最小二乘法這個問題上,收斂性有保證.故在大數據量的時候,反而是梯度下降法 (其實應該是其他一些更好的迭代方法) 更加值得被使用. 當然,其實梯度下降法還有別的其他用處,比如其他找極值問題.另外,牛頓法也是一種不錯的方法,迭代收斂速度快於梯度下降法,只是計算代價也比較高.