當前位置:首頁 » 操作系統 » 分期貸演算法

分期貸演算法

發布時間: 2023-05-12 16:54:21

⑴ 數據分析之風控

上世紀90年代初,以美國運通(Amarican  Express)為首的美國信用卡金融公司開始運用數據建模來提升風控能力,解決精準營銷等問題。Discover,Capital  One緊隨其後

1995年,AMEX的風控模型開始試運行,1997年風控系統正式上線,此後幾年,AMEX保持高速增長且把不良貸款降到業內最低

2008年,discover將全球數據分析中心搬到上海。從這個中心流出的風控人才,填充了中國各大互金公司

業務類型:有抵押貸(房貸車貸)、信用貸(比如宜人貸)、消費分期貸(手機家電等)、小額現金貸(500/1000/1500)等

風控涉及業務:1)數據採集:包括徵信數據,運營商數據,爬蟲,網站埋點,歷史借款數據,黑名單,第三方數據等

                 2)反欺詐引擎:主要包括反欺詐規則與反欺詐模型。

                 3)規則引擎:即常說的策略。主要通過數據分析手段統計不同欄位和各個區間的壞賬率,然後篩選得到信用較好的人群進行放款

                4)風控模型&評分卡:模型演算法之間並無顯著不同,而是根據其發生的不同時間點進蘆則蔽行劃分(貸前/貸中/貸後),即目標產生的方式不一樣。通常信貸領域都是以逾期天數來定義目標變數。A卡可以用客戶歷史逾期天數最大值,B卡可以用多期借款中逾期最大的一次。C卡因為用途不同有不同的建立方法

                5)催收:是風控的最終手段。這個環節可以產生很多對模型有幫助的數據,比如催收記錄的文字描述,觸達率,欺詐標簽等等

1)爬蟲可以爬取手機APP的信息。我們可以將手機APP分成4類:工具,社交、娛樂、金融。計算每種APP的個數,這樣就有了4個特徵

2)從運營商數據可以知道客戶打了多少電話,發了多少簡訊,用了多少流量,是否有過欠費等信息

3)徵信報告很多時候都是一個簡單的徵信分數,一般都是得分越高,客戶質量越好

4)從基本信息中獲取用戶畫像,比如從身份證中得到年齡、性別、戶籍3個特徵

黑名單的升級版本就是規則引擎。然而它是靠經驗生成的。比如保險公司可能會拒絕連續退貨5次或者退貨比例達到80%的人購買退貨險。規則通常需要投入大量的精力維護,不斷更新修改,否則會造成大量的誤判。對疑似套現金額、筆數超過一定數目,建議拒絕准入,或做重點關注。XX天內申請借貸數大於某個值,建議拒絕

比如我們可以設定一個准入規則,如職業為公務員、醫生、律師等。

還可以設置直接放款原則,比如芝麻分大於750分

目標變數如何確定:以A卡為例,主要通過roll-rate與vintage。舉個例子,我們可以定義在8個月逾期超過60天的客戶為壞客戶,8個月未逾期的為好客戶。而八個月逾期在0-60天內為不確定客戶,從樣本中排除。

1)前期准備工作:不同的模型針對不同的業務場景,在建模項目開始前需要對業務的邏輯和需求有清晰的理解

2)模型設計:包括模型的選擇(評分卡還是集成模型),單個模型還是做模型細分。是否需要做拒絕推斷,怎麼定義觀察期、表現期、好壞用戶。確定數據來源

3)數據拉取及清洗:根據觀察期和表現期的定義從數據池中取數,並進行數據清洗和穩定性驗證。數據清洗包括異常、缺失、重復。穩定性驗證主要考察變數在時間序列上的穩定性,指標有PSI,IV,平均值/方差等

4)特徵工程:主要是特徵的預處理和篩選。評分卡主要是通過IV進行篩選。另外會基於對業務的理解進行特徵構造,包括特徵交叉(兩個或以上特徵相乘盯培/相除/笛卡爾積),特徵轉換等

5)模型建立和評估:評分卡可以用邏輯回歸,只需要做二分類預測可以選擇xgb.模型建好後需要進行模型評估,計算auc,ks。並對模型做交叉驗證來評估泛化能力

6)模型上線部署:在風控後台配置模型規則,對於一些復雜的模型比如xgb,一般是將模型文件轉換為pmml格式,並封裝。在後台上傳文件與配置參數

7)模型監控:前期主要是監控模型整體與變數的穩定性。衡量標准主要是PSI(population stability  index)。其實psi 就是按分數分區間後,各個分數區間實際陪州與期望佔比的差異。如果小於10%,無需更新模型。小於25%,就需要重點關注模型了。如果大於25%就需要更新模型。計算模型psi一般用等頻,可以分10箱

1.A卡B卡C卡含義與區別 

A卡(application score card):即申請評分卡,在客戶申請處理期,預測客戶開戶後一定時期內違約拖欠的風險概率,有效的排除了信用不良客戶和非目標客戶的申請。同時對客戶進行風險定價----確定額度與利率。用到的數據主要是用戶以往的信用歷史,多頭借貸,消費記錄等信息。

B卡(behavior score   card):行為評分卡,在賬戶管理期,根據賬戶歷史上所表現出的各種行為特徵來預測該賬戶未來的信貸表現。一是防控貸中風險,二是對用戶的額度做一個調整。用到的數據主要是用戶在本平台的登錄、瀏覽、消費行為等數據。還有借還款,逾期等借貸表現數據。

C卡(collection  score  card):催收評分卡,對逾期賬戶預測催收策略反應的概率,從而採取相應的催收措施

三張卡的區別:

數據要求不同:A卡一般可做貸款0-1年的信用分析。B卡則是在申請人有了一定行為後,有了較大數據進行的分析。C卡則對數據要求更大,需加入催收後客戶反應等屬性數據

特徵不同:A卡用到的大部分是申請者的背景信息,比如客戶填寫的基本信息,以及第三方信息。而且這個模型一般也會比較謹慎。B卡利用了很多基於交易的特徵。

2.風控領域為何選擇邏輯回歸模型,有哪些局限性

1)首先是因為邏輯回歸客群變化的敏感度不如其他高復雜度模型,因此穩健性好

2)模型直觀,系數含義好闡述,易理解

缺點是容易欠擬合,准確度不是很高。另外對數據要求比較高,缺失、異常、特徵共線性都比較敏感

3.為何用IV而不是WOE篩選特徵

因為IV考慮了分組中樣本比例的影響。即使這個分組的WOE很高,但是分組的樣本佔比很小的話,最終這個特徵的預測能力可能還是很小

4.ROC與KS指標(ks在0.2-0.75,auc在0.5-0.9較好)

ROC曲線把TP,FP當作橫縱坐標,而KS曲線把TP,FP都當成是縱坐標,橫坐標是閥值。KS能找出模型中差異最大的一個分組,大於0.2即可認為有比較好的預測准確性。而ROC能反應整體區分效果

5.分箱方法與badrate單調

目前在行業里,大家用貪心演算法進行分箱的比較多,比如best_ks,卡方分箱等。badrate單調性只在連續型數值變數與有序型離散變數(如學歷/尺碼)分箱的過程中才會考慮。至於為何要考慮badrate單調性,主要是出於業務理解,比如歷史逾期越多那麼badrate越大。

6.為何不同的風控模型,一般都不會選用相同的特徵

被拒絕的人,是因為某些特徵表現差。如果用相同的特徵做重復篩選,那麼隨著時間推移,以後建模的樣本裡面就沒有這些人了。這樣特徵上的樣本分布就變了。

7.風控中用的無監督演算法有哪些

聚類演算法,基於圖的離群檢測,LOF(局部異常因子),孤立森林等

8.卡方分箱

卡方分箱是基於合並的數據離散化方法.基本思想是相鄰的區間具有類似的類分布,則將之合並.而卡方值是衡量兩個區間相似性的標准,卡方值越低越相似.當然也不可能無限合並下去,我們給它設定一個閥值.根據自由度與置信度得到.比如類別數是N,那麼自由度就是N-1.而置信度表示發生的概率。一般可以取90%。

9.best-ks分箱

與卡方分箱相反,best-ks分箱是一個逐步拆分的過程。將特徵值從小到大排序,KS最大的那個值即為切點,然後把數據分為兩部分。重復這個過程,直到箱體數達到我們的預設的閥值即可。

10.拒絕推斷(reject  inference)

申請評分卡是利用通過審核的授信客戶的歷史數據來建立模型,但是此模型會忽略原先被拒絕的這部分客群對評分卡模型的影響。需要通過拒絕推論來對模型進行修正,以便使模型更加的精確與穩定。另外,公司的規則變化也可能讓過去被拒絕的客戶現在能通過。適用於中低通過率的場景。

常用方法:硬性截斷法---先用初始模型對拒絕用戶進行打分,設置一個閥值。高於此分數標記為好用戶,反之為壞用戶。然後把標記後的拒絕用戶加入樣本中重新訓練模型。分配法---此方法適用於評分卡。將樣本根據評分高低進行分組,並計算各組的違約率。然後對拒絕用戶進行打分並按照之前的方法分組,以各組的違約率為抽樣比例,隨機抽取該分組下的違約用戶,指定為壞用戶,剩下的標記為好用戶。然後將標記好的拒絕用戶加入樣本重新訓練

11.建模過程中如何保證模型的穩定性

1)在數據預處理階段可以驗證變數在時間序列上的穩定性,方法有:計算月IV的差異,觀察變數覆蓋率的變化,兩個時間點的PSI差異等。例如我們選取1-10月的數據集,借鑒K折驗證的思想,得到10組驗證結果。觀察隨著月份的推移,模型的變化是否有比較大的趨勢變化

2)在變數篩選階段剔除與業務理解相悖的變數。如果是評分卡,可以剔除區分度太強的變數,模型受這個變數影響太大,穩定性會下降

3)做交叉驗證,一種是時間序列上的交叉驗證,一種是K折交叉驗證

4)選擇穩定性好的模型。比如xgb  隨機森林等

12.怎麼處理高維稀疏特徵與弱特徵

對於高維稀疏特徵,邏輯回歸比gbdt效果好。後者的懲罰項主要是樹深度與葉子數目,這對稀疏數據來說懲罰並不嚴厲,容易過擬合。使用邏輯回歸評分卡,則可以把特徵離散化為0與非0,然後再進行woe編碼。

如果用評分卡建模,弱特徵一般會被舍棄掉。評分卡的入模特徵數不宜過多,一般在15個以下。而xgb對數據的要求不高,而且精度好。一些弱特徵進行交叉組合也許有意想不到的效果。

13.模型上線後發現穩定性不佳,或者線上的區分效果不好,怎麼調整

模型穩定性不佳首先檢查當初建模時有沒有考慮特徵的穩定性。在模型前期發現穩定性不佳的變數,考慮棄用或用其他變數代替。另外分析線上線下用戶和建模時用戶的分布差異,考慮在建模時增加拒絕推斷的步驟,讓建模樣本的分布更加接近實際的整體申請用戶

線上的效果不好可以從變數角度分析。剔除掉效果不好的變數,挖掘新的變數入模。如果一個模型已上線較長的時間,用戶的屬性也慢慢發生偏移,那麼重新取數做下模型

14.怎麼做風控模型冷啟動

產品剛上線時,沒有積累的用戶數據,或者用戶沒有表現出好壞,此時可以考慮:           1)不做模型,只做規則。憑借業務經驗,做一些硬性規則,比如設定用戶的准入門檻,考量用戶的信用歷史與多頭風險,可以接入第三方的反欺詐服務和數據產品的規則。也可以結合人工審核來對用戶的申請資料做風險評估                                                                               2)藉助相近模型的數據來建模。

15.樣本不平衡問題

除了調整類權重以外,主要採用采樣方法來解決。常見的有樸素隨機過采樣,SMOTE,ADASYN(自適應綜合過采樣)

16.運營商數據處理

根據通話日期,可以將通話記錄分為近7天,近半月,近一月,近三月,近6月等時間窗口。也可以按具體日期劃分為工作日、節假日等。根據通話時間,可以將一天劃為凌晨、上午、下午、晚上。至於電話號碼,一種思路是按照歸屬地劃分為 省市,另一種思路是對號碼打標簽,根據電話邦、網路手機衛士、搜狗號碼通的標記,區分出快遞外賣、騷擾電話、金融機構、中介等。甚至根據業務積累區分號碼是否是黑名單用戶、申請用戶或申請被拒用戶。用戶與不同號碼標簽的通話情況,可以側面反應用戶的通話習慣和生活特點

17.逐步回歸

當自變數之間的關系比較復雜,對於變數的取捨不易把握時,我們可以使用逐步回歸的方法進行變數篩選。逐步回歸的基本思想是將變數逐個引入模型,每引入一個變數進行F檢驗,並對已經選入的變數進行t檢驗,當原來引入的變數在後面的變數引入之後不再顯著時,則將原來的變數刪除。以確保每次引入引入新的變數之前回歸方程中只包含顯著性變數

18.在邏輯回歸中,為什麼常常要做特徵組合(特徵交叉)

邏輯回歸屬於廣義線性模型,特徵組合可以引入非線性特徵,提升模型的表達能力

部分引用文章: https://www.jianshu.com/u/0ce0500106d              https://new.qq.com/omn/20180115/20180115A0RUEZ.html                    https://www.ixueshu.com/document/.html                                                                                                                                      https://www.e-learn.cn/content/qita/775233                                                                                https://cloud.tencent.com/developer/article/144 8182                                                                 https://www.shangyexin.com/article/details/id-171268/                                                          https://blog.csdn.net/sunyaowu315/article/details/87162765                                                      https://www.yuque.com/rookie-ywx0p/sm8coc/ll43oc                                                                  https://zhuanlan.hu.com/p/56474197                                                                                     https://www.infoq.cn/article/jXwvkaB9t7mPWHxj9ymu                                                             https://cloud.tencent.com/developer/article/1489429                                                                  https://cloud.tencent.com/developer/article/1059236                                                                  https://github.com/taenggu0309/Scorecard--Function

⑵ APP平台首先會想到什麼

一、ASO基礎知識

本節包括三塊:什麼是ASO;基礎優化;關鍵詞搜索排名優化。

1.什麼是ASO?

全稱為AppStoreOptimization,即蘋果應用商店優化。就是利用AppStore搜索規則和排名規則,讓App更容易被用戶搜索或者看到的推廣方法,通常我們所說的ASO,指的就是關鍵詞的排名優化。

AppStore的流量來源:精品推薦、類別、排行榜、搜索、更新;AppStore搜索的權重排序:App名稱App關鍵詞App描述應用內購買名或描述;為什麼要做ASO:AppStore的分發量分布於:搜索、榜單、推薦位、外部導量。70%以上來源於用戶主動搜索關鍵詞。相比其他渠道,ASO的用戶來源更為精準,下載量較優化前能上漲50%-300%不等。2.基礎優化

包括App名稱、副標題(IOS11最新副標題)、圖標、截圖+視頻、應用描述、用戶評論、App安裝量、活躍用戶量、活躍用戶比例及用戶留存度、社會化分享數據(曝光量)。

下面主要解釋幾點:

(1)語言本地化

蘋果銷售區域有155個,本地化有28個,但是在本地化里:

中國地區已經驗證有效的有:簡體中文、英文(英國)、英文(美國)英文(澳大利亞)(註:關鍵詞的檢索率以上地區最高)英語地區下已驗證有效本地化語言有:英文(加拿大)、西班牙文(西班牙)(進行語言本地化設置不一定百分百能增加覆蓋數,第一次失敗了可以再次上傳操作)

(2)標題:又名應用名稱,佔有30字元的空間

整個標題的設置思路:

標題副標題=核心關鍵詞+用戶心理

(3)關鍵詞,佔有100字元的空間

關鍵片語成分為:組詞分ABC/AB/BC/ABC(分期貸信貸款)

3.關鍵詞搜索排名優化

提升我們App所覆蓋關鍵詞的排名並並曝光,常見的第三方優化方式有:

(1)積分牆

積分牆優化關鍵詞和榜單的效果是目前蘋果演算法里是最安全穩定的。

通過真實用戶搜索關鍵詞下載產品,比如搜索「理財」可以找到產品「xx理財」所在的位置下載試玩提升關鍵詞排名。

積分牆真實用戶的權重相較於機刷類要高的多,比如積分牆量級兩三百,機刷可能要用幾千上萬的量,最後效果還是用積分牆的排名高一些。

熱點內容
沒有被調用的函數會參與編譯嗎 發布:2025-05-15 13:42:51 瀏覽:260
在計算機中ftp的中文 發布:2025-05-15 13:41:07 瀏覽:1000
國網校招要網簽密碼和賬號干什麼 發布:2025-05-15 13:40:25 瀏覽:179
java分 發布:2025-05-15 13:34:36 瀏覽:846
如何下載卡巴斯基安卓版 發布:2025-05-15 13:34:36 瀏覽:480
排序函數c語言 發布:2025-05-15 13:06:28 瀏覽:6
韓服lol掛機腳本 發布:2025-05-15 12:42:56 瀏覽:462
監控存儲伺服器如何調試 發布:2025-05-15 12:36:30 瀏覽:219
一萬級凈化車間有哪些配置 發布:2025-05-15 12:16:41 瀏覽:98
javazip解壓加密 發布:2025-05-15 12:15:02 瀏覽:943