当前位置:首页 » 操作系统 » 注册风控算法

注册风控算法

发布时间: 2023-03-29 03:40:19

㈠ 阿尔法象风控系统运用了哪些技术或者算法

这个正好我知道,他们的系统运用机器学习技术以及人工智能算法。

㈡ 如何利用大数据做金融风控

风控体系:事前、事中、事后调控整个风控体系包括几个环节:事前:在风险发生之前就要通过对风险舆情的监控发现风险,比如在某些恶意的欺诈团伙即将发动欺诈攻击前就采取措施来提前防御,例如通过规则加紧,把模型阈值调高等方法;事中:信贷借款申请,在线上注册激活的过程中,根据自动风险评估,包括申请欺诈,信用风险等来选择是否拒绝发放贷款;事后:贷款发放以后的风险监控,如果借款人出现与其他平台的新增申请,或者长距离的位置转移,或者手机号停机等信号,可作为贷后风险预警。如何提前在网络中把骗子揪出?最基础的技术:设备指纹在介绍整个风控体系时我认为,对于网络行为或者线上借贷,最最基础或者最最重要的技术是早脊陆设备指纹。为什么呢?从上图中我们可以看到,网络上的设备模拟或攻击,比如各种各样的自动机器人,实际上是对网络环境造成极大的干扰,在信贷中会导致信用风险的误判。这个是第一道。网络设备最关键的地方是要实现对设备唯一性的保证,第二是抗攻击,抗篡改。网上有各种高手会进行模拟器修改,修改设备的信息和干扰设备的定位等以各种手段来干扰设备的唯一性认定。所以对抗这样的情陆顷况的技术要点在于:抗攻击、抗干扰、抗篡改。另一方面能够识别出绝大部分的模拟器。设备定位:基站和WiFi三角定位a.非GPS定位值得注意的是,在模拟器或者智能设备系统里面它可以把GPS定位功能关掉。而如果通过将基站的三角计算或者WIFI的三角计算定位结合起来,定位的精度较高,且不受GPS关闭的影响。这可以应用在信贷贷后管理,用来监测借款人的大范围位置偏移。b.地址的模糊匹配对于位置来讲还有一个重要方面是地址的模糊匹配。在信用卡或者线下放贷中,地址匹配是一个重要的风险审核因素,但是地址审批过程存在一个问题:平台与平台之间因为输入格式不同或者输入错误等问题造成难以匹配野侍,那就需要模糊算法来进行两两匹配,以及数个地址之间进行比对,或者在存量库中搜索出历史中的风险或者相关性名单来进行比对。这其中涉及的技术包括模糊匹配算法和海量地址的管理和实时比对。复杂网络复杂网络有时候大家称之为知识图谱,但这中间有点区别:复杂网络更偏向于从图论的角度进行网络构建后进行实体结构算法分析,知识图谱更偏重于关联关系的展现。网络分析最重要的一点是具有足够的数据量,能够对大部分网络行为进行监控和扫描,同时形成相应的关联关系,这不仅是实体与实体之间、事件与事件的关系,并且体现出“小世界(7步之内都是一家人)”、“幂分布”等特征。

㈢ 一、互联网业务风控


维护账户安全的手段主要有网络层防护、数据层防护以及业务层防护。 相应的手段不局限于WAF、设备指纹、验证码、生物探针、数字证书、安全SDK。 这些颂竖余防护手段从技术原理上可以总结为加密/解密、人机识别两大类。

电商平台最核心的业务就是交易,而交易又衍生出其他业务。商家为了达到提升排名、引流、商品冷启动、增加商品评论数等目的,会通过多种渠道来做虚假交易。典型的虚假交易是指通过虚构交易流程、伪造物流、资金流信息等手段,提到 DSR (Detail Seller Rateing,即商铺信用、商品销量和店铺动态评分)分数,实现提升店铺和商品排名的目的。

刷单主体:商家、刷手、刷单中介和上下游利益团体(泛指卡商、账号批发商、物流)。

互联网平台对流量监控在大多数情况下,宁可放宽监管力度,也不允许有太多的错杀的情况。

从作案规模上,信贷欺诈一般可分为个人欺诈和团队欺诈。从风险归因上,可分为以下类别:

A. 白户风险 :借款人信息缺失,没有足够的数据来对借款人进行风险评估。包括内部白户(新注册用户、无申贷 历史 记录)和外部白户(央行征信、第三方民间征信无覆盖)。由于从未或较少有申贷记录,因此黑名单规则、多头规则等都会失效。在对待白户时,应当谨慎其被黑产利用的可能。

B. 黑户风险 :借款人存在逾期、失信、欺诈的记录。包括内部黑户( 历史 多笔订单出现逾期、在途订单催收失联等)、外部黑户(央行征信花/黑、第三方民间征信黑)。出于炫耀等心理,很多黑户会在口子论坛、QQ群等交流撸贷经验,因此可通过论坛舆情监控、黑产群卧底等来发现新的作案手法。

C. 恶意欺诈 :借款人通过伪造资料,蓄意骗贷。例如,伪造账单流水记录来企图骗取更高的额度。一般都是借款老哥,熟悉各平台流程,深谙套路。恶意欺诈人群往往到处借钱,广撒网来提高放款概率。同时,可能涉及不良嗜好(黄赌毒)。

D. 身份冒用 :伪冒他人身份进行欺诈骗贷。包括熟人冒用(亲戚朋友、同野滚学等)和他人盗用(购买他人四件套、个人隐私信息泄漏等)。一般可通过信审、人脸识别、活体验证等方式来核验借款人身份。

E. 以贷养贷 :通过拆东墙补西墙的方式,来维持不良消费(黄赌毒、奢侈品等)。借款人现金流收入主要靠不断借款,借下家的钱,还上家的债。这种击鼓传花的 游戏 ,会将共债风险杠杆逐渐放大。一旦纤凳借款人再也借不到钱,资金链便会立刻断裂,所有平台全线逾期。目前市场上,同盾、百融、亿美等第三方征信机构都提供此类多头借贷产品服务。

F. 中介风险 :黑中介哄骗或招揽客户实施骗贷。网贷中介有利有弊,好中介可帮助平台导流(类似贷款超市),提高市场份额;黑中介将对平台风控漏洞进行大规模攻击,造成巨大资损。黑中介可利用白户轻松突破风控防线,并骗取白户的高额手续费。黑中介通讯录一般会存客户的号码;若是远程贷款操作,可能会采取视频通话、翻拍照片来应对活体识别核身。

A. 实时大盘监控 :基于订单、用户维度,监控设备聚集性风险(LBS、Wi-Fi)、地域欺诈风险(如朋克村)。大盘监控对于识别黑中介风险、传销风险等团伙欺诈相对更有效,需要设置报警阈值,并人工介入分析。

B. 信审催收反馈 :信审通过电话外呼,核验客户身份,咨询借款动机,往往会发现某些欺诈用户。例如,身份伪冒风险场景中,借款人支支吾吾无法正确回答问题。催收中发现失联用户等,这些兄弟部门的案件将反馈至调研组。因此,需要建设好案件管理平台,联通各部门。

C. 论坛舆情监控 :通过对各大口子论坛、戒赌吧、上岸交流区等内容,提取近期市场动向。特别是需要去理解欺诈人群的心理特征、 社会 身份等。例如,2018年,在714高炮行业风险初见苗头时,论坛上就出现“青铜系”、“宁波系”等借贷口子系列。

D. 黑产卧底调研 :线上渠道可尝试加撸口子QQ群、网贷中介微信等方式,利用老哥们的集体智慧,以及网贷中介的丰富经验。站在对方的立场上,你更会发现自己风控系统的弱点。线下渠道可去一些欺诈案件多发地,实地调研来学习黑产的手法。实地调研的难度相对较高。

A.设备指纹 唯一标识出该设备的设备特征或者独特的设备标识;从技术方法上,可分为: 主动式设备指纹和被动式设备指纹。

主动式设备指纹: 一般采用JS代码或SDK,在客户端主动地收集与设备相关的信息和特征,包括:

主动式设备指纹算法一般将这些信息组合起来,通过特定的hash算法得到一个设备指纹ID值,作为该设备的唯一标识符。

被动式设备指纹: 在终端设备与服务器通信的过程中,从数据报文的协议中提取出该终端设备的OS、协议栈和网络状态相关的特征集,并结合机器学习算法来标识和跟踪具体的终端设备。

B.生物探针 采集用户使用手机时的传感器数据和屏幕轨迹数据的技术; 优点: • 无需其他硬件支持 • 用户无感知 • 行为习惯不易改变 • 可以进行连续判断 缺点: • 需要一定的算法支持

C.设备行为 APP安装列表;APP行为(包括安装、卸载、打开等);通话记录、短信等

D.WiFi列表 WiFi 名称、接入时间、接入时长等

E.LBS 设备与地理空间位置映射数据; 包括IP、基站、WiFi、身份证、手机号及银行卡等多维度的地理位置信息的信息库 用户稳定性判断登录、交易等多环节多重验证

F.运营商 特点:完整、真实; 涵盖: • 在网时长 • 通话记录、短信记录 • 网站、APP访问记录 • 位置信息

G.关联数据 前提假设:人是 社会 关系的总和、人以类聚物以群分; 应用:人的 社会 关系网反映人的特征; 目的:信息核验、度量身份和关系风险、社群团伙发现

H.多头 信贷全流程数据;涵盖注册、申请、审批、放款、还款成功、还款失败、逾期等整个信贷周期;场景贴合度高

传统反欺诈的困境

应用案例 A.app特征挖掘:

B.关联特征挖掘:

C.其他特征挖掘

㈣ 注册短信验证码,怎么防止别人恶意刷接口

  • 普通自开发

  • 发送时间间隔

    设置同一个号码重复发送的时间间隔,一般设置为60-120秒。该手段可以在一定程度上防止短信接口被恶意攻击,且对用户体验没有什么伤害。但是不能防止黑客更换手机号进行攻击,防护等级较低。

    获取次数限制

    限制某个手机号在某个时间段内获取短信验证码次数的上限。采用这种策略时在产品设计过程中,有几点需要注意。

  • 定义上限值。根据业务真实的情况,甚至需要考虑到将来业务的发展定一个合适的上限值,避免因用户无法收到短信验证码而带来的投诉。

  • 定义锁定时间段。可以是24小时,可以是12小时、6小时。需要根据业务情况进行定义。

  • IP限制

    设置单个IP地址某个芦指时间段内最大的发送量。该手段可很好的预防单一IP地址的攻击,但是也有两个很明显的缺点:

  • 对于经常变更IP地址进行攻击的黑客,该手段没有很好的效果。

  • IP的限制经常会造成误伤。如在一些使用统一无线网的场所,很多用户连接着同一个无线网,这个IP地址就容易很快达到上限,从而造成连接该无线网的用户都无法正常的收到验证码。

  • 图形验证码

    在发送短信验证码之前,必须通过通过图形验证码的校验。这种手段相对来说可以防止某些攻击,因此也是目前非常普遍的短信防攻击机制。但是在使用过程中涉及到用户体验问题,不能简单粗暴地套用这一策略。以下几个点值得仔细考虑:

  • 是不是每次获取短信验证码之前都需要用户输入图形验证码,一般来说这样做会极大地影响用户体验,虽然是相对安全,但是用户用着不爽了。

  • 可以给一个绝哗晌安全范围。结合手机号限制、IP限制来考虑,比如同一个手机号当天第3次获取短信验证码的时候,出现图形验证码;比如同一个IP地址当天获取验证码次数超过100次后,出现图形验证码。

  • 加密限制

    通过对传向服务器各项参数进行加密,到了服务器再进行解密,同时用token作为唯一性识别验证,在后端对token进行验证,验证通过才能正常将短信发送。该手段可以在保证用户体验的情况下,可以有效防止某些攻击,因此也是目前比较常见的短信防攻击机制。同时也有很明显的缺点:

  • 使用的加解密算法可能会被破解,需要考虑使用破解难度较大的加解密算法。

  • 在算法不被破解的情况下可以有效防止报文攻击,但是无法防止浏览器模拟机式攻击。

  • 以上是几种常见的短信风控策略,在具体的产品设计过程中,可以综合使用。

  • 使用第三方防御

  • 短信防火墙

    为了在产品安全和优秀的用户体验之间寻找一个极佳的平衡。新昕科技的产品研发团队结合各种风控策略的优点研发出了一款短信防火墙。 从以下几个方面概括一下:

  • 为保障优秀的用户体验,摈弃了目前影响用户体验最为严重的图形验证码等人机校验程序,做到无感验证。从而达到完美的用户体验。

  • 结合用户的手机号码 、IP地址 、设备指纹三个唯一身份标识设置不同维度的风控策略。将各个维度之间相互配合,达到一个最为合理的风控限制指标。

  • 根据业务情况自动伸缩风控限制,在检测处受攻击时自动加大风控限制力度,在正常是再归回到正常风控标准。

  • 考虑到存在新老客户的区别,特意增加老客户VIP通道,在受到攻击时,风控指标紧缩的情况下,保证老客户通道畅通无阻,从而降低误伤率。

  • 通过以上策略可以有防止黑客通过随意切换手机号及IP地址的方式可以刷取短信。同时加入模拟器检测,以及参数加密等风控策略,有效防止黑客攻击。

  • 可通过风控防火墙并锋控制台,实时观测风控结果,在受到攻击时达到第一时间预警的效果。

  • 如需了解更多请关注新昕科技官网:newxtc.com

    短信防火墙

短信防火墙

㈤ 浦发信用卡被风控怎么办

信用卡被风控的解决办法如下:
1.信用卡被风控后,立即拨打信用卡客服电话,咨询信用卡被风控的原因;
2.向信用卡客服申请解除信敬碧扒用卡风控,表明个人亮昌属于正常消费,并没有违规使用信用卡;
3.持卡人准备相关的消费凭证(其中可以包含发票、微信交易记录等),慧岁提交给信用卡客服审核;
4.持卡人等待银行审核结果,信用卡解除风控后,应该继续正常使用信用卡,不要再次被风控。

㈥ 笔记:内容业务风控的业务模型

一、背景

● 内容平台,无论是自媒体、社交博客、视频直播类,在流量充足后面临更多的问题监管审查,头条、微博、知乎等UGC平台均被约谈乃至整顿过,严重的诸如内涵段子等责备关停。

● 繁荣的UGC下面深藏危机乱象丛生,受利益驱使,黑产自然不会放过内容平台这块肥肉,平台成了间接作恶工具,自然给企业带来源源不断的麻烦、损失。

二、来自内容的风险主要有两类

2.1监管风险

2.2用户体验损害

● UGC平台充斥大量广告导流、欺诈广告,导致用户体验变差、用户流失、平台受损。

三、内容风控的四个发展阶段

● 对于内容风控的进化阶段

A、无人监管,面临极大的监管风险

B、全部人工审核,人工成本高,难以应对数据大幅增长、响应速度慢

C、机器审核+人工审核,人工成本稍高,数据处理量大,响应较快、机审准确率低。

D、AI审核,响应快、准确率高

● 由于AI还在发展阶段,大规模应用不成熟,所以现阶段大多公司推行机器审核+人工审核的形式。本文也威少机审+人审的模型进行产品说明。

四、风控的原则

轻管控:在出现风险,需要阻断用户操作时,阻断动作宜轻不宜重。能仅自己可见就不要阻止用户发布内容。同时被阻断后文案,下一步出口都需要照顾用户感受。看似简单,其实背后涉及到对用户风控行为以及对用户风控阻断动作的分层管理。

重检测:通过尽可能多的获取用户信息(包括静态及动态数据),由规则引擎进行实时或离线计算,来动态分析每个用户及采取行为的风险程度。这里需要尽量全的数据来源,以及非常强大的规则引擎,才可以实现良好的检测效果。

快响应:是指在检测出用户存在的风险后,如何快速的进行阻挡。这里的重点是快,则意味着对业务的理解要细,提前在关键动作进行布局,才可以做到尽可能减少损失。

● 业务风控的业务模型主要分为六层,分别为数据输入层,数据计算层,数据输出层,运营管控层,业务接入层以及用户触达层。

● 上面三层,是偏向于数据,研发的;下面三层,是偏向于业务,运营,产品的。做风控其实就是做数据,羡信宴因此数据的接入、技术、处理是其中最核心的模块;但现阶段,由于算法模型的限制,还需要有人为的因素进行规则模型的校正,以及特殊样本的审理,因此会有运营层的存在;最上面的触达层,是拿结果的一层,产品的部分工作也在于对此进行良好的设计。

一、数据输入层

● 通过主动采集、业务方送审的原始数据

1.1内容主体:

● 内容审核业务起始层,梳理审核系统需要的全部数据局,以及可以通过业务端采集的数据,数据越详细对后期数据计算越有利。

注意点:1、不同送审内容之间存在群组关联,如帖子下可能包含:名称文本、内容文本、图片、视频、投票文本。2、不同内容间存在映射关联,如商品与评论的关系。3、不同内容间存在组合关联,内容单独出现无违规、组合起来违规的情况。

1.2内容环境:

● 审核方在审核平台为每一个业务(区分文字、图片、视频)生成唯一识别码,用于区分各送审业务,业务方在业务唯一识别码的基础上随机生成唯一的送审码,用于区分送审内容。除送审内容外,审核方需要采集包括且不限于送审类型(用于区分图文)、用户类型、用户ID、城坦信市、IP、设备号、时间戳、业务ID、内容ID、客户端区分等。历史批量数据送审应与日增数据分开低优先级送审,确保日常数据正常处理。对送审的qps进行限制,避免造成服务器压力。

● 除送审数据外,其他获取包括用户信息、关联内容信息、发布者违规历史、前端操作事件(文字粘贴、截图上传),结合送审数据进行综合判别。

1.3离线数据

● 用户风险评级:根据用户历史行为,对独立用户进行风险系数评级。0-100之间的分数,分数越高表示用户在相应业务场景下越为可信。分数将用户划分为多个等级,在使用中可以根据业务场景选择不同等级的用户或不同分数区间的用户进行针对性策略放过或打击,实现策略的精细化运营。通过有效搜索浏览路径、可信内容发布历史、内容违规历史等维度进行违规(考虑细分维度,比如涉黄分值)计算,充分考虑时间衰减与权重比例、设置扣分门槛与限制。并需要防止对新用户、沉睡用户的误伤。

● 账号、设备、IP、地域近期行为等风险评级:根据账号、设备、近期行为,对时间段内账号行为进行风险评兄银级,分属越高代表分享程度越低。由于账号被盗、黑产账号(刷评论)、推广账号、养号等违规账号类型,对内容本身较大具有威胁。风险评级基于多渠道、多场景数据,以及时间段内关键行为,并关联分析手机、设备、IP、紧急联系人等实体数据,锁定欺诈风险并进行对账号、设备、IP的风险识别。采用聚类分析、GBM、设备相似性识别,等构建设备识别模型,有效识别虚拟机和设备农场等高风险设备。基于机器操作、异常操作识别等技术,识别机器注册、机器养号、撞库攻击、账号盗用等风险行为。基于手机、设备、IP等实体数据关联分析,锁定欺诈风险并进行风险识别。

二、数据计算层

通过机器或者人工进行过滤的环节

2.1机器审核

● 规则引擎:提供规则集、决策表、交叉决策表(决策矩阵)、决策树、评分卡、复杂评分卡、规则流等八种类型的业务规则设计工具

● 打击规则:分类型对打击策略进行分类与分级,类目明确清晰。前期应该考虑到业务使用范围场景复杂度与误伤场景,细分粒度。比如在按摩休娱下,涉及的性感的图片可能有性暗示、性交易的企图,但是在泳装类目下,性感存在即是合理的。有比如,在管弦乐器业务下,图片容易受到枪支策略的误伤,需要在此业务下对枪支策略进行个性化调整。

● 离线任务:由于打击存在频繁更新,以及其他不可力抗的修改。未避免业务多次送审,离线任务主要记录存储业务已经送审数据,进行二次审核,再次返回结果。业务方需要支持接收多次结果,并以最新一次为准。

● 机器学习:深度学习图片识别技术 + 数亿级实时更新的图像样本库极速智能解决平台四大问题

文字类型,过滤垃圾广告、导流信息、恶意营销、违法欺诈广告等内容与变体内容。识别淫秽、辱骂等色情低俗内容,基于深度模型同步客户审核标准,进行程度分级。基于海量文本特征库,识别涉政、恐、暴、毒、违禁品等存在监管风险的违规内容。检测内容语义环境,拦截无意义垃圾内容。

图片类型,采用OCR识别等技术,对图像中文本提取识别。基于NLP自然语言处理技术与深度模型,识别色情内容并进行程度分级。基于深度学习技术与海量样本机器学习,对色情、违法违规内容进行鉴别与评级。基于人脸识别技术与机器学习,对漫画、恶搞、负面涉政人物的违规信息识别。文本语义环境检测,高效拦截水贴刷屏无意义内容恶意灌水等行为。

其他视频与语音均于ai技术,转换成

2.2人工审核

● 人工审核平台用户运营部门对内容进行日常的审核,并可实时处理违法违规内容。平台应满足审核区、回收站、历史审核、黑名单管理、信息清理、业务数据查询等常用能力。可对内容按照内容形式(如图片、评价)、按照机审处理规则(如色情)等维度分类,帮助运营部门快速审核。可提供相应的用户、商户等辅助信息数据,协助运营部门对内容进行快速决断。

三、数据输出

● 通过结果返回业务方本次送审内容本身最终审核(通过/驳回)结果与原因,以及因其他原因诸如行为异常等参考信息;随着业务场景的不断壮大、业务需求也会越来越细分,随着策略层面打击结果随之越来越细分。诸如,增加新策略、老策略拆分、违规程度、危险分级等。前期做好调研,在接口设计上保留充足的拓展性十分重要。毕竟作为服务方,推业务方迁移成本比较高。

四、运营管控层

● 运营部门对审核对接、审核过程、审核结果的协助操作;对各环节数据监控等

4.1业务运营

● 接入管理:对已经接入的业务进行增删改查等才做

● 回扫管理:由于审核的标准处于不断更新的状态,新的策略上线后对已经审核过的内容不能进行覆盖。就需要进行自动或者手动的回扫行为

● 处罚处置:未防止违规内容的不断滋生,相对应的处罚行为可以震慑不良用户,对危险用户从账号层面直接处理。

● 风险大盘:策略在审核过程中依赖业务方的送审信息,除了内容主体外其他辅助信息对风险等级的判定也极为重要、送审频率的异常波动也作为策略审核的重要依据,为确保送审时间保质保量稳定的送审,对数据层面进行校验,监测数据完整、稳定程度,对异常送审及时发出警告。

● 名单与标签管理,对以用户、设备等维度的黑白名单、标签进行管理

4.2人审运营

● 包含对人工审核的质量、工单流水、审核员管理、审核结果抽样等职能

4.3策略管理

● 打标平台:对样本内容进行打标,用以训练模型精准度

● 策略管理:用来配置打击策略的系统

● 特征管理: 模型管理、即管理特征与模型的系统

● 词库管理:对策略中黑词、白词、灰词进行集中管理

4.4用户运营

● 反作弊调查:对漏过、误杀的案例进行回访,收集用户需求

● 案件中心:对漏过、误杀的案例进行归类,引导策略优化模型再训练

五、接入层

● 主要面向接入业务方,让业务方知晓接入进度、拦截与误杀情况,引导业务优化前端交互

5.1业务管理

● 自助接入:业务方自助提交接入需求信息,形成审批工单状态流转

● 服务配置:对已有业务进行需求变更

● 统计报表:针对各自业务进行报表统计,反向推动业务方优化交互形式

● case查询:由于业务方是对接case第一人,提供case查询工具,让业务明确case产生原因与结果

● 个性词库:各业务场景不一,除统一词库外,还应对各自场景下的特殊违规词进行处理

● 申诉通道:对漏过误杀case的申诉通道

六、触达层,面向普通c/b用户

6.1风控动作,即内容通过审核最终的结果反馈,需要与业务方共同完成。

● 从审核方以及业务方的角度,为了对违规评价提供最合理的处理方式(删除、下线、正常显示、隐藏、置地等),降低对用户伤害;对评价违规类型分级,并根据其级别进行对应分级处理。包括评价对用户等级、前端展示以及评价权益等。根据违规程度、用户主观恶意程度,对内容发布者进行分级处理。显示分级:全网可见、仅自己可见、全网不可见。内容产品赠送的积分、星级等进行逐步减少与扣罚。其他严重处罚诸如禁言、禁访、注销账号等。并发出提醒(审核结果与处罚、申诉、举报结果的反馈),明确用户发布状态与惩罚因果。

6.2风控补救,即举报、申诉。

● 由于风控不可能100%准确,对于误伤、漏过的case,需要提供用户直接申诉的渠道

6.3教育

● 事前宣传,对用户/商户进行宣传,告知拦击基本规则,减少商户及用户的尝试作弊行为,并提供更优的用户体验,引导用户避免发布与规则冲突的内容。 事后引导,对进行拦截打击的内容,引导用户修改,确保内容既合规,又不影响用户体验

㈦ 数据分析之风控

上世纪90年代初,以美国运通(Amarican  Express)为首的美国信用卡金融公司开始运用数据建模来提升风控能力,解决精准营销等问题。Discover,Capital  One紧随其后

1995年,AMEX的风控模型开始试运行,1997年风控系统正式上线,此后几年,AMEX保持高速增长且把不良贷款降到业内最低

2008年,discover将全球数据分析中心搬到上海。从这个中心流出的风控人才,填充了中国各大互金公司

业务类型:有抵押贷(房贷车贷)、信用贷(比如宜人贷)、消费分期贷(手机家电等)、小额现金贷(500/1000/1500)等

风控涉及业务:1)数据采集:包括征信数据,运营商数据,爬虫,网站埋点,历史借款数据,黑名单,第三方数据等

                 2)反欺诈引擎:主要包括反欺诈规则与反欺诈模型。

                 3)规则引擎:即常说的策略。主要通过数据分析手段统计不同字段和各个区间的坏账率,然后筛选得到信用较好的人群进行放款

                4)风控模型&评分卡:模型算法之间并无显着不同,而是根据其发生的不同时间点进芦则蔽行划分(贷前/贷中/贷后),即目标产生的方式不一样。通常信贷领域都是以逾期天数来定义目标变量。A卡可以用客户历史逾期天数最大值,B卡可以用多期借款中逾期最大的一次。C卡因为用途不同有不同的建立方法

                5)催收:是风控的最终手段。这个环节可以产生很多对模型有帮助的数据,比如催收记录的文字描述,触达率,欺诈标签等等

1)爬虫可以爬取手机APP的信息。我们可以将手机APP分成4类:工具,社交、娱乐、金融。计算每种APP的个数,这样就有了4个特征

2)从运营商数据可以知道客户打了多少电话,发了多少短信,用了多少流量,是否有过欠费等信息

3)征信报告很多时候都是一个简单的征信分数,一般都是得分越高,客户质量越好

4)从基本信息中获取用户画像,比如从身份证中得到年龄、性别、户籍3个特征

黑名单的升级版本就是规则引擎。然而它是靠经验生成的。比如保险公司可能会拒绝连续退货5次或者退货比例达到80%的人购买退货险。规则通常需要投入大量的精力维护,不断更新修改,否则会造成大量的误判。对疑似套现金额、笔数超过一定数目,建议拒绝准入,或做重点关注。XX天内申请借贷数大于某个值,建议拒绝

比如我们可以设定一个准入规则,如职业为公务员、医生、律师等。

还可以设置直接放款原则,比如芝麻分大于750分

目标变量如何确定:以A卡为例,主要通过roll-rate与vintage。举个例子,我们可以定义在8个月逾期超过60天的客户为坏客户,8个月未逾期的为好客户。而八个月逾期在0-60天内为不确定客户,从样本中排除。

1)前期准备工作:不同的模型针对不同的业务场景,在建模项目开始前需要对业务的逻辑和需求有清晰的理解

2)模型设计:包括模型的选择(评分卡还是集成模型),单个模型还是做模型细分。是否需要做拒绝推断,怎么定义观察期、表现期、好坏用户。确定数据来源

3)数据拉取及清洗:根据观察期和表现期的定义从数据池中取数,并进行数据清洗和稳定性验证。数据清洗包括异常、缺失、重复。稳定性验证主要考察变量在时间序列上的稳定性,指标有PSI,IV,平均值/方差等

4)特征工程:主要是特征的预处理和筛选。评分卡主要是通过IV进行筛选。另外会基于对业务的理解进行特征构造,包括特征交叉(两个或以上特征相乘盯培/相除/笛卡尔积),特征转换等

5)模型建立和评估:评分卡可以用逻辑回归,只需要做二分类预测可以选择xgb.模型建好后需要进行模型评估,计算auc,ks。并对模型做交叉验证来评估泛化能力

6)模型上线部署:在风控后台配置模型规则,对于一些复杂的模型比如xgb,一般是将模型文件转换为pmml格式,并封装。在后台上传文件与配置参数

7)模型监控:前期主要是监控模型整体与变量的稳定性。衡量标准主要是PSI(population stability  index)。其实psi 就是按分数分区间后,各个分数区间实际陪州与期望占比的差异。如果小于10%,无需更新模型。小于25%,就需要重点关注模型了。如果大于25%就需要更新模型。计算模型psi一般用等频,可以分10箱

1.A卡B卡C卡含义与区别 

A卡(application score card):即申请评分卡,在客户申请处理期,预测客户开户后一定时期内违约拖欠的风险概率,有效的排除了信用不良客户和非目标客户的申请。同时对客户进行风险定价----确定额度与利率。用到的数据主要是用户以往的信用历史,多头借贷,消费记录等信息。

B卡(behavior score   card):行为评分卡,在账户管理期,根据账户历史上所表现出的各种行为特征来预测该账户未来的信贷表现。一是防控贷中风险,二是对用户的额度做一个调整。用到的数据主要是用户在本平台的登录、浏览、消费行为等数据。还有借还款,逾期等借贷表现数据。

C卡(collection  score  card):催收评分卡,对逾期账户预测催收策略反应的概率,从而采取相应的催收措施

三张卡的区别:

数据要求不同:A卡一般可做贷款0-1年的信用分析。B卡则是在申请人有了一定行为后,有了较大数据进行的分析。C卡则对数据要求更大,需加入催收后客户反应等属性数据

特征不同:A卡用到的大部分是申请者的背景信息,比如客户填写的基本信息,以及第三方信息。而且这个模型一般也会比较谨慎。B卡利用了很多基于交易的特征。

2.风控领域为何选择逻辑回归模型,有哪些局限性

1)首先是因为逻辑回归客群变化的敏感度不如其他高复杂度模型,因此稳健性好

2)模型直观,系数含义好阐述,易理解

缺点是容易欠拟合,准确度不是很高。另外对数据要求比较高,缺失、异常、特征共线性都比较敏感

3.为何用IV而不是WOE筛选特征

因为IV考虑了分组中样本比例的影响。即使这个分组的WOE很高,但是分组的样本占比很小的话,最终这个特征的预测能力可能还是很小

4.ROC与KS指标(ks在0.2-0.75,auc在0.5-0.9较好)

ROC曲线把TP,FP当作横纵坐标,而KS曲线把TP,FP都当成是纵坐标,横坐标是阀值。KS能找出模型中差异最大的一个分组,大于0.2即可认为有比较好的预测准确性。而ROC能反应整体区分效果

5.分箱方法与badrate单调

目前在行业里,大家用贪心算法进行分箱的比较多,比如best_ks,卡方分箱等。badrate单调性只在连续型数值变量与有序型离散变量(如学历/尺码)分箱的过程中才会考虑。至于为何要考虑badrate单调性,主要是出于业务理解,比如历史逾期越多那么badrate越大。

6.为何不同的风控模型,一般都不会选用相同的特征

被拒绝的人,是因为某些特征表现差。如果用相同的特征做重复筛选,那么随着时间推移,以后建模的样本里面就没有这些人了。这样特征上的样本分布就变了。

7.风控中用的无监督算法有哪些

聚类算法,基于图的离群检测,LOF(局部异常因子),孤立森林等

8.卡方分箱

卡方分箱是基于合并的数据离散化方法.基本思想是相邻的区间具有类似的类分布,则将之合并.而卡方值是衡量两个区间相似性的标准,卡方值越低越相似.当然也不可能无限合并下去,我们给它设定一个阀值.根据自由度与置信度得到.比如类别数是N,那么自由度就是N-1.而置信度表示发生的概率。一般可以取90%。

9.best-ks分箱

与卡方分箱相反,best-ks分箱是一个逐步拆分的过程。将特征值从小到大排序,KS最大的那个值即为切点,然后把数据分为两部分。重复这个过程,直到箱体数达到我们的预设的阀值即可。

10.拒绝推断(reject  inference)

申请评分卡是利用通过审核的授信客户的历史数据来建立模型,但是此模型会忽略原先被拒绝的这部分客群对评分卡模型的影响。需要通过拒绝推论来对模型进行修正,以便使模型更加的精确与稳定。另外,公司的规则变化也可能让过去被拒绝的客户现在能通过。适用于中低通过率的场景。

常用方法:硬性截断法---先用初始模型对拒绝用户进行打分,设置一个阀值。高于此分数标记为好用户,反之为坏用户。然后把标记后的拒绝用户加入样本中重新训练模型。分配法---此方法适用于评分卡。将样本根据评分高低进行分组,并计算各组的违约率。然后对拒绝用户进行打分并按照之前的方法分组,以各组的违约率为抽样比例,随机抽取该分组下的违约用户,指定为坏用户,剩下的标记为好用户。然后将标记好的拒绝用户加入样本重新训练

11.建模过程中如何保证模型的稳定性

1)在数据预处理阶段可以验证变量在时间序列上的稳定性,方法有:计算月IV的差异,观察变量覆盖率的变化,两个时间点的PSI差异等。例如我们选取1-10月的数据集,借鉴K折验证的思想,得到10组验证结果。观察随着月份的推移,模型的变化是否有比较大的趋势变化

2)在变量筛选阶段剔除与业务理解相悖的变量。如果是评分卡,可以剔除区分度太强的变量,模型受这个变量影响太大,稳定性会下降

3)做交叉验证,一种是时间序列上的交叉验证,一种是K折交叉验证

4)选择稳定性好的模型。比如xgb  随机森林等

12.怎么处理高维稀疏特征与弱特征

对于高维稀疏特征,逻辑回归比gbdt效果好。后者的惩罚项主要是树深度与叶子数目,这对稀疏数据来说惩罚并不严厉,容易过拟合。使用逻辑回归评分卡,则可以把特征离散化为0与非0,然后再进行woe编码。

如果用评分卡建模,弱特征一般会被舍弃掉。评分卡的入模特征数不宜过多,一般在15个以下。而xgb对数据的要求不高,而且精度好。一些弱特征进行交叉组合也许有意想不到的效果。

13.模型上线后发现稳定性不佳,或者线上的区分效果不好,怎么调整

模型稳定性不佳首先检查当初建模时有没有考虑特征的稳定性。在模型前期发现稳定性不佳的变量,考虑弃用或用其他变量代替。另外分析线上线下用户和建模时用户的分布差异,考虑在建模时增加拒绝推断的步骤,让建模样本的分布更加接近实际的整体申请用户

线上的效果不好可以从变量角度分析。剔除掉效果不好的变量,挖掘新的变量入模。如果一个模型已上线较长的时间,用户的属性也慢慢发生偏移,那么重新取数做下模型

14.怎么做风控模型冷启动

产品刚上线时,没有积累的用户数据,或者用户没有表现出好坏,此时可以考虑:           1)不做模型,只做规则。凭借业务经验,做一些硬性规则,比如设定用户的准入门槛,考量用户的信用历史与多头风险,可以接入第三方的反欺诈服务和数据产品的规则。也可以结合人工审核来对用户的申请资料做风险评估                                                                               2)借助相近模型的数据来建模。

15.样本不平衡问题

除了调整类权重以外,主要采用采样方法来解决。常见的有朴素随机过采样,SMOTE,ADASYN(自适应综合过采样)

16.运营商数据处理

根据通话日期,可以将通话记录分为近7天,近半月,近一月,近三月,近6月等时间窗口。也可以按具体日期划分为工作日、节假日等。根据通话时间,可以将一天划为凌晨、上午、下午、晚上。至于电话号码,一种思路是按照归属地划分为 省市,另一种思路是对号码打标签,根据电话邦、网络手机卫士、搜狗号码通的标记,区分出快递外卖、骚扰电话、金融机构、中介等。甚至根据业务积累区分号码是否是黑名单用户、申请用户或申请被拒用户。用户与不同号码标签的通话情况,可以侧面反应用户的通话习惯和生活特点

17.逐步回归

当自变量之间的关系比较复杂,对于变量的取舍不易把握时,我们可以使用逐步回归的方法进行变量筛选。逐步回归的基本思想是将变量逐个引入模型,每引入一个变量进行F检验,并对已经选入的变量进行t检验,当原来引入的变量在后面的变量引入之后不再显着时,则将原来的变量删除。以确保每次引入引入新的变量之前回归方程中只包含显着性变量

18.在逻辑回归中,为什么常常要做特征组合(特征交叉)

逻辑回归属于广义线性模型,特征组合可以引入非线性特征,提升模型的表达能力

部分引用文章: https://www.jianshu.com/u/0ce0500106d              https://new.qq.com/omn/20180115/20180115A0RUEZ.html                    https://www.ixueshu.com/document/.html                                                                                                                                      https://www.e-learn.cn/content/qita/775233                                                                                https://cloud.tencent.com/developer/article/144 8182                                                                 https://www.shangyexin.com/article/details/id-171268/                                                          https://blog.csdn.net/sunyaowu315/article/details/87162765                                                      https://www.yuque.com/rookie-ywx0p/sm8coc/ll43oc                                                                  https://zhuanlan.hu.com/p/56474197                                                                                     https://www.infoq.cn/article/jXwvkaB9t7mPWHxj9ymu                                                             https://cloud.tencent.com/developer/article/1489429                                                                  https://cloud.tencent.com/developer/article/1059236                                                                  https://github.com/taenggu0309/Scorecard--Function

㈧ 金融风控AI—评分卡模型算法(1)

办理过信用卡的朋友知道,开卡需要先申请(筛选好坏用户),可能还会根据你的信用情况会有不同的额度。这就是银行的信用风险计量体系。对于信用卡有4类评分卡:

1)申请评分卡(A卡)

2)行为评分卡(B卡)

3)催收评分卡(C卡)

4)欺诈评分卡(F卡)

这些评分卡算法一样,只是训练的数据不同,所用的参数也就不同。

蚂蚁金服的芝麻信用也是这样的。

模型的开发主要包含以下几大部分工作:数据获取、数据预处理、探索分析、特征选择、模型训练、模型评估、建立评分系统。

 本项目数据来源于kaggle竞赛 Give Me Some Credit 。有训练数据共计15万条。

打开数据文件大概这个样子:

字段描述如下

这部分主要做2个事情:缺失值处理和异常值处理。

pd的describe()函数,可以了解数据集的缺失值情况。

打开DataDescribe.csv

我们可以看大部分数据有15万条,其中月收入只有12万条,缺了近3万条,家属数量14.6万条。

对于缺失值,根据不同的情况我们分类处理:

(1) 如果缺失的不多,比如家属数量缺失不多,可以直接删除含有缺失值的样本。用dropna()

(2) 如果缺失较多,不宜直接全部删除,根据样本之间的相似性填补缺失值。比如用平均值

(3)如果缺失较多,不宜直接全部删除, 根据变量之间的相关关系填补缺失值。比如用随机森林法填补。

  (4)如果缺失巨大,就失去分析意义,可以将整个字段删除

平均值填补只要一句话:

随机森林法填补:

调用随机森林:

异常值是指明显偏离大多数抽样数据的数值,或者直接违背常识的数据,比如年龄是负数。对于违背常识的记录直接删除,而对于其他异常数据需要具体分析:

具体采用哪种方式其实最好都试一下,看看最后得到的模型怎么样。因为所有这些操作都是有假设条件的,而你的数据是否满足这些条件,试过才知道。

从图看有异常值不少,不过一般只把异常的0值去掉。

对于及DebtRatio都是百分数类型。其中第一项肯定不能大于100%而且统计一下这部分异常数据不多,果断删掉。第二项债务百分比不敢确定是否可债务大于100%,统计了一下有3w多条,而且取出来看了一下不是很特别,同样可以试一下删除或者放入不管或者填充看看最后不同的效果。

这3个逾期不还次数指标意义相似放一起看,发现有2个数据特别显眼,是96,98。虽然按箱型图的含义所有圆圈都是异常值,但仔细分析这三个指标发现正常值绝大部分是0,这就导致了箱型图的1/4线和3/4线都是0,所以我们通常把头顶2个值作为异常值。我把这部分异常值取出来发现数量不多,只有200多条,理论上可以直接删除或者放在里面置之不理。但是我看了这部分数据发现非常异常。这208条数据有125条是违约用户,违约占比62%,而全量数据里面违约占比7%不到,所以我觉得应该把这部分数据作为一条规则来处理,遇到这三个指标有超过90的数值,直接报告警。那么是否可以把这部分数据留着置之不理呢,后面我试了,发现会对变量之间的相关性有很大影响(后面会详细讲)。

同样这个指标我们把50以上作为异常值。

这个指标pass

月收入可以去掉特别高的数据

家庭成员可以剔除特别高的

第一篇完

㈨ 保险行业风控怎么做

近几年保险市场蓬勃发展,但与此同时,“高赔付、低盈利”的趋势已直接影响到保险业的盈利水平和发展的可持续性。保险行业的风险管控在时代的大背景下应运而生。2012年以前,保险行业主要依靠人工审核与经验判断潜在风险,即“传统风控阶段”。2012年-2017年,随着电子化、互联网等技术的普及,保险行业进入了“数字风控阶段”,保险公司通过设置简单规则与事后稽查进行风险管控。而自从2018年以来,随着保险科技与保险行业的深度融合,保险行业开始进入“智能风控阶段”。结合人工智能、大数据、区块链和物联网等技术,保险公司在用户投保前就能实现智能预警和多维核验。
那么保险公司是如何做到了解到那么多数据的呢,这主要有下面的几个渠道:
一、行业高危信息共享。不少保险公司是有信息互通渠道的,有诈骗记录或不良征信记录的人群只要被一家公司记录,那么其他公司就有同时记录的可能。
二、互联网行为。我们或许已经习惯在注册app或者网站时提供自己的个人信息,实名认证也已经深入人心。但这样一来,我们在互联网中进行的每一项行为都直接跟本人挂上了钩。
三、保险风控公司。有需求就有买卖,从事保险风控的科技公司也越来越多了,他们从各种各样的渠道收集用户数据,然后打包卖给保险公司。自从2018年诞生保险智能风控实验室以来,从事保险风控的保险公司也越来愈多了。他们的工作,就是从各个渠道搜集用户数据,然后佐以专业算法,分析出风险较大的地区和人群。
在大数据分析下,越来越多保险公司推出了更人性化、性价比更高的保险产品。这也吸引到了更多人的购买,为保险行业注入了活力。

㈩ 大数据如何应用于风控规则的制定说的具体一点,具体的操作技术、算法最好

在进行数据处理之前,对业务的理解、对数据的理解非常重要,这决定了要选取哪些数据原料进行数据挖掘。根据业务性质特点进行评分建模。具体的操作技术,算法神州融大数据风控平台做得比较好。你可以关注下

热点内容
求阶乘的c语言 发布:2025-05-19 21:15:20 浏览:963
话唠安卓哪里下载 发布:2025-05-19 20:27:04 浏览:165
疯狂android讲义光盘 发布:2025-05-19 20:12:31 浏览:153
安卓手机怎么下载圈点 发布:2025-05-19 20:08:11 浏览:473
文件夹粉碎不了 发布:2025-05-19 20:05:41 浏览:249
安卓怎么把软件放进全局 发布:2025-05-19 20:03:55 浏览:688
安卓手机如何看最真实的型号 发布:2025-05-19 19:58:59 浏览:12
U盘超级加密2008 发布:2025-05-19 19:44:32 浏览:457
灯带编程软件 发布:2025-05-19 19:32:30 浏览:288
如何判断服务器被多少人访问 发布:2025-05-19 19:27:45 浏览:126