算法黑箱实验
① 可解释AI,如何打开算法的黑箱
随着以机器学习为代表的新一代人工智能技术不断朝着更加先进、复杂、自主的方向发展,我们的经济和 社会 发展都纷纷迎来了变革性的机遇。但与此同时,AI算法的透明度、可解释性问题也为公众信任、公共安全等诸多领域带来了前所未有的挑战。
1月11日 14日,“腾讯 科技 向善创新周”在线上举办。“透明可解释AI——打开黑箱的理念与实践”专题论坛即聚焦于此。论坛发布了《可解释AI发展报告2022》,随后由专家学者(见文末)共同参与了圆桌讨论。以下为整理文章:
可解释AI的概念共识
姚新:
大家在讨论AI算法的透明性和可解释性的时候,首先应该考虑三个W的问题——Who,What和Why的问题。
首先,到底是对谁讲透明和可解释?因为从科学研究来说,任何一个研究都必须透明,都必须可解释,否则这个论文是发不出来的。所以我猜过去讲透明性和可解释性,可能不是对科学家来说的可解释性或者透明性,因为对科学家的透明性和可解释性,不一定对大众透明和可解释。第二是解释什么?解释模型做出来的结果还是解释这个模型的工作原理。第三,解释总是有一个目的,目的是要追责还是理解这个模型的科学原理。
根据对这三个W不同的答案,会得出非常不一样的透明性和可解释性,相应的解决办法可能也完全不一样。不管怎样,考虑透明性和可解释性的时候,首先大家要有一个概念上的共识,使得我们知道我们是讲同样一件事情,而不是用了同样一个名词,大家在不同的抽象层次讲不同的问题。
吴保元:
可解释是可信AI的重要组成部分,是可信的前提条件之一,但是相比于鲁棒性、公平性等可信特性,我觉得可解释不是独立存在的概念。就是姚老师刚才提到的,我们到底在解释什么?其他的特性都是有自己明确的数学定义,比如鲁棒性、公平性等,但是可解释性是没有的,因为我们单独提到它的时候,背后默认的更可能是对模型准确度的可解释性。或许这也可以解释为什么当前的可解释研究思路这么多,但是好像没有一个明确的框架,我觉得最主要的原因是它的解释对象不一样,没有办法统一到一起。
基于这种理解,我个人有一点小的想法,不应该把它称为可解释性,把它称为可解释力或许更准确。可解释性,大家可能误认为它是一种独立存在的性质;可解释力是一种可解释的能力,就像我们说的理解力、领导力等等,它是一种手段,一种行为,一种操作存在,需要跟别的绑在一起。我觉得以后提到它的时候,应该准确地描述它是针对什么特性的可解释力,而不是笼统地说可解释性如何。
可解释AI的价值何在?
朱菁:
人们对于人工智能系统可解释性、透明性的要求,大致有四个层次:
第一个针对的是直接用户,用户需要了解人工智能产品、服务背后的原理是什么,这是建立可信任AI的重要基础。可解释AI,实际上支撑了可信任AI。
第二个层次,对于政策和监管部门,他们希望通过解释原理来了解人工智能产品的公平性、可问责性,归因的过程是我们进一步问责、追究责任的基础。所以,可解释AI也与负责任的AI、可问责的AI是联系在一起的。
第三个层次就是技术工程与科学层次,我们希望了解为什么某些算法能够成功,它成功背后的奥秘是什么,它的应用范围是什么,它能否在更大的范围内使用这样一些算法或者是一些技术。
第四个是公众理解AI,如果 社会 大众大多数关心的话,他也能够在这方面了解相应的技术、系统大体的工作原理方式是什么。
何凤翔:
在现在的AI系统中,其实很多算法背后运作机制是未知的,是不清楚的,这种未知带来了未知的、难以管理的风险,包括安全性、鲁棒性、隐私保护、公平性等等。
这些点关系到了 社会 运转中非常关键、人命关天的领域,比如医疗、自动驾驶。这会带来很大的应用方面的困难,以及 社会 对AI的不信任。因为当AI算法运作机制是未知的时候,它的风险机制、风险大小、风险尺度就是未知的,我们就难以去管理风险,进而去控制风险。
可解释AI的挑战何在?
姚新:
原来我一个学生跟我做了一点关于公平性的工作,跟其他的文献发现的点非常一致,就是说模型的准确性和公平性之间是相互矛盾的。性能最好的模型从公平性的角度来说,按指标来测量不见得最好,你要把模型做得都是最公平,用指标来衡量的话,它的性能就会受到损失。实际上可解释性非常类似现在有各版的可解释性指标,但是要真正考虑这些指标的话,模型的性能总是会掉下来,要考虑在实际过程中怎么来找一个折中的方案。
吴保元:
针对可解释性本身的不可行、不可取,这也是值得我们思考的问题。比如说我们在研究犯罪率或者说疾病的传播率、发病率等,如果我们就拿现成的统计数据,比如在不同种族、不同地域采集的数据,很有可能会得出来某些种族或者某些地域犯罪率很高,这是因为数据采集的时候就是这样的。这样一来,如果可解释给出的类似结论被公开,可能会造成种族或者地域歧视。但实际上数据背后是我们在采集的时候没有采集其他特性,比如说为什么这个地域的传播率很高呢?很有可能是政府投入不足,或者说其他的因素。
所以这也启发我们可解释性本身它的可信性是什么,它的准确性,它的公平性,它是否忽略了某些特征,或者夸大了某些特征,它的鲁棒性,是不是把样本变化一点,它的可解释性截然相反,这些需要我们进一步思考。
另外,我跟很多研究可解释的专家聊过,他们的困惑在于现在的可解释性方法是不可印证的,甚至是矛盾的,这就引出了可解释性方法本身的可信度的问题。
何凤翔:
在我看来,理解深度学习算法的运作机制,大致有理论和实践两条路径。在理论方面,当前的研究无法完全解释理论上泛化性较差的深度模型为何能在多领域取得如此的成功。这种理论与实践的矛盾,就像曾经物理学中的乌云一样,反映出来了人们对于机器学习理解的缺失,而这是现在在理论上提升算法可解释性的一个难点。
而在实验角度上,很多实验学科中的做法可以作为对于机器学习研究的启发,比如说物理学、化学,以及刚才提到的医疗。比如说药物研发流程中的合格检验,要做双盲实验;在物理学、化学的研究中,对控制变量实验有严格要求。类似的机制是否能在AI研究中严格执行呢?我觉得这可能是另外一条路径。在我看来,现有的很多对于AI算法的解释是启发式的,而在关键领域中我们需要的是证据,这需要在理论和实验两方面做很多工作。
可解释AI如何实现?
朱菁:
前面很多专家都指出对于解释有不同的目标,不同的对象,不同的要求,所以实际上关于人工智能的可解释性问题可能是属于多元性的,就是要允许有多种不同层次不同方式的解释在这里面起作用,针对不同的领域、不同的对象,使用不同解释的方式。
当可解释性有它的局限或者和其他的目标、要求,需要做出权衡取舍的时候,我们想也可以从多个层面来进行替代性的,或者说是补偿性、补充性的策略。比方说针对监管部门,它对于可解释性的要求,和面向公众或者专家层面的,会有所不同,所以这个可以通过若干个层次,比如说监管部门的,行业的,市场的,以及传播普及层面的,对于安全性、鲁棒性要求更高一些,或者在专家层面上有更好的沟通理解,而对于 社会 公众而言,这里面就需要有一些转换,同时有需要一些权威部门,有公信力的部门,向 社会 做一些说明和认定。
姚新:
深度神经网络可以解决特别复杂的问题,我觉得现在大家用深度网络有一个原因,即所针对的问题本身可能就比较复杂。这是一个假设。假如这个假设是对的话,那么相应的可解释性不会特别好理解。因为需要对付这些复杂性,相应的模型就必然是要复杂。
所以我总觉得透明性、可解释性和性能之间是有一个固有的矛盾,如果现在把从技术上讨论的方向,是怎么找一个折中方案,根据不同的场景、可解释的目的,找不同折中方案,这样导致有可能会出来一些比较具体的技术,或者可以促进这些技术往落地的方向走。
吴保元:
我们尝试过一些从技术上可行的方案去量化各种可信特性,但是,要实现统一量化很困难,比如说公平性和鲁棒性都有不同的量化准则和指标。当把不同的特性简单组合到一起的时候很难优化,因为它们的准则是高度不对齐的,差异非常大,这就涉及怎么去对齐这些特性坐标。我认为想要找到一个全局坐标系是非常困难的。我们可以从局部出发,针对某种场景,比如医疗场景,首先把隐私性当做前提,在金融或者自动驾驶,我们把鲁棒性当做前提,然后再去研究其他特性,或许一步一步能够找到这种坐标系。
可解释AI的技术现状?
郑冶枫:
总体来说,因为我们现在还缺乏非常好的理论框架,所以可能针对问题,我们创造性地想一些算法,试图提高本身这个系统的可解释性,给大家举两个例子来说明一下我们天衍实验室在这方面的 探索 。
深度学习可能有千亿、万亿的参数,这对于医生来说太复杂了,他很难理解这个算法的底层原理,算法本身可能缺乏一个全局的可解释性。但是深度学习框架准确率非常高,所以我们不可能不用。而可解释性非常好的模型就是回归模型,这类模型主要的问题就是准确率太低。所以我们做了一个 探索 ,我们希望把这两个模型结合起来,它具有非常高的准确率,还有一定的可解释性,不是完全可解释性。
我们把这个混合模型用于疾病风险预测,就是根据病人历次的就诊记录,我们预测病人在未来6个月之内得某个重大疾病的概率,比如他得卒中的概率。病人每一次的就诊记录包含大量信息,这里面我们需要提取一些跟预测目标相关的重要信息,我们知道生物学习网络最擅长的就是自动特征学习。所以我们利用深度学习网络把一次就诊记录压缩成一个特征的向量,接着我们利用回归模型,把病人多次就诊记录综合起来预测未来6个月之内这个病人得脑卒中的风险。
杨强:
我们在审视各个算法和它对应的可解释性的关联问题上,发现一个有趣的现象,比方说在机器学习里面,深度学习就是属于效率非常高的,但是它却对应的可解释性很差。同样,线性模型没有那么高,但是它的可解释性相对强一些,树状模型也是,因果模型更是这样。所以往往我们确实得做一个取舍,就是我们在可解释这个维度和高效率这个维度,在这个空间里面选择哪一个点,现在并没有在两个维度都高的这样一个算法。
可解释AI的行业实践
郑冶枫:
各行业对可解释性和透明性的要求不同,我结合医疗AI这个场景给大家分享一下我的体会和理解。大家知道医疗在全世界范围内都是被强监管的领域,一款医疗产品要上市必须拿到医疗器械注册证,辅助诊断算法AI产品属于三类医疗医疗,也就是监管最严格的级别,所以我们要披露的信息很多,大致包括数据集和临床算法验证两方面。前者主要强调数据集的公平多样性和广泛覆盖性,后者则重视披露我们的算法真正在临床试验中、真正临床应用的时候它的性能。
此外,我们的测试样本也需要有很好的多样性,覆盖不同医院,不同区域,不同病人群体、厂商、扫描参数等等。临床实验更加严格,首先我们要固化算法的代码,在临床试验期间是不能改代码的,因为你不能一边做实验一边改代码,这就失去了临床试验的意义。
所以医疗AI的监管是非常强的,药监局需要我们披露很多信息,提高医疗AI产品的透明性,它有非常严格甚至苛刻的书面要求。因为我们知道智能学习网络天然不具有很好的解释性,虽然你可以做一些中间增强,可以一定程度上改善这些事情,监管也可以理解这个解释性差一点,正因为解释性差,要求的透明性就越高。
何凤翔:
我觉得提供AI系统的说明书有两个路径:第一个路径从生成AI系统的过程出发。这一点现在有一些实践,比如开源代码,说明使用了什么数据,数据是如何使用的、如何预处理的。这会提升人们对AI的信任和理解,这也像刚才郑老师提到,申请医疗相关的资质的时候,我们需要把生产细节汇报给相关机构。
第二种方式就是从生成的AI系统所做出的预测以及决策的指标来入手做算法的说明书。比方对AI系统做一些测评。对于刚才我们提到的指标,包括可解释性、鲁棒性、准确性、隐私保护、公平性,找到一些比较好的量化指标、找到一些评测算法,把这些指标作为AI系统的使用说明书。
可解释AI的未来发展
杨强:我期待在未来人工智能的治理,在人工智能,人和机器这种和谐共存,共同解决我们要解决问题的前提下,会越来越成熟。我是非常看好这个领域的。
朱菁:我期待这个领域进一步的探讨,不同领域的学者都能够参与进来。比如说像我自己做的主要是哲学, 科技 哲学。在 科技 哲学,实际上对于解释有将近一百年的积累和 探索 ,这里面应该有很多可以发掘借鉴的资源,参与到目前这样一个很有意思很有挑战性的话题里面。
何凤翔:AI本身是一个跨学科领域,它可能会用到很多数学、统计、物理、计算机等各个知识的领域,今天提到的很多点,包括隐私保护、公平性,很多也是来源于人文学科、法律、 社会 学这些方面。所以这就意味着研究可信AI以及可解释性等等方面会需要各个学科领域的人合作起来一起去做的一件事情,会非常需要大家的通力合作,共同推进这个领域的发展。
姚新:对于做研究来说,我希望将来可以有一点聚焦的讨论。我刚才讲的3W,到底我们要解决透明性、可解释性的哪一部分,对谁而言。假如对医疗而言,是对法规的制定者来说还是对医生来说,还是对病人来说,还是对这个系统的开发者来说?我觉得在这里面有非常多可以发挥自己的想象力和能力的地方。
郑冶枫:对算法人员来说,当然我们希望将来科学家们找到非常好的,具有良好可解释性,同时准确性非常高的算法,真正做到鱼和熊掌兼得。
② 智能金融的内容是什么
1、什么是智能金融?
智能金融尚无统一定义。《报告》提出,智能金融是指人工智能技术与金融业深度融合的新业态,是用机器替代和超越人类部分经营管理经验与能力的金融模式变革。
2、智能金融和金融科技有什么区别?
《报告》提出,智能金融与数字化转型、金融科技既有密切联系又有重要区别。
智能金融的发展基础是金融机构数字化转型,数字化转型为智能金融的发展提供了基础设施的保障。
智能金融是金融科技发展的高级形态,是在数字化基础上的升级与转型,代表着未来发展趋势,已成为金融业的核心竞争力。
相比互联网金融、金融科技,智能金融更具革命性的优势在于对金融生产效率的根本颠覆。智能金融替代甚至超越人类行为和智力,更精准高效地满足各类金融需求,推动我国金融行业变革与跨越式发展。
3、为什么要专门研究智能金融?
把智能金融从金融科技中单列出来编制专门的发展报告,主要是基于以下考虑:
一方面,发展人工智能技术已成为我国的一项重要战略,当前各国在新一代人工智能技术已展开激烈竞争。而金融与人工智能具有天然的耦合性,是人工智能技术应用最重要的领域之一,发展智能金融有利于我国抢抓人工智能发展机遇,占领技术制高点,特别是金融业的特殊性,势必对人工智能技术提出新的要求和挑战,可以推动我国人工智能技术的突破与升级,提高技术转化效率。
另一方面,人工智能技术为未来金融业发展提供无限可能,是对现有金融科技应用的进化与升级,对金融业发展将会产生颠覆性变革。专门研究智能金融有利于跟踪世界人工智能技术与金融业融合的应用开发,有利于加强金融行业的适应性、竞争力和普惠性,极大地提高金融机构识别和防控风险的能力和效率,推动我国金融供给侧结构性改革,增强金融服务实体经济和人民生活的能力,守住不发生系统性风险的底线,加快建设我国现代化金融体系,增强金融国际竞争力,助力由金融大国到金融强国的转变。
4、智能金融现在有哪些应用场景?
《报告》提到,目前智能金融的应用主要包括前中后台三大方面。
第一,智能身份识别已广泛用于个人身份验证。以指纹识别和人脸识别为代表的主流智能身份识别技术已进入大规模应用阶段,在远程核验、人脸支付、智慧网点和运营安全方面应用广泛。
第二,智能营销降低营销成本、改善服务效能。智能营销正在经历从人机分工向人机协同方式的转变,未来的智能营销将变成跨领域、融合的人机合作工作方式,进一步改善金融服务的效能。
第三,智能客服能节省客服资源和提升服务效率。智能客服不仅提供自动化问题应答,而且对接前端各个渠道,提供统一的智能化客服能力,并持续改进和沉淀,提供全天候精准的服务,提升服务效率。
第四,智能投顾已有试点,全面推广有待继续探索。智能投顾在国内外已有诸多应用案例,但我国因为缺乏明确的业务模式、服务定位仍不明确,全面推广仍有待继续探索发展。
第五,智能投资初具盈利能力,发展潜力巨大。一些公司运用人工智能技术不断优化算法、增强算力、实现更加精准的投资预测,提高收益、降低尾部风险。通过组合优化,在实盘中取得了显着的超额收益,未来智能投资的发展潜力巨大。
第六,智能信用评估提升小微信贷服务能力。智能信用评估具有线上实时运行、系统自动判断、审核周期短的优势,为小微信贷提供了更高效的服务模式。在一些互联网银行中应用广泛。
第七,智能风控实现金融机构风控业务转型。智能风控为金融行业提供了一种基于线上业务的新型风控模式,但目前只有少部分有能力的金融机构运用,有待继续试点和推广。
第八,智能运营管理提升运营效率,降低运营成本。智能运营管理将业务运营逐渐从分散走向集中、从自动化走向智能化。从而提升业务运营效率,减少业务办理差错,降低管理成本。智能运营成为各家金融机构开展智能金融的优先考虑和使用的场景。
第九,智能平台赋能金融机构提升服务、改造流程、转型升级。智能平台建设是金融机构智能化转型的核心,持续为上层应用提供丰富、多维度的智能服务,构建完整的服务生态圈。
综上所述,智能金融目前整体仍处于“浅应用”的初级发展阶段,主要是对流程性、重复性的任务实施智能化改造。
《报告》认为,人工智能技术应用正处在从金融业务外围向核心渗透的过渡阶段,发展潜力巨大。
5、在智能金融应用场景中,“算法黑箱”问题可能会更加突出?如何避免?
肖钢认为,人工智能有一个问题是算法的可解释性比较差,要解决这个问题可以从几个方面来着手:
第一,要让算法可解释。现在人工智能科学家正在攻克模型算法的黑箱问题,期待着不久的将来在技术上有所攻破。
第二,可以采取分层管理。例如,根据是否对金融消费者产生伤害的程度进行分类管理,有的可以不解释,有的只是解释模型怎样运行的,有的要解释结果及其原因,有的需要进一步解释模型背后的逻辑和运作原理。当然,如果最后还是无法解释,投资者和消费者也不相信,监管部门就不准在金融领域使用。
因此,如果人工智能运用到金融行业,未必需要解释所有的模型,可以对模型进行分层管理,提出明确要求。
第三,分清楚责任。无论是否使用人工智能,金融机构销售金融产品和服务的卖者尽责义务没有减弱。机构需要了解自己的客户,把恰当的产品卖给恰当的人。责任不会因为是否采用了人工智能技术而有所改变。
6、个人隐私和数据保护问题已经成为社会普遍关切。智能金融时代,如何构建起相关法律法规体系?
《报告》中提到,个人数据的问题目前缺乏法律规定,确实需要立法。肖钢认为,数据很重要,尤其在人工智能时代,其重要性日益凸显,这与原来的工业革命时期不同。工业革命建立在物理资本上,而人工智能则是建立在信息资本和数据资本上。因此,谁控制了数据,谁就垄断了权力。
肖钢认为,个人隐私和数据保护领域有很多问题待明确,例如哪些数据能搜集、数据的权属是谁的、如何建立个人信息权的体系等,这些都是新的课题。
保护个人数据隐私,肖钢从以下方面提出建议:
第一,需要补短板,抓紧制定相关法律法规,并逐步加以完善。
第二,要防止数据垄断。鉴于大型科技公司的技术优势与数据获取能力,存在赢者通吃的效应,要求大公司开放数据,让中小科技公司也要利用其数据开发业务,维护公平竞争环境。
第三,要进行综合治理。数据隐私保护不仅是金融监管的事情,还涉及到政府部门、IT公司、金融机构、实体企业和个人,是全社会的事情,所以要形成各方参与,协同治理的体系。
第四,需要发展新技术,以解决技术带来的问题。“联邦学习”的技术就是一个方法,既保护了数据安全,同时又可以共享数据建模。
③ 机器学习模型可解释的重要及必要性
机器学习模型可解释的重要及必要性
不管你是管理自己的资金还是客户资金,只要你在做资产管理,每一步的投资决策都意义重大,做技术分析或基本面分析的朋友很清楚地知道每一个决策的细节,但是通过机器学习、深度学习建模的朋友可能就会很苦恼,因为直接产出决策信号的模型可能是个黑盒子,很难明白为什么模型会产出某一个信号,甚至很多保守的私募基金把模型的可解释性放入了事前风控。其实,模型的可解释性是很容易做到的,难点在于研究员是否对模型有深入的思考和理解。
介绍
机器学习领域在过去十年中发生了显着的变化。从一个纯粹的学术和研究领域方向开始,我们已经看到了机器学习在各个领域都有着广泛的应用,如零售,技术,医疗保健,科学等等。在21世纪,数据科学和机器学习的重要目标已经转变为解决现实问题,自动完成复杂任务,让我们的生活变得更加轻松,而不仅仅是在实验室做实验发表论文。机器学习,统计学或深度学习模型工具已基本成型。像Capsule Networks这样的新模型在不断地被提出,但这些新模型被工业采用却需要几年时间。因此,在工业界中,数据科学或机器学习的主要焦点更多在于应用,而不是理论。这些模型可以在正确数据上有效应用来解决现实问题是至关重要的。
机器学习模型本质上就是一种算法,该算法试图从数据中学习潜在模式和关系,而不是通过代码构建一成不变的规则。所以,解释一个模型是如何在商业中起作用总会遇到一系列挑战。在某些领域,特别是在金融领域,比如保险、银行等,数据科学家们通常最终不得不使用更传统更简单的机器学习模型(线性模型或决策树)。原因是模型的可解释性对于企业解释模型的每一个决策至关重要。然而,这常常导致在性能上有所牺牲。复杂模型像如集成学习和神经网络通常表现出更好更精准的性能(因为真实的关系在本质上很少可以通过线性划分的),然而,我们最终无法对模型决策做出合适的解释。为了解决和探讨这些差距,本文中,我会重点解释模型可解释性的重要及必要性。
动机
作为一名在企业工作的数据科学家并时常指导他人,我发现数据科学仍然常常被视为一个黑盒,它能用“魔法”或“炼金术”提供人们想要的东西。然而,严酷的现实是,如果不对模型进行合理足够的解释,现实世界的项目很少成功。如今,数据科学家通过构建模型并为业务提供解决方案。企业可能不知道模型实现的复杂细节,却要依靠这些模型做出决策,他们确实有权提出这样的问题:“我怎样才能相信你的模型?”或“你的模型是如何决策的”?”回答这些问题是数据科学实践者和研究人员数年来一直在尝试的事情。
数据科学家知道,模型解释性与模型性能之前有一个权衡。在这里,模型性能不是运行时间或执行性能,而是模型在做出预测时的准确度。有几种模型(包括简单的线性模型甚至基于树的模型),他们的预测的原理很好直观理解,但是需要牺牲模型性能,因为它们的产生的结果偏差或者方差很高(欠拟合:线性模型),或者容易过拟合(基于树的模型)。更复杂的模型,如集成模型和近期快速发展的深度学习通常会产生更好的预测性能,但被视为黑盒模型,因为要解释这些模型是如何真正做出决策是一件非常困难的事情。
虽然有些人说,知道模型性能好就行了,为什么还要知道它背后的原理呢? 然而,作为人类,大多数决策基于逻辑和推理。 因此,人工智能(AI)作出决策的模式无疑会受到怀疑。 在很多现实情况下,有偏差的模型可能会产生真正的负面影响。 这包括预测潜在的犯罪、司法量刑、信用评分、欺诈发现、健康评估、贷款借款、自动驾驶等,其中模型的理解和解释是最重要的。 数据科学家、作家Cathy O’ Neil在她的着名着作《Weapons of Math Destruction》中也强调了这一点。
着名学者和作家凯特克劳福德在NIPS 2017主题演讲《The Trouble with Bias》中谈到了偏差在机器学习中的影响以及它对社会的影响。
有兴趣的读者也可以看看她在纽约时报的着名文章《 Artificial Intelligence’s White Guy Problem》,向我们展示了机器学习应用的案例,包括图像分类、犯罪风险预测、交付服务可用性等等,这些应用对黑人极不亲善。 如果我们想利用机器学习来解决这些问题,所有这些真实世界的场景都在告诉我们模型解释是多么的重要。
在过去的一年里,我在解决行业问题的同时也看到了对模型解释的需求,同时我也在写我的新书《Practical Machine Learning with python2》。在这段时间里,我有机会与DataScience.com的优秀员工进行互动,他们非常清楚在机器学习模型中人类可解释性的必要性和重要性。他们也一直在积极研究解决方案,并开发了流行的python框架Skater。后续我们将深入研究Skater,并在本系列文章中做一些实际的模型解释。
理解模型解释
机器学习(尤其是深度学习)仅在最近几年才得到广泛的行业采用。因此,模型解释作为一个概念仍然主要是理论和主观的。
任何机器学习模型都有一个响应函数,试图映射和解释自(输入)变量和因(目标或响应)变量之间的关系和模式。
模型解释试图理解和解释响应函数做出的这些决定。模型解释的关键在于透明度以及人们理解模型决策的容易程度。模型解释的三个最重要的方面解释如下。
什么主导了模型预测?我们应该找出特征的相互作用,以了解在模型的决策策略中哪些特征可能是重要的。这确保了模型的公平性。
为什么模型做出某个特定决策?我们还应该能够验证为什么某些关键特征在预测期间推动某个模型所做出的某些决定。这确保了模型的可靠性。
我们如何相信模型预测?我们应该能够评估和验证任何数据点以及模型如何作出决策。对于模型按预期运行的直接利益相关者来说,这应该是可证明的,并且易于理解。这确保了模型的透明度。
可解释性是指人(包括机器学习中的非专家)能够理解模型在其决策过程中所做出的选择(怎么决策,为什么决策和决策了什么)。
在模型比较时,除了模型的性能,如果一个模型的决策比另一个模型的决策更容易被人类理解,则说该模型比另一个模型具有更好的可解释性。
模型解释的重要性
在解决机器学习问题时,数据科学家通常倾向于注意模型性能指标,如准确性、精确度和召回率等(毫无疑问,这很重要!)。但是,度量标准只能说明模型预测性决策的一部分内容。随着时间的推移,由于环境中各种因素造成的模型概念漂移,性能可能会发生变化。因此,了解什么促使模型作出某些决定是极为重要的。
我们中的一些人可能会认为模型已经工作得很好了,为什么还要深入挖掘呢?一定要记住,当解决现实世界中的数据科学问题时,为了让企业相信你的模型预测和决策,他们会不断提问“我为什么要信任你的模型?”,这非常合理。如果一个人患有癌症或糖尿病,如果一个人可能对社会构成风险,或者即使客户流失,您是否会满意于只是预测和做出决定(如何)的模型?也许另外一种会更好,如果我们可以更多地了解模型的决策过程(为什么以及如何),我们可能更喜欢它。这为我们提供了更多的透明度,说明为什么模型会做出某些决定,在某些情况下可能会出错,并且随着时间的推移它可以帮助我们在这些机器学习模型上建立一定的信任度。
这一部分关键的一点是,现在是时候停止将机器学习模型视为黑盒子,不仅尝试和分析数据,而且还要分析模型如何做出决策。实际上,走向这条道路的一些关键步骤是由着名论文《Why Should I Trust You?》(解释了任意分类器的预测)”开始的,由MT Ribeiro,S. Singh和C. Guestrin在SIGKDD 2016上介绍了LIME(Local Interpretable Model-Agnostic Explanations)(局部可解释模型 - 不可知论解释)的概念。
他们在论文中提到了一些值得记住的关键点。
然而,理解预测背后的原因在评估信任方面非常重要,如果计划基于预测采取行动,或者选择是否部署新模型,则对模型的信任是至关重要的。 无论人类是直接使用机器学习分类器作为工具还是在其他产品中部署模型,仍然存在一个至关重要的问题:如果用户不信任模型或预测,他们将不会使用它。
这是我们在本文中多次讨论的内容,也是决定数据科学项目在业界成功与否的关键因素之一。这就推动了模型解释的必要性和重要性。
模型解释方法的标准
对于模型解释方法的分类有特定的标准。在Christoph Molnar的“Interpretable Machine Learning,Making Guide for Making Black Box Models Explainable”中提到了一个很好的指导标准:
内在或事后?内在解释性是关于利用机器学习模型的,它本质上是解释性的(像线性模型、参数模型或基于树的模型)。事后解释性意味着选择和训练一个黑盒模型(集成方法或神经网络)并在训练后应用可解释性方法(特征重要性,部分依赖关系图)。我们将在我们的系列文章中更多地关注事后模型可解释的方法。
是针对某个模型的还是通用的?特定于模型的解释工具对固有模型解释方法非常具体,这些解释方法完全取决于每个模型的能力和特征。这可以是系数,p值,与回归模型相关的AIC分数,决策树的规则等等。通用的模型解释方法还是依赖于事后对模型的分析,可用于任何机器学习模型。通常通过分析特征输入和输出对来运行。根据定义,这些方法无法访问任何模型内部,如权重,约束或假设。
本地还是全局?这种解释的分类会谈到解释方法是解释单个预测还是整个模型行为?或者如果范围介于两者之间?我们将尽快讨论更多关于局部和全局的解释。
这并不是对可解释方法进行分类的一套完整的标准,因为这仍然是一个新兴的领域,但这可以是一个很好的标准,可以在多种方法之间进行比较和对比。
模型解释的范围
我们如何界定解释的范围和界限?一些有用的方面可以是模型的透明度,公平性和可靠性。本地还是全局模型解释是定义模型解释范围的明确方法。
全局解释性
这就是要试图理解“模型如何做出预测?”和“模型的子集如何影响模型决策?”。为了一次理解和解释整个模型,我们需要全局解释。全局可解释性是指能够基于完整数据集上的依赖(响应)变量和独立(预测)特征之间的条件相互作用来解释和理解模型决策。试图理解特征的相互作用和重要性,往往是理解全局解释的好的一步。当然,在尝试分析交互时,在超过两个或三个维度后对特征进行可视化变得非常困难。因此,经常查看可能会影响全局知识模型预测的模块化部分和特征子集,对全局解释是有所帮助的。完整的模型结构知识,假设和约束是全局解释所必需的。
局部解释性
这就是要了解“为什么模型会为单个实例做出特定决策?”以及“为什么模型会为一组实例做出特定决策?”。对于局部的可解释性,我们不关心模型的内在结构或假设,我们把它当作一个黑箱子。为了理解单个数据点的预测决策,我们专门关注该数据点,并在该点附近的特征空间中查看局部子区域,并尝试根据此局部区域了解该点的模型决策。局部数据分布和特征空间可能表现完全不同,并提供更准确的解释而不是全局解释。局部可解释模型 - 不可知论解释(LIME)框架是一种很好的方法,可用于模型不可知的局部解释。我们可以结合使用全局解释和局部解释来解释一组实例的模型决策。
模型透明度
这就是要了解“从算法和特征中创建模型的过程如何?”。我们知道,典型的机器学习模型都是关于利用一个算法在数据特征之上构建一个表示,将输入映射到潜在的输出(响应)。模型的透明性可以尝试理解模型如何构建的更多技术细节,以及影响其决策的因素。这可以是神经网络的权值,CNN滤波器的权值,线性模型系数,节点和决策树的分割。然而,由于企业对这些技术细节可能并不十分熟悉,试图用不可知的局部和全局解释方法来解释模型决策有助于展示模型的透明度。
结论
模型可解释是一个对现实世界机器学习项目非常重要的一件事情。让我们试着去研究人类可解释的机器学习,让每个人都打开机器学习模型的黑箱,并帮助人们增加对模型决策的信任。
写在最后:模型解释性很重要,这能够加深我们对模型的信心,尤其是在金融市场中,当模型持续回撤时,信心比黄金还重要。之前有一个私募团队使用了StockRanker策略,但是迟迟不肯上实盘,后来在弄清楚模型的理论原理和每一步细节、处理流程后,终于有信心上实盘,实盘前期遇到回撤也能明白是正常情况,并非模型预测失效,扛住前期的回撤后策略净值开始上升。因此,机器学习模型可解释很重要,模型也是可以解释的,只是需要研究员付出更多的心血
④ AutoML自动超参调优
现在AutoML非常的火,各大云平台都在推出自己的AutoML服务,包括Google Cloud,Amazon SageMaker,MS Azure等等。AutoML要解决的问题主要是释放机器学习过程中的人力投入,包括:
本文主要关注的是 模型超参优化 的自动化。
AutoML自动调参又可以称作黑箱超参优化(Blackbox hyperparameter optimization)。比较常见的做法是将调参系统和训练系统分离开,模型、数据和训练过程由用户来控制,调参系统给训练系统建议一组或多组参数,训练系统反馈结果,然后调参系统根据反馈结果产生下一组建议的参数。这个过程一直迭代直至满足了终止条件。
调参算法的输入是用户指定的参数及其范围,比如设定学习率范围为[0.0001, 0.01]。比较常见的算法为网格搜索,随机搜索和贝叶斯优化等。
遍历所有可能的参数组合。网格搜索很容易理解和实现,例如我们的超参数A有2种选择,超参数B有3种选择,超参数C有5种选择,那么我们所有的超参数组合就有2 * 3 * 5也就是30种,我们需要遍历这30种组合并且找到其中最优的方案,对于连续值我们还需要等间距采样。实际上这30种组合不一定取得全局最优解,而且计算量很大很容易组合爆炸,并不是一种高效的参数调优方法。
限定搜索次数,随机选择参数进行实验。业界公认的Random search效果会比Grid search好,Random search其实就是随机搜索,例如前面的场景A有2种选择、B有3种、C有5种、连续值随机采样,那么每次分别在A、B、C中随机取值组合成新的超参数组合来训练。虽然有随机因素,但随机搜索可能出现效果特别差、也可能出现效果特别好,在尝试次数和Grid search相同的情况下一般最值会更大
业界的很多参数调优系统都是基于贝叶斯优化的,如Google Vizier [1], SigOpt[2].
该算法要求已经存在几个样本点(一开始可以采用随机搜索来确定几个初始点),并且通过高斯过程回归(假设超参数间符合联合高斯分布)计算前面n个点的后验概率分布,得到每一个超参数在每一个取值点的期望均值和方差,其中均值代表这个点最终的期望效果,均值越大表示模型最终指标越大,方差表示这个点的效果不确定性,方差越大表示这个点不确定是否可能取得最大值非常值得去探索。
在调参的过程中,有的参数在训练的过程中,观察曲线的趋势,会发现它是不太有希望在训练结束达成目标的,这个时候,将这些任务终止掉,释放资源,继续别的参数的尝试。这样可以快速试错,快速调整。[1]
我调研了Github上开源的超参调优系统,按照受关注程度排序如下:
现在的调参系统基本上都是基于贝叶斯优化的思想,将调参任务作为一个黑箱优化的问题。在后面的博客中,我会详细介绍贝叶斯超参调优的思想。
[1] Google Vizier A Service for Black-Box Optimization
[2] SigOpt: https://sigopt.com/
⑤ 量子物理中违反因果律的现象有哪些
您好! 在量子叠加态,量子物体能以两种不相容的状态同时存在,比如薛定谔的猫——着名的死活并存的猫。然而最新研究显示,不仅在空间上不相容的状态可能并存,连时间上不相容的序列事件也可能。
我们通常认为,事件的发生是按照一定的时间顺序进行,比如A事件后随之造成了B事件,反之亦然。但在某些量子过程中,事件的发生并非只按照一种确定的顺序,而是同时以两种顺序(A在B之前和B在A之前)发生。这种有悖常理的类似叠加的现象称为“因果非分离”。
奥地利维也纳大学的马特乌斯·埃若乔说:“在日常生活中,我们经历的事件总是一件随着一件发生,后果随着前因,对此我们已经习以为常。所以认识到自然的深层本质并非如此,确实让人感到有点混乱,事情可以不按照一种确定的因果顺序发生,在此我们不能说什么是因,什么是果。”
迄今为止,科学家只是以一种非常抽象的方式来看待量子力学中的因果非分离现象,还没有清晰的物理上的解释。最近,埃若乔与其他合作者一起在《新物理学》杂志上发表新论文,描述了一种物理量子过程,可作为证明因果非分离的一个例子。
论文合着者、法国国家科学研究院和格勒诺布尔阿尔卑斯大学塞利尔·布兰西亚德说:“相对论动摇了绝对时间的观念,即认为存在一种绝对的全局性时间,每个人对时间流逝的体验及与时间的关系都是相同的。而相对论告诉我们,处于不同参照系的两个观察者,对于事件发生的先后顺序,看法并不一致。”
“另一方面,量子理论动摇了我们对‘真实’的理解,它告诉我们,物理系统可能没有确定的属性,而是处在一种互不相容的‘叠加’状态,比如同时处在死活两种状态的猫。现在我们发现,不只是物理属性,就连因果关系(或因果顺序)本身也是不确定的,可以处于某种叠加态——但直到不久前,这种现象一直未能在实验室观察到。”
研究人员探索的因果非分离量子过程称为“量子开关”(Quantum
Switch),是最近提出的一种提高量子计算机效率的方式。在此次研究中,他们介绍了一种因果非分离检测,类似于检测量子纠缠。这种新测试不仅能确定量子开关具有因果非分离性,还能确定任何因果非分离过程。这让新测试更加有用,可用于识别其他系统中的因果非分离性,将来或许能在实验中进行。
研究人员解释说,由于量子开关是因果非分离的,意味着操作不遵循一定的顺序,但并不意味着它违反因果律(如未来事件导致过去事件发生,则违反因果规律),这是因为在量子开关中没有明确的过去或未来,也没有确定的谁先谁后。虽然量子开关不违反因果规律,但问题依然存在:实际发生的物理过程是否也能这样?
以往的研究表明,量子开关比标准的因果分离协议在计算上更有优势,因此因果非分离现象在量子计算中也有应用前景。
布兰西亚德说:“对于量子计算机或任何能执行量子信息处理任务的设备来说,通常假设它们都是按照一定的顺序来执行操作,比如量子计算机标准‘线路模型’的基本假设,通常用于描述量子计算机的工作原理。因此,我们对大部分量子计算机能力(如解决哪种问题、效率高低、运行算法的复杂性)的了解,只限于具有确定因果顺序的操作,即都是因果分离操作。”
由于量子理论还允许有因果非分离过程(如量子开关),这就带来了新的可能性。人们会很自然地期望,因果非分离过程在执行某些任务时能胜过因果分离过程。
朱利奥·克里贝拉提出了这些任务中的一个例子,是关于在某个处理过程中,操作顺序如何确定的问题:当你执行“A然后B”,或者执行“B然后A”时,能否得到相同的结果?如果结果相同,这些操作可以说是“互易的”;如果结果不同,则这些操作是“非互易的”。
要回答这个问题,一个因果分离过程必须既能执行“A然后B”,又能执行“B然后A”两种顺序,并比较其结果;而一个因果非分离过程,如量子开关,要能同时执行这两种顺序,以量子叠加的形式一步解决问题。非分离过程不仅更高效,而且在某些情况下,是解决问题的唯一方式——比如,执行量子运算的“黑箱”可能只用一次就会破坏,所以这种程序就只能一次性执行。
由于量子开关是因果非分离性的最简单例子,研究人员希望其他的因果非分离过程拥有更大优势。布兰西亚德说:“从更普遍的角度说,我希望因果非分离过程还能用于更多情况——就像量子纠缠在量子信息处理中广为应用那样,其全部潜能仍有待发掘。”
谢谢阅读!
⑥ matlab里有对约束函数为黑箱函数适用的优化算法么
这个ga工具箱只能解决简单的线性约束问题,你的约束条件是非线性约束,所以你还是要使用gatbx菲尔德大学的那个工具箱,你的问题带有不等式约束,转化为无约束的拉格朗日对偶问题求解
⑦ 强化超大互联网平台个人信息保护义务,信息化管理如何实现
据媒体报道,2021年4月26日第13届全国人大常委会第28次会议在京开幕,其中提出了草案二审稿,规定将强化超大型互联网平台的个人信息保护义务并加强监督。此消息在社交平台上发酵后,引起了网民们的广泛关注与讨论。
部分网民们认为随着互联网的发展,实际上技术赋权也造就了一种技术特权阶层,应该对他们的特权进行规范;也有部分网民们认为,该如何去规范这些社交平台呢?在当前实现信息化管理是一个棘手的问题,而如何进行信息化管理使得各大平台保持其公序良俗呢,笔者有以下的看法。
一、政府规范平台的算法黑箱互联网行业中,各大企业虽然是私企,但是因为它们的规模很大,所以它们也必须要承担起社会责任。当前的人们是生活在现实生活之中,当然也是生活在网络之中,而互联网平台作为网络场域的营造者和建构者,它们必须要做到自律,必须要对自身所营造的网络环境进行负责,这也是社会所赋予他们的责任。
四、公民进行监督因为互联网平台对于个人信息的窃取实际上已经侵犯到了公民的隐私权,因此公民们应该对此行为进行监督,在强大的监督之下,会使得互联网平台去规避此类违规行为。
⑧ 智能手环的监测“黑箱”:用户心率谁说了算
前言
在2021年,随时掌握自己的心率,并不是一件很困难的事。
6月25日,苹果旗下的Apple Watch终于拿到了拿到国药监局心电图、房颤监测医疗器械上市批准。实际上在2018年,苹果的Apple Watch Series 4就已经有了心电图检测功能。只不过由于心电图属于医疗器械功能,苹果当初没能通过认证,无奈“锁区”中国。
入局国内可穿戴设备 健康 领域的,不光有姗姗来迟的苹果。国外厂商有Fitbit,国内厂商有华为、华米。这些厂家目前的智能手表、手环产品都可以进行心率、血氧等数据的监测,甚至在未来还可能“不扎针测血糖”。
厂商能够如此发力,也是因为相关领域市可观:据市场统计数据显示,到2025年,医疗可穿戴设备市场价值将超过480亿美元。
听起来,“ 健康 手环”的市场红红火火。然而戴上手环监测心率的消费者,可能并没有考虑过一个问题:数据的主导权,到底在谁手里?
01 同样心率,不同的数据
问题的起源,源自一次统计学研究。负责研究的,是哈佛大学公共卫生学院副教授JP Onnela。
在学术领域,他一般不会引入Apple Watch这类消费级产品,而是用实验室设备做研究。不过他最近与一家医院合作研究,使用了Apple Watch收集数据。
他因此对“心率手环”产生了兴趣:不管是厂家还是研究者,大家都知道设备收集的数据有问题。他和团队也想看看,数据问题究竟有多大。
研究团队收集了2018年底到2020年9月的心率数据,并且把数据通过 Apple Watch导出:第一次是2020年9月,第二次是2021年4月。也就是说,既然原始数据没变,Apple Watch处理数据没问题,两次的数据处理结果应该很接近。
然而实验的结果,却让人大跌眼镜:在原始心率不变的前提下,两次数据的重合度并没有那么高。黄色曲线和蓝色曲线“各玩各的”,根本看不出是同一个人的心率。
如果从数据离散程度来看,其中一组数据比较扎堆,还算是“联系紧密”。另一组数据则到处都是,“放飞自我”。两组数据放到一起,几乎没有什么关联性。
根据Onnela自己博客的说法,“两组数据的结果,可能是这类偏差中最明显的代表”。
02 你的心率,算法说了算?
同一组心率,同一个Apple Watch,输出结果为啥差异这么大?答案很简单,算法。
在传统的心率测量中,收集数据很简单:患者贴上电极,设备导出心电图。心电图的结果,就是未经处理的原始数据。没有算法,没有AI。测出什么结果,就是什么结果。
可是到了手环这里,规则就变了:智能手环测量之后,并不会立刻导出,而是进行算法的分析和过滤。研究人员接触的,就是被“优化”的数据,跟实际心率相比,就会产生偏差。
单纯的“优化”,还不是问题全部。分析的算法,也会被“优化”成“一天一个样”:在之前提到的研究中,Onnela就表示,可穿戴设备算法就是“黑匣子”:设备厂商只知道定期更新算法,然而研究人员根本不知道算法怎么统计数据。导致输出结果缺乏可比性。
现有的结果加上可能的担忧,让Onnela在后续研究中,已经放弃用消费级可穿戴设备收集数据。他也很含蓄地表示,算法的“黑匣子”对研究人员来说,是一个“持续的挑战”。
密歇根大学的Olivia Walch说得就比较直接:虽然她也研究可穿戴设备,但她让研究团队直接使用原始数据。因为她研究的是睡眠监测,需要长期跟踪,试验成本也很高。如果靠“智能手环”的算法输出结果,那研究就要因为版本变动重新开始。
从Walch的角度来看,就算自己能接受算法更新,她也没法提前知道变动:企业没什么理由去特意通知研究人员算法有变化,但是因为产品更新,企业往往会主动更新算法。
对于严谨的研究而言,频繁变动规则得到的数据,本身就不值得信任。对于 健康 监测的应用而言,Apple Watch也应该提供持续稳定的医学数据,而它显然没有做到。
03 使用偏差,“手环”不智能
实际上,Apple Watch为代表的“智能 健康 监测”设备,从官方审批中就透露着一股不靠谱。
2018年9月,苹果公司宣布,Apple Watch Series 4的心电图 (EKG) 和心率监测功能获得了美国食品与药品管理局 (FDA) 的许可。
然而FDA的用词却十分值得玩味,因为FDA对新器械的评级分为三个指标:公示、许可和批准。
公示的产品不需要FDA的专业审查,标准最宽松。需要批准的产品有不小的使用风险,需要大量测试评价,也让需要批准的III类产品,仅仅占据器械市场的10%。
如果把“智能手表/手环”放到这个体系中评价,就会发现。这些设备有技术门槛,需要把关,光是公示肯定不够。但是“监测心率”的功能,也没有深入到疾病治疗,使用风险很低,整体来看,还是许可比较合适。
“许可”的定位,也代表了可穿戴监测设备的产品困境:生产不简单,使用不靠谱。
以苹果、华米等厂家对外宣传的心电图和房颤监测功能为例。厂商之所以推广这一特定领域,是因为目前技术条件下,“智能手环”只能做到单导联心电监测。和临床的12导联相比,监测方式比较“粗枝大叶”,无法给出精确的数据。
苹果在Apple Watch相关功能的宣传中,也只能表示“数据仅供参考”。告诉消费者“掌握 健康 ”,实际使用却说“想掌握 健康 请自己找医生”,未尝不是在玩弄消费者的预期。
除此之外,可穿戴设备在使用体验上依旧比较模糊。“数码设备”加上“医疗功能”的双重属性,让消费者对于这类产品的需求,是“既方便又精确”。
然而使用“智能手环”的消费者并不是专业的医生,使用习惯也存在着差异,导致产品体验缺乏合理标准:手环调的太紧,出门剧烈运动,都会导致手环的“ 健康 警告”。“仅供参考”的价值更是无从谈起。
04 智能监测,先要定规矩
不论是“数据筛选”还是“仅供参考”,智能手环为代表的可穿戴医疗设备都面临着同样的问题:在行业依旧处于前期发展阶段、技术条件依旧有限的前提下,如何在专业层面上,为消费者提供真正有说服力的产品。
目前的可穿戴医疗设备行业,不论是传统的医疗器械厂商还是新兴的数码设备企业,都想在行业发展早期野蛮生长,从而占据市场。去年,有14款可穿戴设备产品通过了FDA审批,国内也有18款设备获得药监局认证,相当于之前三年获批产品的总和,可穿戴设备的热度由此可见一斑。华为、歌尔、OPPO纷纷下场,行业热度急剧攀升。
不管可穿戴设备有多么“数码”,实际应用的分类依旧是“医疗器械”。既然涉及到了医疗 健康 ,就要按照医疗 健康 领域的标准对产品进行管理。然而从相关产品的市场来看,不论是数据收集还是实际使用,可穿戴医疗设备的“最终解释权”有太多都跑到了企业手里。
这样的市场,光靠企业自律制定行业标准显然不够,还需要相关部门针对行业现状,推出专门的行业标准。2015年,FDA将可穿戴 健康 设备划入“一般 健康 ”设备的范畴,并制定了相关法规。作为对比,2017年底,药监局对外发布了《移动医疗器械注册技术审查指导原则》,然而这些规则的具体执行,仍然需要进一步的细化和明晰。
使用智能手环的消费者,要的是监测 健康 带来的安心生活,而不是数码行业的高强度竞争。如果企业沉迷更新产品和算法,无视真正的需求,那么他们就需要一场真正的“教育”。因为代表消费者 健康 的数据,只有消费者说了算。
来源|科工力量