在人工智能领域,那些正在走向自主的信息网络目前就是无法解释。

编者按

现象级畅销书《人类简史》作者尤瓦尔·赫拉利总是能在人们熟悉的话题中,找到一些新的视角和启示。继《人类简史》《未来简史》《今日简史》之后,他今年又推出新著《智人之上》,这本书探讨的是在信息生产和传播逐渐由人工智能掌控时,人们需要了解信息如何协助建立起人类网络,以及了解信息与真理、真相以及与权力之间的关系,这甚至已经成为了一种新的人权。本文选摘自本书第九章《得到解释的权利》。

一种新人权:得到解释的权利|巴伦读书会

计算机正在做出越来越多关于我们的决定,有些只关乎日常小事,但有些关乎生命大事。除了用来量刑,算法在我们能不能上大学、能不能找到工作、能不能得到各项福利,以及申请贷款是否成功等方面也发挥着越来越大的影响。同样,算法也会影响我们会得到怎样的医疗、得支付多少保费、会听到怎样的新闻,以及会与谁约会。

随着社会把越来越多的决定权交给计算机,民主的自我修正机制、透明度与问责制都会受到挑战。如果算法如此高深莫测,民选官员如何被监督?所以,已经有越来越多的人要求保障一项新的人权:得到解释的权利。

2018年生效的欧盟《通用数据保护条例》规定,如果算法做出对某人的决定(例如拒绝提供信贷),当事人有权得到相关解释,也能在由人类组成的某个机构或个人面前挑战这项决定。理想情况下,这应该能够制衡算法的偏差,也能让民主的自我修正机制得以找出并修正至少部分计算机的重大错误。

象征人工智能革命的第37手

但这种权利究竟能否落实?穆斯塔法·苏莱曼是这个领域的世界级专家,是人工智能公司DeepMind(可以说是全球数一数二的人工智能企业)的联合创始人和前首席执行官,他过去的成就包括研发出AlphaGo(阿尔法围棋)程序等。AlphaGo专为下围棋而设计,在这种策略性棋盘游戏中,两名玩家通过吃子围地来击败对方。这种游戏发明于古代中国,远比国际象棋复杂。因此,就算计算机击败了人类的国际象棋世界冠军,专家依然相信计算机下围棋永远无法赢过人类。

正因如此,AlphaGo在2016年3月击败韩国围棋冠军李世石的时候,围棋界和计算机行业的专家都目瞪口呆。苏莱曼在2023年的著作《即将到来的浪潮》(The Coming Wave)中谈到了这类比赛最重要的时刻——这个时刻重新定义了人工智能,许多学界与政界也认为这是人类历史的转折点。2016年3月10日,比赛进入第二局。

“接着……第37手,”苏莱曼写道:“这一手完全说不通。AlphaGo显然被吓坏了,盲目用了显然必败的策略,任何职业棋手都不会这么下。现场直播的两位解说员都是排名顶尖的专业棋手,他们也认为这是‘很奇特的一手’,并认为这一手是‘一个错误’。这一手奇特到李世石足足花了15分钟才做出回应,其间甚至得先离开棋局到外面走一走。我们在监控室看着,气氛紧张到非常不真实。但随着终局逼近,当初‘错误’的一手被证明至关重要。AlphaGo再度胜出。围棋的策略就这样在我们眼前被改写。我们的人工智能,找出了几千年来最杰出的棋手都没想到的棋步。”

第37手成为人工智能革命的象征,原因有二。第一,这让人看到人工智能本质上的非人类与难以理解。在东亚,围棋绝不只是一种游戏,而且是一种珍贵的文化传统。自古以来,合称“四艺”的琴、棋、书、画、是文人雅士必须熟习的技艺。2500年来,下过围棋的人不计其数,影成了各种思想流派,各有不同的策略与哲学。但过了几千年,人类心菩还是只探索了围棋领域的部分区域,至于其他区域,人类连想都没想过,这些区域就一直是无人之境。但人工智能并不受人类心智的限制,于是得以发现并探索那些人所未见的区域。

第37手展示了人工智能的高深莫测。就算AlphaGo下了这手而赢得胜利,苏菜曼与团队也无法解释AlphaGo到底是怎么决定要下这一手的。就算法院命令DeepMind向李世石提供解释,这项命令也没有人能够执行。苏莱曼写道:“我们人类面临一个全新的挑战——未来的新发明,会不会完全超越我们理解的范围?以前,就算要补充大量的细节,创作者也能够解释某件事物是如何运作的,背后有什么原理。但现在,情况不是这样了。许多科技与系统已经变得如此复杂,没有任何一个人有能力真正理解……

在人工智能领域,那些正在走向自主的信息网络目前就是无法解释。你没有办法带着人一步一步走过整个决策过程,准确解释为什么算法会做出某项特定预测。工程师没办法看到机器的外壳下面发生了什么,更没办法轻松而详尽地解释各种事情是如何发生的。GPT-4、AlphaGo等技术软件是一个又一个黑盒子,输出的信息与做出的决定,就是基于各种不透明而又极其复杂的微小信号链。”

为了获得贷款,请保持手机电量充足

这种非人类的、令人难以理解的智能会让民主受到损害。如果越来越多关于人民生活的决定都是在黑盒子里完成的,选民无法理解,也无法挑战那些决定、民主就会停摆。特别是如果这些由高深莫测的算法做出的关键决定不仅影响个人生活,甚至涉及美联储利率这样的集体事务,世界会变成什么模样?

人类公民或许还是会继续投票选出人类的领导人,但这不就是仪式而已吗?时至今日,只有很少一部分人真的了解金融体系是如何运作的。经济合作与发展组织2016年的一项调查发现,大多数人甚至连复利这种简单的金融概念都无法理解。

英国国会议员肩负重任,要监督全球最重要的金融中心的运行,但2014年的一项针对英国国会议员的调查发现,只有12%的议员真正了解银行放贷的过程会创造新的货币。而这件事只是现代金融体系最基本的原理之一。正如2007—2008年的全球金融危机让我们看到的,一些更复杂的金融工具(例如担保债务凭证)与其背后的原理,只有极少数金融专家才能理解。等到人工智能创造出更复杂的金融工具,全球再也没有任何一个人类真正了解金融体系时,民主会发生什么改变?

近期之所以会出现一波民粹政党与魅力领袖的浪潮,原因之一就在于我们的信息网络变得越来越高深莫测。信息仿佛排山倒海而来,令人难以消化、不知所措,民众觉得自己一旦再也看不懂世界是怎么回事,就很容易成为阴谋论的猎物,于是想向某个自己能够理解的事物,也就是某个人类,寻求救赎。

遗憾的是,在算法逐渐主导世界的现在,虽然魅力领袖绝对都有其长处,但一个人不论多么鼓舞人心或才华横溢,单凭一己之力绝不可能破解算法运作的谜题,也无法确保算法真正公平。问题在于,算法在做出决定时参考了大量的数据,但人类却很难有意识地对大量数据进行反思、做出权衡。我们就是比较喜欢面对单一的数据。如果碰上复杂的问题(不管是贷款、疫情还是战争),我们常常希望能找出某个单一的理由,采取特定的行动。这就是所谓的单一归因谬误。

人类不善于同时权衡诸多不同因素,所以如果有人为某个决定给出许多理由,反而会让人觉得可疑。假设有位好朋友没来参加我们的婚礼,如果他只讲了一个理由(“我妈住院了,我得去看她”),听起来似乎很合理。但如果他列了50个理由呢?“我妈有点儿不舒服,我这个礼拜得带狗去看兽医,我手上有工作,当时还在下雨……我知道每个理由听起来都不算是没去的合理理由,可是这50个理由加在一起,我就没办法去参加你的婚礼了。”我们之所以不会说出这样的话,是因为我们的脑子不会这样想。我们不会有意识地在心里列出50个不同的理由,分别给予不同权重,再全部加总得出结果。

然而,算法正是这样评估我们的犯罪风险或信用水平的。以COMPAS为例,它的犯罪风险评估基于一份有137个项目的问卷。那些拒绝发放贷款的银行使用的算法也是如此。要是欧盟的《通用数据保护条例》要求银行解释算法究竟是如何做出决定的,这里的解释绝不会只有一句话,而很有可能包括长达几百甚至几千页的数字与方程式。

想象一下,银行的解释信大概会这样写:“敝行的算法采用一套精确的积分系统来评估所有贷款申请,共考虑1000个不同类型的因素,并将所有因素的分值相加得出总分。总分为负数,则属于低信用度客户,贷款风险过高。贵客户总分为-378分,因此请恕敝行无法核发贷款。”接着,信里可能会详细列出这套算法所考量的1000个相关因素,有些甚至大多数人会觉得根本无关,例如几点提出的申请、申请人用的是哪款智能手机。

接着再到这封信的第601页,银行可能会解释说:“贵客户通过智能手机提出申请,而且是苹果手机最新的机型。根据分析数百万份过去的贷款申请,敝行的算法发现一个规律——使用苹果手机最新机型的申请者,还款的可能性高0.08%。因此,算法已为该客户的总分加了8分。然而,贵客户在申请时,手机电量已降至17%。根据分析数百万份过去的贷款申请,敝行算法发现另一个规律允许智能手机电量低于25%的客户,还款可能性会降低0.5%。因此,算法已为该客户的总分扣50分。”

你可能觉得银行太莫名其妙了,并抱怨说:“光是因为我的手机电量低,就拒绝核发贷款,这合理吗?”但这种说法实在是误会。银行会解释:“电量并不是唯一的因素,那只是敝行算法考虑的1000个因素里面的一个而已。”

“可是你们的算法难道没看到,我在过去10年里只透支过两次?”

“算法显然注意到了这一点,”银行可能会这样回答:“请看第453页。您在这里得到了300分。是其他所有因素的作用,才让您最后的总分为-378分。”

用算法来审查算法,就像用贼来抓贼

这种做决定的方式,虽然对我们来说可能很陌生,但显然也有些潜在的优势。一般来说,做决定的时候能考虑到所有相关的因素,而不是只看一两项比较突出的事实,通常都是好事。当然,究竟哪些信息才算“相关”,还有很大的争论空间。核发贷款的时候,由谁决定智能手机型号或申请人肤色这些信息与贷款申请是否相关?然而,不论我们如何定义相关性,“能够考虑更多因素”应该都是好事。

事实上,许多人类的偏见正是因为只专注于一两个因素(例如肤色、性别或是否残疾),而忽略了其他信息。银行与其他机构之所以越来越喜欢用算法做决策,正是因为算法能够比人类将更多因素纳入考量。

但到了要给出解释的时候,就会出现可能难以克服的障碍。对于一项参考了这么多因素所做出的决定,人类的心智要怎么加以评估分析?我们很可能会觉得,威斯康星州最高法院实在应该要求Northpointe公司披露COMPAS判定埃里克·卢米斯具有高犯罪风险的过程细节。但就算真的披露了所有资料,卢米斯和法官又真的能理解吗?

这里的问题还不只是有大量的因素需要考量,或许最重要的是,我们无法理解算法是怎么从数据里找出规律模式并决定如何配分的。就算我们知道银行算法会找出允许智能手机电量低于25%的人,并给这些人扣掉一定的分数,我们要怎么判断这公不公平?毕竟并不是人类工程师写了这条规则要求算法照办,而是算法分析了过去几百万份贷款申请,从中发现规律模式,才得出了这样的结论。难道光凭贷款申请人自己就能去检查所有资料,判断这种规律模式是否真的公正可靠吗?

然而,在这片数字乌云的背后,其实还有一片灿烂的阳光。虽然一般人确实无法独力去检视那些复杂的算法,但专家团队在人工智能工具的协助下,评估算法的决策是否公平,其结果可能比人类评估人类的决策是否公平来得更可靠。

毕竟,虽然人类的决策表面上基于我们意识到的那几个数据点,但是人类的潜意识会受到成千上万其他数据点的影响。虽然每个决定都是大脑里几十亿个神经元互动之后的结果,但由于我们并未意识到那些潜意识,因此一旦去回想或解释,我们就常常只会从单一数据点来加以说明。这样一来,要是有一位人类法官判处我们6年有期徒刑,我们(或法官)要怎样才能确定这项判决真的是出于公正的考量,而没有受到半点潜意识中的种族歧视,甚至是法官当时肚子饿的影响?

对有血有肉的法官来说,至少以目前的生物学知识,这个问题是无解的。相较之下,如果是由算法来做出决定,理论上我们还是能够得知其中所有的考量因素,以及每个因素被赋予了多大的权重。从美国司法部到非营利新闻机构ProPublica的多个专家团队,都对COMPAS进行了仔细的拆解分析,想了解其中究竟可能有怎样的偏差。这些团队不但能发挥众人合作之力,甚至还能利用计算机的力量。就像是做贼的往往最知道怎么去抓贼,所以我们也大可用算法来审查算法。

这又会带出一个问题:要怎样才能确定那个负责审查的算法本身没有毛病?这是个先有蛋还是先有鸡的问题,到头来并不会有一个单纯的技术上的解决方案。不论研发了怎样的技术,人类都必须维持官僚机构制度,由人类负责审核算法,决定要不要盖下那个许可的印章。这些机构制度将结合人类与计算机的力量,确保新的算法系统安全公正。要是没有这样的机构制度,就算我们通过了让人类有权得到解释的法规,甚至施行了禁止计算机偏差的规定,又有谁能够真正加以执行?

智人之上:从石器时代到AI时代的信息网络简史

原名:Nexus: A Brief History of Information Networks from the Stone Age to AI

作者:尤瓦尔·赫拉利

译者:林俊宏

出版社:中信出版集团

文|尤瓦尔·赫拉利

编辑|喻舟

版权声明:

《巴伦周刊》(barronschina)原创文章,未经许可,不得转载。

(本文内容仅供参考,不构成任何形式的投资和金融建议;市场有风险,投资须谨慎。)