这两年因果AI真的太火了!相信近两年关注AI领域的读者,不难发现有一种声音越来越多、越来越大:因果AI将是下一代可信AI技术,因果革命将开启下一代AI浪潮。
为因果AI鼓与呼的文章,论证逻辑基本是差不多的:
你要写因果AI,就不能只写因果AI;
要写深度学习“炼丹”,写人们对可信AI的向往;
要写科学家们阵容,写强人工智能与机器认知;
写AI学会因果推理的神奇,写产业掀起因果革命的波澜;
写一家AI公司的技术初心,写AI商业化的前程似锦……
客观来说,探索下一代可信AI早已在学术界和产业界讨论已久,其中因果推断与机器学习相结合,也是重要方向之一。不过,围绕因果AI的技术探讨与产业推论,论证逻辑都有点复杂和跳跃。
因果AI究竟在可信AI技术体系中扮演什么角色?因果AI如何提高AI的可解释性?因果AI的商业化潜力究竟如何?——这些问题似乎很容易被图灵奖、可信AI、通用人工智能、因果革命等宏大的概念和辞藻一带而过,再往深处问,似乎就不太礼貌了,科学家说的还能有错吗?
AI要学会因果关系,可能道阻且长,但人类进化几万年早就将其刻进了DNA。比如一个枪手,先开出一枪,再在弹孔上描画出靶心,相信看到这一幕的观众,很难相信这是位“神枪手”,因为后画的剑靶跟枪法准之间,并没有必然的因果关系。
那么,如果一个科学家、一家公司先打了因果AI这一枪,然后画出“可信AI”这个靶子,再宣布自己引领了下一代产业浪潮,当然也令人迷糊。
可信AI怎样才能正中红心?因果AI这一枪究竟射中了什么?我们今天就来详细拆解一下因果AI热度背后的打靶游戏。
故事的前提:
一个名为可信AI的靶子
今天,如果你在搜索引擎上输入“因果AI”或“Causal AI”的关键词,那么权重极高的文章或联想词,都是“下一代可信AI”。
这是一个非常有意思的现象,因为因果AI并不是什么新事物,在深度学习为主导的“上一代不可解释不可信AI”流行的大约十年里,关于因果推断、因果AI的概念就已经存在了。既然对于因果关系的研究一直进行,为什么近年才成为爆款?
早在2011年,图灵奖得主,贝叶斯网络之父朱迪亚·珀尔(Judea Pearl)就预言了现在人工智能的发展进入的新的瓶颈期,提出人们应该更关注人工智能中的因果推断。而朱迪亚·珀尔与人合著的《为什么:因果关系的新科学》,也是目前市面上能够买到的、为数不多的因果AI教科书。他本人也多次为因果AI站台,国内较为知名的一次布道,是2020年6月在第二届北京智源大会上所做的演讲,《新因果科学与数据科学、人工智能的思考》,提出数据科学正在从当前以数据为中心的范式向以科学为中心的范式偏移,现在正在发生一场席卷各个研究领域的“因果革命”。
(朱迪亚·珀尔〈Judea Pearl〉)
显然,我们可以得出一个结论,因果AI作为一种技术理念,正是因为命中了“下一代可信AI”这个靶子,才爆红的。也就是说,人们本质上是期待一种新的AI,因果推断只是其实现方式之一。
这里有必要解释一下,因果AI对于实现可信AI的影响究竟有多大?
深度学习为主流的AI存在无法解释的“黑盒子”问题,这一点久遭诟病,因此可解释的、鲁棒的、安全可控的可信AI,成为业界呼唤的对象。
盖瑞·马库斯在《如何创造可信的AI》一书中,总结了AI与现实脱节的三个大坑,因果AI算是走出大坑所需要的那捧夯土:
第一是“轻信坑”。认为人类喜欢用基于人类的认知模式去看待机器的能力,从而轻信机器拥有人类般的智慧,这导致了对现实AI的不信任与失望情绪。比如AI系统无法依据常识做出合理的决策与反应,被吐槽为“人工智障”。试想一下,如果AI机器能够对自己的行为与后果进行思考,自然也就更具智慧了,因果推理是让机器获得常识的先决条件。
第二是“虚幻进步坑”。假设AI的学术进展,也能解决现实中的类似任务。由于现实世界往往具有很大的复杂性和不确定性,而传统机器学习算法更擅长寻找相关性和关联,关联机制是不可靠、不稳定的。与之相比,因果关系结构稳定,具有不变性,这就为AI模型理解和适应变化的现实世界提供了帮助。
第三是“鲁棒坑”。深度学习受限于算法、数据,缺乏泛化和鲁棒性,在一些容错性很低、风险敏感的领域,比如无人驾驶、医疗诊断等,限制了AI的落地。不可解释的黑箱模型算法不透明,无法对用户解释背后的原理:为什么要这样决策?是A因素导致了B结果吗?如果不做C这件事,可能发生什么?而因果AI能够对生成的结果进行解释,让模型更令人信服。
若想跨越“AI鸿沟”向前走,就需要找到新策略,发展下一代可信AI。可信AI的主要框架包括:鲁棒性、可解释性、隐私保护、公平性。
不难发现,要实现真正的可信AI,需要的是多种软硬件技术、政产学研用共同推动的。
以2021年WAIC可信AI论坛发起的《促进可信人工智能发展倡议》为例,其联合发布单位就包括:中国信通院、中国科学院自动化研究所中英人工智能伦理与治理研究中心、京东探索研究院、蚂蚁集团、上海市人工智能行业协会、金砖国家未来网络研究院中国分院、华为、黑芝麻智能、艾耕科技、富数科技、眼神科技、瑞莱智慧、医渡云、锘崴科技、洞见科技、中国科学技术大学、清华大学、复旦大学、上海交通大学、浙江大学、武汉大学。
下一代可信AI,在底层技术基础上需要数据、芯片、隐私计算、区块链等综合运用,法律法规和行业联盟从治理层面实现可信AI的全球共治、规范发展、符合伦理。
所以,与其说“因果AI对可信AI很重要”,不如说是可信AI的到来与发展,为因果AI提供了时代的舞台。
因果AI这一枪,力度几何?
大家可能会问,可信AI需要的技术那么多,什么区块链啦,联邦学习啦,计算芯片啦,只有“因果革命”掀起了“下一代AI浪潮”,所以因果AI技术一定是射中可信AI靶心的力度更大的那一枪。
一些旗帜鲜明看好因果AI的作者,都会引用多位AI科学家的判断。除了耳熟能详的珀尔,就是“人工智能三巨头”中的Yoshua Bengio、Yann LeCun,他们都曾公开说过:因果推理是改善ML/DL(深度学习)泛化的重要方法。
但我们也要同时看到,AI历史上从来不缺乏大量派别、各种团队针对一个目标去做并行探索的,其中很多路线可能会失败,最终“进化”出关键突破,著名的“人工智能钟摆”,就是在连接主义和符号主义之间来回震荡,各领风骚十数年。提到这个是想说明,单凭几个科学家对自身研究领域的推广,并不一定能开启一个AI浪潮或时代。
我们也可以找到一些科学家,对因果AI的未来表示谨慎。比如就有研究者提出,AI发展的一个主要方向是不要过度模仿人类的因果推理(因为这种因果推理是有一定问题的),而应该注重预测、行动和想象力。
也有学者认为,因果发现的算法复杂度高、难以扩展到特征数量多的场景下,对于因果关系的解释,在许多情况下是不可用的,或者过于复杂,难以被受影响的人理解。佐治亚理工学院的一篇论文,则提出了“可解释性陷阱(Explainability pitfalls ,EPs)”的概念,认为对于AI系统的解释不一定都能带来积极的结果,还可能产生负面影响。
此外,因果分析也不足以解决算法公平性的问题。因为发现因果要依靠大量的统计,而统计的假设是人类未来的行为总是会与过去惯常的行为一致,也就是说,如果一开始就存在结构性偏见和不公平,比如白人比黑人受教育程度更高,男性贷款批准率比女性更高,那么即使使用因果分析来构建模型,该模型仅考虑与个人是否可以偿还贷款相关的因果关系变量,结果也可能是带有偏见的。
至于珀尔所说的“因果关系之梯”,认为机器可以从第一层“关联”——第二层“干预”——第三层“反事实推理”,一步步向上攀爬,最终就能实现“强人工智能”,简单来说就是机器有了自由意志,它要具备关于世界的因果模型、能够与环境进行因果互动、基于记忆系统进行反思……这更是一个“有生之年系列”的遥远目标,并且需要多种技术的并行突破。
总的来说就是,将因果推理与深度学习相结合,作为下一代可信AI的关键技术之一,还只是刚刚开始,很多人在摇旗呐喊,很多人在进行探索,很多人在观望,距离走向商业化还有一定的距离,现在谈“产业革命”“认知智能”还为时尚早。
说了这么多,“强人工智能”的玄学听听就好,目前的因果AI的重点研究方向主要就干两件事:
一是因果发现(Causal Discovery),挖掘出数据中变量之间的因果关系,让模型可以给出更加稳定与可靠的解释;二是因果效应的估计(Causal Effect Estimation),则评估原因变量对结果变量的影响,以提高AI预测和决策的准确性。
主要目的就一个:帮AI“取信于人”。
前面说过,下一代可信AI崛起的根本原因,是人类与AI的信任危机。因果AI就凭借“你听我解释”,让AI可以对人类坦诚相见,从而达到“取信于人”的效果。
深度学习的不可解释性有两种,一种是原理上的不可解释性,就是大家常说的“黑盒”;第二种是语义上的不可解释性,也就是智能体的语义理解能力不行,导致模型不稳定、不可靠。因果AI,解决的就是第二种。
语义上的不可解释性,会导致什么后果呢?一个非常著名的实验是,训练一个图像的分类器以识别图像中的动物是哈士奇还是狼。
如果测试数据中哈士奇的图片背景大多也是草地、树林,狼的背景大多也是雪地,那么模型的准确率可能会很高。但是当测试数据中哈士奇的背景是雪地时,狼的背景是草地、树林时,模型的准确率可能会大幅下降。即背景与前景物体的关联性很强,而AI凭借关联性而非因果性来进行判断,出于样本偏差或混淆,结果就不再稳定和鲁棒了。
试想一下,如果别人拿着你的照片或视频,银行或政务AI不懂因果关系,不是凭借你的外貌特征辨别,而是靠随机对照的相关性来判断,那么犯罪分子抠图换个背景,岂不是就能轻松假冒你的身份,欺骗AI系统了?
而因果推理就不同了,因为因果关系不像虚假关联那样“脆弱”,是不变的、可靠的,所以因果推断的结果也具有不变性。比如微软亚洲研究院的研究员通过“因果语义生成模型”(Causal Semantic Generative model, CSG),让AI可以根据因果关系,基于因果关系,学会从“狼”的外形特征进行预测。这样即使背景环境发生变化,认错的情况都会大大减少。
所以,因果关系的本质,是消除语义上的不可解释性所产生的虚假关联,找到那些不变的因果关系,从而让AI可以跨越“三大坑”,加速迈向产业化。
枪重要还是靶子重要?
说了这么多,很显然,发展可信AI已经是行业共识,因果AI也凭借其在可解释性问题上的潜力而走红。那我们是不是可以得出结论:一个在因果AI技术上突出的公司,就能弄潮下一个AI时代呢?
换句话说,拿着“因果AI”这把枪找靶子,它能够许一个AI算法公司以光明的未来吗?
如果大家经历过算法企业“拿着锤子找钉子”的阶段,大概会得出一个不确定的答案。历史已经无数次告诉我们,一个技术要走向工业化、成为主流、掀起变革,往往要经历三步。
第一步:技术创新。
技术创新驱动业务发展,就像很多人说的“拿着锤子找钉子”。对于AI来说,成功率较高的企业往往都是先握有一把强大的“锤子”或“枪”,否则即使找到了大量的应用场景和行业痛点,到了该秀技术、秀“锤子”的时候,发现根本解决不了问题,就相当于“想走捷径却绕了个大弯”。
曾有机器视觉领域的算法公司人员告诉我们,有个商务合作机会,对方希望用机器视觉检测代替人工检测, 结果前去参观的AI公司们一评估,发现对方的作业塔楼很高,让机器人爬楼梯上去巡检,还要保持较高的稳定性,这在当下是不可能完成的任务。“钉子”都递到眼前了,手里“锤子”不硬照样砸不下去。而手拿“锤子”,就可以像因果AI与可信AI这样,万一就有了突破口呢?找不到钉子也可以砸坚果、砸石头、带着防身……
所以,科技企业的要务是将技术的锤子握在手里,谷歌、亚马逊、微软、BATH等科技企业都会发力单纯的实验室科研,就是这个道理。目前来看,因果AI研究还处于起步阶段,上存在很多技术挑战等待似突破,比如因果等价类的方向判别、高维数据上的误发现率控制、不完全观察数据上的隐变量检测等,这也是AI企业能够凭借因果AI拉开差距的地方。
第二步:产业链的协同发展。
因果AI作为可信AI技术之一,其发展也离不开AI产业链基础的支撑,比如未来算法需要经由硬件终端来部署,这就需要ISV服务商、开发者、硬件厂商、算法市场、行业客户等都参与进来,任何一个地方的缺失都可能阻碍因果AI技术商业化的进程。
可信AI已经吸引了大量高校、高科技企业、政府与行业机构的参与,有人发布专业咨询报告,有人开展技术伦理探索,有人探索技术产业化落地……而因果AI作为一种更加细分、由学术界领头的技术趋势,在产业链集聚创新这一方面,显然还缺乏足够的力度和说服力。
第三步:成果规模转化。
一项技术能够为产业所广泛应用,一定会具备工业化、规模化、自动化的特质,这样才能摊薄AI公司的研发成本、快速扩展主流市场、保证收入的指数增加,也就是高科技营销之父杰弗里·摩尔所说的“龙卷风暴”。以机器视觉为例,“CV四小天鹅”正是在机器视觉的规模普及时期迎来了高速发展和高估值。
那么问题来了,对于因果AI领域的初创公司来说,任何技术都会因为头部科技企业的开放集成,而导致技术壁垒大幅降低,获取成本急剧减少,如果未来大量企业都可以直接从头部企业的深度学习平台上靠API调用因果推断能力,这无疑会直接影响纯算法公司的商业潜力。卖算法会被平台型企业截胡,做技术集成商的价值是有限的。
目前,微软研究院、谷歌、阿里、腾讯、华为,乃至更垂直的快手、度小满等AI研究团队,都在发力因果AI研究。比如微软已经推出了一个软件库DoWhy,为常见的因果推理方法提供了编程接口。
这对于各行各业智能化来说无疑是一件好事,意味着未来因果AI应用必将越来越容易。但如果一个AI公司的核心竞争力是因果AI算法,那将是危险的。
时间推进到2022年,我们已经很久没有听到“该不该用AI”的疑问了,取而代之的是云南的养猪户、福建的水站、宁夏的光伏发电厂、浙江的码头……各种各样的声音都在问:“AI怎么用”。
这或许也是一个隐喻,当AI真正融入产业的时候,其实已经不再需要关注和论证技术的逻辑、可行性、价值等等。目前来看,可信AI已经走到了“行胜于言”的阶段,因果AI会作为一种独立的技术概念,热度继续爆发,还是被糅合到可信AI能力中,以新的名字向产业释放,将是接下来新一年里值得关注的行业思考题。
无论过程中有多少江湖风云变幻 AI一直在进步、在升级、在生长,下一代可信AI也好,因果AI浪潮也罢,都展现出AI强大的活力和生命力。帮助国计民生提质增效,这是为什么AI始终值得期待。
原文链接:https://blog.csdn.net/R5A81qHe857X8/article/details/128027138?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522170018760416800188556576%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=170018760416800188556576&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-27-128027138-null-null.nonecase&utm_term=AI%E6%B3%95%E5%BE%8B%E5%92%A8%E8%AF%A2