文/杨强
杨强 香港科技大学计算机系讲座教授,专攻机器学习,尤其是迁移学习领域的研究应用 第四范式公司联合创始人,微众银行人工智能部门负责人,华为诺亚方舟实验室首任主任
2018年,人工智能继续成为公众广泛关注的科技领域,国内外人工智能研究和应用都取得了长足发展。自诞生以来,人工智能先后因为算法、算力和数据的缺乏经历过两次低谷,而借助大数据环境驱动的人工智能目前已经进入第三个黄金发展时期,真正成为产业界的宠儿和公众谈论的热门话题。今年行业内显现出来的一些趋势,预计将在未来几年内成为行业关注的焦点,并对人工智能的发展产生深远的影响。
1 我国人工智能取得发展的同时 仍存明显短板
目前,我国人工智能研究在人脸识别、语音识别、图像自动分析等分支领域内取得了不错的应用成绩,已经接近或者达到世界先进水平。人工智能科研论文的投稿量和被接收量都增长明显,跻身世界一流行列。这些都是我国人工智能发展值得肯定的地方。
但与此同时,我们也要注意到,我国人工智能发展的短板还比较明显。首先,开拓新领域、引领新方向、提出新问题的能力仍然不足,大部分研究还是跟跑,缺乏原创性的研究。造成这一状况的原因是多方面的,既与我国人工智能研究起步较晚有关,也与我国的科学文化、科研人员培养和考核的体制机制等因素密切相关,很多并非人工智能领域内独有的问题。改变这一状况需要政府、高等院校、科研机构和企业的共同努力。
其次,我国人工智能在工业互联网的应用与世界先进水平差距较大。在医疗、教育等传统领域内,缺少数据是瓶颈,而当今的人工智能正是由大数据驱动的。国外对医疗大数据的收集有超过10年的时间,而我国对医学影像数据的收集是从近几年才开始的。事实上,人工智能分为两步,第一步就是数据化,即把日常工作和生活变成数据,第二步才是用算法对这些数据进行分析。数据的收集和积累需要时间和资金,并非一朝一夕可以完成。但我国在这方面正在发力追赶,考虑到我国人口基数大,蕴含着丰富的数据资源,未来值得期待。
2 数据安全、落地瓶颈 和迁移学习,更值得关注
伴随媒体对人工智能的广泛报道,公众在2018年对人工智能的了解程度在逐渐加深,认知也不断丰富。但是,公众关注得更多的是一些具有话题性的事件,比如2016年AlphaGo接连战胜两位人类顶尖棋手这样的轰动性事件,因此一些对行业发展具有重要影响但还未具有显著效应的事件反而往往会被忽视。因此,这里我列出值得更多关注的三个方面,作为对我们回顾2018年人工智能发展的补充:一是数据安全与保护对人工智能的影响,二是人工智能落地遇到瓶颈,三是迁移学习成为学界关注的重点。
大数据是人工智能的基础,但近年来,国内外多次曝出用户数据泄露的事件,不仅导致用户的谴责甚至起诉,同时也使公众对数据安全性的担忧愈发加深。因此,全球范围内呼吁加强数据安全和隐私保护的呼声很高。欧盟在2018年5月25日开始实施旨在保护用户个人隐私和数据安全的《通用数据保护条例》(General Data Protection Regulation,GDPR)。该条例要求经营者用清晰、明确的语言来表述自己的用户协议,并且允许用户执行数据“被遗忘”的权利,即用户可以要求经营者删除其个人数据并且停止利用其数据进行建模,而违背该条例的企业将会面临巨额罚款。我国在2017年开始实施的《中华人民共和国网络安全法》和《中华人民共和国民法总则》也指出,网络运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保拟定的合同明确约定拟交易数据的范围和数据保护义务。美国等国家和地区也正在酝酿出台类似的法律规定。
2018,关于人工智能你最应该关注的并不是阿法狗 |《腾云》年度特别策划
大数据作为人工智能的基础,数据安全和隐私保护至关重要
大数据的优势就是解决数据孤岛问题,将数据整合到一起,但传统的人工智能收集、处理、使用数据的模式在以上这些法规面前可能成为违法行为。大数据面临的这个法律困境,如果不能得到学术界和产业界的足够重视,将很有可能引发人工智能的下一个寒冬。而要解决这个问题,一个可能的方案就是“联邦学习”(federated machine learning)。它通过加密机制下的参数交换方式保护用户数据隐私,数据和模型本身不会进行传输,也不能反猜对方数据,因此在数据层面不存在泄露的可能,也不违反更严格的数据保护法案。因此我们可以说,联邦学习的产生为人工智能打破数据屏障和进一步发展提供了新的思路。它在保护本地数据的前提下让多个数据拥有方联合建立共有模型,从而实现了以保护隐私和数据安全为前提的互利共赢。
我们说人工智能落地遇到瓶颈,突出表现在人工智能在实验室的理想环境下表现优秀,但是在实际的生产生活中却无法取得预期的效果。在我看来,这里主要有两个方面的原因。第一,仍然是缺乏数据的问题。数据在大部分产业界都是以孤岛的形式存在,以小数据的形式存在,没有形成完整的大数据。为大数据设计的算法模型,在这样的场景中,就会无能为力。第二,人工智能并不是一个产品,不像Microsoft Office那样可以直接拿来使用。人工智能的模型需要数据来进行训练,需要通过好的反馈来使模型壮大,并整合不同的数据拥有方来进行互补。这样一来,人工智能的落地就像是一个解决方案。但是,人工智能作为解决方案面对不同问题时,扩展又很难进行,导致效率低下。因此,巧妙地做好一个垂直领域行业的“生态”,使得参与的各方能够互利共赢,比如一个开放的、针对人工智能和大数据的操作系统,对于人工智能的真正落地至关重要。
2018,关于人工智能你最应该关注的并不是阿法狗 |《腾云》年度特别策划
在深度学习之外,迁移学习应该成为人工智能研究和应用的另一重要方向
人工智能学术界对迁移学习的研究其实由来已久,已经有20多年的历史,迁移学习也一直是我始终关注并投入较多精力的一个研究方向。迁移学习希望人工智能能够像人一样地举一反三,把已有的经验迁移到新的领域。这样即使在新的领域只有少量数据,也可以取得很好的机器学习效果。
2018年,迁移学习的亮点是它开始成为产业界特别关注的一个领域,同时也取得了很多令人欣喜的进展。迁移学习,顾名思义就是把已经有的模型迁移到新的领域,这样可以做到用小数据解决大问题。我们已经发现迁移学习可以和深度学习很好地结合。同时,新出现的工具,比如“生成式对抗网络”(GAN),可以利用已有的数据把数据模拟出来,从而推动迁移学习的发展。模拟是迁移学习的基础,只有学会模拟,才能学习修改和适配。
今年的两个迁移学习工作特别引人注目:一个是谷歌的研究者发现如果在自然语言的领域收集到足够多的文本数据,就可以把建立的模型迁移到新的文本理解领域,而在这些新的领域只需要小数据即可获得很好的模型效果。另一个工作是脸书(Facebook)的研究者,他们也证明在图像识别领域可以做到同样的迁移学习效果。这两个工作的意义在于,我们有可能对人工智能的落地有一个新的认识,即产业分为两类:一类提供大规模的基础模型(如语言、图像),而另一类专注于基础模型的迁移,在垂直领域落地。在2018年,行业内处于领导地位的企业纷纷投入迁移学习的研究,DeepMind把迁移学习作为下一个关注的重点,而Google正在推动的AUTOML(自动机器学习)就是迁移学习,即“学习如何学习”。从现在开始,会有越来越多的人工智能科学家关注迁移学习。
我作为联合创始人的第四范式公司正在利用迁移学习为金融界建立营销和风控等方面的解决模型。举例来说,某个金融公司要进行大额贷款,需要对用户画像以找出目标客户群。这个模型的建立,需要大量的大额贷款的数据做训练。但是,一般来说,现实中没有这么多的数据对应到大额贷款。迁移学习为我们解决这个问题提供了路径。我们可以在小额贷款里面获得大量的用户画像数据,并建立模型,再把这个小额贷款的模型,通过迁移学习,适配到大额贷款的少量数据上,从而进行用户画像。
3 似是而非的 关于人工智能的观点
知乎在2018年组织了一个名为“知乎2018互联网洞见者”的活动,邀请十位业界领袖和著名专家提问,所以又被称作“知乎互联网十问”。我也受邀提出了一个问题,即“机器的智能和人类的智能有什么区别?这些区别对于我们培养后代有什么启示?”其中一个我认为很优秀的回答是这样的:机器的使命是解决一个问题,答案可以有无数个,只要做到最好、最快、最省就好;而大脑的使命是,在未出生之前,就用一个答案去面对无数未知的问题。教育人类后代的过程中,关键不是在于教会其完成一个已知的工作,而应是培养他们适应未来未知工作的能力。答案所蕴含的思想其实就是迁移学习。
今年我也注意到,有些涉及人工智能的观点经常被提及,引起热议,但其实似是而非,没有根据,我认为有必要加以澄清,否则既会导致政策制定者的误判,同时也会使公众对人工智能的发展产生疑虑。第一,放眼全球,有些人炒作人工智能的“中美之争”,观点包括人工智能是两个大国角逐的新战场,或者是中国会在2030年成为世界人工智能的领导者等。即便他们指出这样的竞争不是零和竞争,这种说法实际上也是一个伪命题。一来合作是人工智能领域内的主题,这是由数据共享这一基础所决定的;二来正如我在前面提到的那样,中国目前的人工智能发展还不充分,与美国在人工智能领域存在全方面的差距,既然如此,就不存在所谓的“竞争”,虚心学习才是正题。
第二个是很多人担心,人工智能的发展将会导致很多行业的消失,大量的劳动力面临失业的困境,长远看人工智能有可能全面超越人类。我不同意这个说法。我认为在可见的未来,人工智能全面超越人类只是在科幻小说或者电影中才会出现的情节。正如我们当前所见以及可以预见的那样,人工智能会对一些行业产生革命性影响。在这些行业中的一些关键流程,人工智能的引入可以提高效率。例如,在快递业中引入人工智能,会让配送得以更加流畅和优化,使得配送更加高效,但是人工智能不会使快递行业消失,快递的配送还是会由快递员完成。打个比方,人类最早使用普通锤子,费时费力,后来发明了电动锤子,工作效率得到提高,这是技术进步的力量。但说电动锤子或者未来更先进的锤子会取代人类,肯定是无稽之谈。
4
人工智能的展望 展望2019年,我相信人工智能势必会取得更加快速的发展,新的突破会层出不穷。对数据安全与人工智能、人工智能落地和迁移学习的讨论和研究,会帮助我们更好地认识人工智能及其与社会的关系。
我们从事人工智能研究的理想是用人工智能真正地改变社会,让生活更便利,让社会更均衡,让工作更有效率,所以我期待致力于人工智能的公司和从业者都能保持初心,一同迎接未来的机遇和挑战。
|