微信邦 发表于 2018-11-6 22:28:45

重磅|鹅厂三位杰出科学家聊机器学习、量子计算和语音识别,快来围观干货都有啥?

为了更好地营造公司技术分享和交流的氛围,让技术发声,显技术力量,腾讯学院联合五大技术通道、企业文化与员工关系部,举办了第一届腾讯技术周(2018.10.23-10.26)。各个垂直技术领域的大牛们纷纷登场,分享了48个专业话题,展示了25个AI Poster,带来了满满干货。
小腾老师为你整理了腾讯技术研究通道的3位杰出科学家(下文简称T5)张潼博士、俞栋博士和张胜誉博士的精彩分享。一起来看看吧!
与T5面对面之张潼博士:重要的是算法创新与业务运用嘉宾介绍:腾讯AI Lab主任,机器学习及大数据领域专家。2017年3月加入腾讯AI Lab,领导实验室的基础研究、技术应用及团队建设工作。加入腾讯前,曾经担任美国新泽西州立大学教授、IBM研究院研究员、雅虎研究院主任研究员,百度研究院副院长和大数据实验室负责人,期间参与和领导开发过多项机器学习算法和应用系统。曾参加美国国家科学院大数据专家委员会,并负责过多个美国国家科学基金资助的大数据研究项目。

QAI Lab会不会做一个公司通用的深度学习平台?以方便更多“码农”提升各个业务应用深度学习的效率?
张潼:我觉得这是挺好的问题,大家一直在说机器学习平台,其实好多业务部门也有自己的,或者用外部的机器学习平台。AI Lab也有考虑建设机器学习平台,但主要是要找合适的切入点。AI Lab有一些开源工具已经具备了一定成熟度,比如PocketFlow,它不是一个在Server上做训练的机器学习平台,它更多强调于在移动端,甚至IOT,在云上等等一些机器学习模型的部署。
机器学习平台这个方向竞争相对激烈,但还是有一些空白的区域需要去尝试,比如把模型部署在移动端,或者智能硬件,就需要模型压缩,需要一个引擎来自动实现这个过程。我们先从这个切入点开始,做了一些项目,集成为引擎也在开源,就是PocketFlow。
这个是靠前端了。再往回撤的话,我们也会做一些自动化调参,就像AutoML这样的系统。关于这些技术我们也发过KM文章,包括还做一些跟硬件相关的加速,最后我们会再去看在深度学习的训练平台上我们能有什么作为。
目前的顺序可能不是直接取代TensorFlow,而是从其他的一些点慢慢做一些工作,希望将来逐渐能够形成竞争力,能够逐渐的成为一些更高效的、更完整的平台。目前这个计划一部分在实施了,另外一部分也在计划中。


Q从学术研究角度看,AI Lab发了很多CV相关的文章,在学术研究和公司业务落地上是如何规划的?
张潼:CV这块我们最感兴趣的可能是内容理解这一块,包括视频的理解,这与我们的推荐产品相关。也有一些跟生成有关的,包括视频的风格变换,之前我们做了很多工作,也有一些上线。
视频理解的话,我们希望直接能够和一些短视频产品去结合,包括分类,关键帧的抽取,也包括人脸,人的关键点。这些可以做一些视频识别类的产品,也可以做修饰,人脸的美颜变换。一系列和产品相关技术我们都会去尝试。还有一个是3D技术,这个更前沿,虽然不跟马上和业务相结合,但是对今后的游戏,3D虚拟人等应用、3D建模相关的一系列技术可能会应用到,我们会去关注。
还有一些是单点的基础技术能力提升,我们也会去做。最近我们有一个开源的项目,就是比ImageNet大很多的万分类大规模图像数据集,ML-Images data set。我们花精力去做这个数据集并带来效果的提升,一方面是在学术上因为数量更大大家会对这个数据感兴趣。另一方面我们自己图像技术的baseline就会提高,其他公司包括facebook,包括谷歌,也都会有内部的一些数据集。我们花精力做数据集的积累,在上面训练的模型就会比一般的模型好,能够给业务方更好的效果,这些基础能力都会用在业务上。如果大家对这一块感兴趣,希望有一个好的图像模型,用了我们这边的数据集或者学习出来的图像表示就可能会直接有提升,这就是数据大导致的提升。

Q众所周知,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。AI Lab在NLP这个方向上有哪些研究的进展,以及接下来有哪些规划呢?
张潼:提到NLP这里,我想说现在我们听到很多外面公司参加人工智能自然语言方面的一些大赛,特别是比较好衡量的阅读理解,称取得超人能力等等。其实我们建立AI Lab的第一年也参与了外面的大赛并取得好成绩,但说白了,我觉得那个并不完全代表公司的技术能力。大赛很多是刷分,就是一些调参、模型组合等等一系列手段,很少有真正有算法创新出来,我们已经过了这个阶段了。我们需要更多技术积累,或者有一些算法的创新,还有和业务相结合。关于自然语言,我们没有太多去参与大赛。
关于NLP现在很主要的技术是怎么去做向量表示。最近谷歌也有一个文章,包括之前openAI,他们能够把表示做得更好的时候,直接把feature加进一些问题里去,在这些问题上可以有很高的提升。对于NLP的向量表示,有点类似刚才我说的用ML-image data可以得到更好的图像表示。我们可能后面也会去做一些这种工作,类似于谷歌,类似于facebook、openAI。
谷歌最近有一个PR文章BERT,可能有一些人也看到,也是做这个方面的工作,我们现在做了一些更加基础的,不是在句子层面,而是在词级别的向量表示。最近我们发布了一个中文的,针对于词表示的一个word embedding数据,是现在最好的中文词向量。中文处理问题上可以直接用上,就是把它当成feature。
目前,我没有去做句子级别的表示,但是可以把词向量做输入,比如我们说我们的词向量用在类似于Bert模型或者其他的模型上做输入,产生一个更好的模型也是可以的。
我们后面可能一部分是在文本理解上,一部分是在这种文本表示上,做一些基础的工作。另外我们并没有特别去强调阅读理解这一块,我们更感兴趣的是有两大方向。一是对话,因为这是一个未来,但很难,一方面我们可能做一些研究往这儿布局。另外一方面我们自己也有系统,就是腾讯的闲聊系统。
还有一个我们可能比较关心的方向是生成,生成一些文本等,和业务有一些合作。比如说,包括生成诗歌,对联,新闻等。虽然我觉得从应用上生成其实是蛮有用的,但它没有太多大赛,不像阅读理解比较容易衡量。生成从研究上的最大挑战就是比较难评估,我可以生成生成A、生成B、生成C,从人来看都很好,你就很难去找出一个标准答案,但是机器评测一般来讲是需要有个标准答案的。所以从评测来讲这是一个比较难的地方。导致这块研究没有像理解那样,根据数据集刷分。但是我们正在去往这方面努力。一方面设计一些可以衡量的指标,另一方面积累技术最后能够去做好生成。


Q怎么用AI来赋能一些传统行业?张潼:我觉得这也是挺好的问题,可能有两个方式。一个方式是通过传统行业本身的数字化和智能化提升效率。例如国内的信息化、数字化还没有做好需要先提升,这种情况下的确是会有挑战。美国情况会好一点,信息化在企业里相对更加成熟一些,所以有一些大数据的公司更容易给它支持,提升效率。国内才起步,也不排除后面几年能够快速信息化,数字化。可能我觉得下个5年之内,国内会发展很快,这是我个人的估计。例如航空行业,要看本身的数字化的快慢。然后在信息化再上一层就可以做AI,信息化是做AI的前提,这是一种情况。
另一个方式是一些AI技术可以直接赋能传统行业。AI在互联网企业并不是产品而是底层技术。其实有一些AI能力能直接用在其他领域,比如说语音识别。这些技术的使用不需要企业做太多内部的信息化,它是独立可以并行应用的。这样的产品也许在某种场景上可以直接用,比如身份识别。银行很多时候在顾客打电话时需要身份验证可以用声纹识别,另一些场景可以用人脸识别作为身份验证。类似于这种场景的应用,AI就是提供能力,它不依赖于企业内部信息化。另外像富士康是一个传统行业,它就是生产电子设备的,其实最近已经开始用一些深度学习的技术去做质量检测,就是看电路板是不是有问题,有的时候人眼看不出来有没有问题,就是在有些情况下AI可以比人眼更准确一下,这也是赋能传统行业的一个例子。
与T5面对面之俞栋博士:关于深度学习、语音的一场深聊嘉宾介绍:腾讯AI Lab副主任及西雅图实验室负责人,语音识别及深度学习领域专家。2017年5月加入腾讯AI Lab,负责西雅图实验室的建设、运营及管理,推动腾讯在语音识别及自然语言理解等AI领域的基础研究。是首次将深度学习技术应用在语音识别领域的研究领头人之一,该成果极大推动了语音识别的技术发展。出版了两本专著并发表过大量论文,也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。加入腾讯前,曾担任美国微软研究院语音和对话组(Speech and Dialog Group)首席研究员,并兼任浙江大学兼职教授、中科大客座教授及上海交通大学客座研究员。



Q很多业务部门都希望利用AI Lab的AI能力,我们怎么才能跟AI Lab取得联系和更好的合作?俞栋:大家可能知道,AI lab从成立的时候开始就专注在四个主要的方向上面。第一个就是机器学习,包括强化学习,比如说分布式机器学习平台和深度学习模型压缩,深度学习的模型和运算量一般都很大,我们的技术能通过自动的方法把模型压缩,我们把这项技术开源了,叫PocketFlow;也有很多技术用在比如说推荐、文本分析。第二个大的方向是语音,涉及识别、合成、声纹、情感识别,也做一些场景识别的工作,比如说听到声音我们知道这是在什么地方,声音是火车、汽车、或者是门关了一下发出的之类。第三个方向是自然语言处理,包括机器翻译和对话系统方面我们都有一些很好的工作。我们也做了很多更前瞻性的专注在自然语言理解上的一些工作,自然语言理解的工作因为它比较难,所以现在我认为还没有达到实质性的突破那个阶段吧,但是我们有一些进展。另外一个方向是视觉,例如自然语言和图像视频的关联(image captioning),也做了图像分割、风格转换、内容理解、人脸识别、三维重建一系列的工作,都跟计算机视觉、跟图像相关的。
从合作角度来讲,我们采取了几种方式。如果一个技术已经非常成熟,基本上只要调用标准的API就能够取得比较好效果的,或者对于用户来讲,他对系统性能的最低要求通过直接调用API就能达到的,就可以直接调用我们的API。我们在腾讯开放平台上面已经开放了比如说语音合成、声纹识别、情感识别和闲聊的能力。如果业务需求是在这些范围内,那么就可以直接调用这些API。这是最简单的方式。
第二层次,我们会把一些技术开源,比如我们最近刚刚开源了几个,一个是把很大很深的深度模型压缩成比较小、比较快的模型的技术PocketFlow。另外一个最近刚刚开源出来的是800万中文词汇的词向量。这些开源的工具,一般都是属于用户需要在它上面再做一些加工的,比如说词向量,直接拿过去用可能不能立刻解决你的问题,但是你把它作为你输入的一个很重要的部分,在你的系统里面再加上其他的网络结构或者针对性的训练数据,就可以得到比较好的性能。这一层面需要用户对它有一定的了解,自己要做一些其他的改进。
第三类的是需要高度定制化的,举个简单的例子,语音里面现在很多场景都属于远场,有一个很重要的技术就是麦克风阵列的技术。麦克风阵列的技术比较难,它会跟你的硬件工业设计、麦克风阵列的位置、麦克风阵列的性能都有很大的关系,需要高度的定制化才行,就必须要和我们的团队紧密合作才行。
我们会有这三种不同的合作方式,但总的来讲,因为我们的团队相对来说不是那么大,人力有限,我们希望大家在跟我们合作的时候,可以从API先着手看是不是标准API已经能解决问题,如果不行,再看我们开源的那些工具是不是能解决问题,还不能我们再讨论怎么样做高度定制化。


Q越来越深刻感受到AI对我们生活产生的影响,比如推荐、人脸识别,俞老师您是运用深度学习最早做ASR等很多任务的人,能否分享最近几年深度学习的趋势,或者深度学习本身有什么优点或者缺点吗?
俞栋:我们在大约八年前把深度学习用到大词汇量语音识别上面时,大家对深度学习的理解还是比较浅的,那个时候,大家都感觉深度学习就是有很多层的神经网络,多几个递归层或者有个CNN这算是比较先进的模型了。但是经过这么多年的发展,大家可以看到,深度学习的模型可以说是层出不穷,但是有几个点还是一样的,第一它还是保持有很多层的非线性处理;第二它还是需要有大量的训练数据才能训练得好;第三,它能够允许用户做端到端的优化,也就是说当你不知道信息的处理流程是怎么样的情况下,你可以用深度学习的模型来做,利用训练数据来做逼近;第四,它还是需要有很大的运算能力才能训练好;第五,它的可解释性比较差。这些特点都还跟原来一样。

有一点不太一样的是,以前大家在做的时候,比较少把领域的知识作为特殊的先验知识加到模型里面,在最近的几年里,越来越多的人认识到深度学习模型的泛化能力还是一个问题,直接用一些简单的现成的模型没有办法把系统性能提高到一定的程度。深度学习模型本质上来讲,它只是一类bias非常小但是variance比较大的这么一个模型。如果训练数据不够大的话,这个模型的泛化能力就会比较差。大家听说比较多的就是通过人工方法合成或者生成数据,使得训练时系统能够见到很多输入与原始训练数据不完全一样,但是标注一样的数据。而最近则有很多工作是把一些先验知识构筑到深度学习的模型结构里面,以提高系统泛化能力,减少对训练数据量的要求。
还有一个做法是用很多没有标注但有结构的数据预训练一些模型,比如最近比较火的BERT模型,它就是通过预训练一个非常深的transformer模型来提取比较好的特征,这个也是目前比较常用的提升系统鲁棒性的方法。
深度学习本质上就是学习一个从输入到输出的mapping,虽然这个mapping可能很复杂。所以深度学习还是有很大的局限性。除了可解释性上的困难,现有的深度学习模型还不善于处理和知识表达、语义推理相关的任务。比如词向量(embedding)可以在连续空间里刻画某一些概念之间的相似程度,具有较好的泛化能力,但是它没有办法做非常精细的语义表述,如何把深度学习方法和传统知识表达和推理的方法有效结合,也是最近一段时间大家比较关注的问题。


Q很多人会说,您觉得让深度学习模型在数据上做一些拟合,让模型更好的学习数据,这其实不是人真正的思考方式,人可能更像用推理、知识、概念去做推理,您是觉得这两种方式能很好的结合起来吗?
俞栋:在人工智能的历史上有好多流派,有个流派叫联接主义(connectionist),联接主义认为通过构建类似于我们现在深度学习的方法,能够解决所有的人工智能问题。但是就目前来看,联接主义在处理知识表达和推理方面还是有很大的难度的,不见得是最佳的方案。我们现在的计算载体还是常规计算机,计算机擅长的跟人擅长的不太一样,所以用计算机比较擅长的那种方式处理知识表达和推理有可能是更合适的方式。然后结合深度学习的一些优势,两者结合有可能更好的解决我们现在想要解决的问题。
Q您提到深度学习有几个特点,①多层非线性处理,它能够表示更复杂的函数;②需要大量的数据;③端到端的优化,省去很多中间的步骤;④需要很大的计算能力;⑤可解释性差。很多业务部门的同事也在不停的尝试用AI落地到各个场景,很多业务需要的方案都不是通用的,我们在落地的过程中有一个疑问,大家在外面说的时候,都说自己是通用的,无所不能的,但是真正落地的时候会发现,为什么我还要标那么多数据,为什么这个模型拿出来还需要做很多的优化?您怎么看这个问题?
俞栋:刚才讲的这个问题,正是深度学习模型泛化能力弱的一个表现。因为很多时候在训练模型的时候,训练的数据跟你实际场景里碰到的数据是不一致的,不单单是深度学习的模型,所有的基于统计机器学习的模型都有这样一个问题。因为它在设计模型的时候有一个基本假设,这个假设就是训练集跟测试集是独立同分布。但是测试环境跟训练环境不一致的时候,这个假设就不成立了。在很多实际应用里都有一些解决方案,但是目前来看都还不是特别好。
比如说在语音识别领域,二三十年前大家就意识到这个问题,所以有一个分支叫自适应方法,当系统在一个新环境里使用时,它会去检测那个环境,然后根据环境做自适应。有两种常用的做法,一种是通过某种自动变换使得测试环境的输入分布逼近训练时候的输入分布;另外一种做法是通过某种自动变换使得模型的参数更符合测试环境,即在测试环境下的表现变得更好。这是两种常用的方法。但这两个方法都有一个问题,因为自适应需要测试场景的数据来不断改变模型的参数和性能,而测试场景里很可能没有标注,所以自适应的优化目标可能和识别目标不一致。在工业应用中目前大家觉得比较好的做法还是尽量使用更多的数据,包含人工合成的数据,来训练模型,cover更多的场景,每个场景的数据越多越好。
另外一个原因在于很多benchmark的场景是比较简单的,真实场景要复杂得多,在benchmark里的结果自然没法在真实场景下达到。这在语音识别应用里特别明显,比如你在安静的会议室里面,拿一个手机离口大概30厘米之内,只要你的普通话还算标准,基本上识别率都能在95%以上,有些人可以达到97%以上。但是在一个生活的场景里面,比如好几个人在旁边聊天,然后你在跟另外的人聊天,识别率就降得很厉害了。又或者一个人口音非常重,有的时候人也不太听得明白,识别率也会降得非常厉害。这些主要还是场景确实变复杂了,需要有更好的技术才能把问题解决,才能够在实用场景下使性能超过用户的使用门槛。
Q所以您的建议是?该标数据还得标数据?俞栋:在现有的技术条件下,如果目标是用户体验的话,还是需要有足够多真实场景下的标注数据。最佳的训练数据是和目标使用场景一致的数据,所以最好就是你要优化哪一个应用,就采集和标注那个应用产生的数据,那样性能会是最好的。但是如果做不到这点的话,就需要能动态做非常快的自适应的技术,但是自适应是双刃剑,自适应过头了,系统反而会变差,所以需要平衡,就会比较难做。简单来说,快速迭代,即快速采集和标注新的数据然后更新模型,是使系统性能比较稳定增长的一个比较好的方案。
Q还有同事很关心语音方面的问题,您刚才也提到了,我们多去关心前沿的发展,您能给大家分享下最近几年在语音识别上的一些研究或者业界的进展,和遇到的一些困难吗?
俞栋:语音技术其实是一个相对比较接近应用的研究领域,所以在研究的过程中也有两条路。从算法研究的层面来讲,最近几年大家做的比较多的是所谓端到端的模型。但是到目前为止,纯端到端的模型的系统性能在绝大多数工业界的训练setup下还达不到传统混合模型的效果,尤其鲁棒性会差一些。所以目前还没有听说有公司线上系统都是使用纯端到端模型的。
第二个大家做的比较多的是在复杂场景下的语音识别。比如鸡尾酒会问题一直被认为是语音识别里面一个很困难的问题。在最近几年里,由于深度学习的进展,近场语音识别的能力大大提升,大家逐渐把研究力量转移到了鸡尾酒会这样困难的问题上,所以在最近几年里有很多跟鸡尾酒会相关的研究进展,AI lab在这方面也有一些比较好的进展。
第三个大家做的比较多的是结合信号处理和深度学习的方法来提升语音识别系统的整体性能,这里面也包含前端的语音信号处理和后端机器学习方法联动联调。


Q有的同事会问到语音合成的问题,我今天也听了一下wavenet的合成,其实已经非常像人的声音了,您觉得语音合成现在有什么样的近展和问题?再问一个非常具体的问题,在游戏中,可能想自动生成一些场景,希望声音也能自动的配合场景生成打击音、爆破音或者音效,这种可以实现吗?
俞栋:语音合成在wavenet提出来之后音质方面就没有什么问题了,只要是利用了wavenet的系统,音质都很好。合成跟识别是两个非常不一样的问题。识别是希望你的系统在各种各样变化场景下都能识别准确,所以难度在于如何使系统更鲁棒,因为系统需要适应各种各样的场景、各种各样的信道、和各种各样的说话方式。合成的话你只要能合成一种好听的声音就可以了,所以你关心的是系统能够对训练集做最好的拟合,你最关心的是拟合度怎么样,只要做到拟合度比较好,听起来就很像真人发音了。但是单纯优化训练集上的拟合度有可能造成训练集里没有出现过的句子发音不对的情况,这需要采集的训练语料有很好的覆盖率,训练集足够大。
有了wavenet后剩下的主要就是韵律问题,现在这方面表现比较好的是一个Google提出的端到端的方法叫做Tacotron,算是比较成功的一个方法,这个方法使用了encoder-decoder with attention这样的模型,它能够直接从输入到输出端到端建模,使得它的韵律拟合地更像真实发音。但是和其他基于encoder-decoder with attention架构的模型一样,这个模型也有几个典型缺点,就是它有时候会掉帧,有的词会被漏掉,有些时候词序会倒过来,而有些时候词有重复。由于这些在传统TTS系统里不太会出现的问题这一技术在商业系统里目前用的还比较少。
与T5面对面之张胜誉博士:确定的量子和不确定的计算嘉宾介绍:腾讯量子实验室负责人,研究方向包括量子计算,算法设计和计算复杂性分析,以及人工智能基础。2018年1月加入腾讯,全面负责公司在量子领域的研究和业务开展。本科毕业于复旦大学数学系,硕士毕业于清华大学计算机系,博士毕业于普林斯顿大学计算机系,师从姚期智教授。后在加州理工学院跟随 John Preskill,Alexei Kitaev 及 Leonard Schulman 教授做博士后研究。加入腾讯前曾任香港中文大学计算机系助理教授,副教授。张博士担任 Theoretical Computer Science 及 International Journal of Quantum Information 杂志的编委。



Q先问一个很宽泛的问题:量子计算目前发展到什么样的程度?张胜誉:宽泛也挺好的。一般来说对于一个不是自己专业领域提出的问题,通常都会比较宽泛,但这些问题也经常是比较本质而且重要的问题,而且可能大部分都没解决。在理论方面,从82年 Feynman提出制造一个量子计算机来模拟量子系统开始,到93年 Yao发现在计算复杂性上量子图灵机和量子电路等价,到94年 Shor发现大数分解的快速量子算法,接着96年Grover发现在一个没有任何结构上的数据库中可以有平方加速的查询,引起了非常大的轰动,带动了量子算法和量子计算复杂性理论的大发展。之后这么多年,发展了林林总总有三百多个算法,可以分成代数,组合,模拟等几类。另外欧洲理论计算机科学的逻辑和语义形式化验证,以及量子的高级程序语言设计等等问题,也开始在近20年来得到大家的关注。

量子计算机的理论走在前面,因为大家需要弄明白,假设有这个东西,到底能做些啥。知道量子计算机在很多问题中的巨大应用之后,硬件发展也一直在稳步向前走。但是真正想制造和控制一个大规模量子系统,进行一些操作,完成一些计算就非常复杂了。整个硬件系统的设计的发展,在最近10年才开始越来越快的产生一个又一个的突破。目前硬件有大概有4到5种方案去实现,超导、离子阱、NV色心等等,每个方案都有各自的希望和挑战。
硬件发展现状是这样:走在最前面的是超导方向,比如谷歌有72比特系统,但是还没有公布测量的结果。我们不知道是还没有测,还是测了他们自己偷着乐,不告诉我们。IBM和英特尔也说他们有49位或者50位大小的系统,但也没有公布出好的测量结果。还有北美和欧洲在离子阱方面有一些成果。


Q以后会不会有一个像量子的操作系统,运行在量子计算机硬件上面的操作系统?
张胜誉:对,感觉肯定是要有一个软硬件的接口,指令集肯定是要有的,是不是要操作系统这么庞杂?也许将来有的,但至少在短期,十年之内我不觉得会有一个。但是指令集的事情肯定现在就有,比如在不同的系统上,比如在超导系统上,去年体系结构这边最好的会议论文,其实就是给量子做一套微体系结构,去控制硬件。


Q现在人工智能非常热,量子计算会如何影响人工智能方面的技术?张胜誉:我个人很感兴趣量子计算和人工智能的结合。人工智能本身是在touch一些我们人类想理解的一些终极问题,比如意识和智慧相对AI来说。我觉得量子发展的速度其实是要缓慢得多,一步一步慢慢走,但是量子研究的问题是微观世界的规律,量子计算机会在人类理解这些自然界的根本问题上,提供一个前所未有的工具。人类关心的最大的几个事情,包括如何理解我们所处的这个外在的自然界,和人类自身内在的智慧。如果几十年之后我们发现量子和AI之间没有结合出巨大的东西,我倒是觉得非常惊讶。
我并不确定大脑里面真的有非常多量子的现象,但是不管怎么说,在认识微观世界和去理解人类智能这两件事情中,即使是从数学上,也有很多地方可以互相启发,比如说神经网络和量子多体问题之间有很多相似性,所以我特别期待这两个之间的结合。


Q为什么量子计算比经典计算,比如传统计算机的计算要快呢?为什么设计一个量子算法很难?
张胜誉:从基本原理讲,有一个简单的地方可以理解,量子有叠加态,就是薛定谔的猫这个比喻。经典计算有概率分布,它一半可能性在这儿,一半可能性在那儿。但是量子,你在观察很多微观粒子的时候,会发现它不是一个概率的问题,它真的是同时属于这两个状态中,当然,有的时候它不只是二级的,它是多级的,可以同时处于很多个状态中。拿N个粒子,你天生就出现了2的N次方根(英文43:16,这里应该为2的N次方个状态)的并行,它真的就在做这个事情。由于存在量子叠加态的原因,量子本身就有自然的并行能力,所以很多量子算法可以认为是把好的分支上的概率幅从很小慢慢增加到很大的过程。
在设计量子算法的时候,实际要考虑多个分支,考虑所有的分支怎么慢慢地改变。把好的东西都往一起凑,然后把不好的东西正负抵消掉。量子算法的设计本身其实是非常非常难的事情,其中一个原因是我们直觉太少了,我们的直觉都是来自于宏观世界里经典的东西。比如说如果我们生活在二维空间的时候,是很难直觉上理解比如说两条直线异面的情况,高维空间中就有更多的在三维中看不到的直觉上的现象。
主办:腾讯学院、技术研究通道文章整理:腾讯科学技术协会(协助整理人:赵沛霖、郑一聪)
页: [1]
查看完整版本: 重磅|鹅厂三位杰出科学家聊机器学习、量子计算和语音识别,快来围观干货都有啥?