微信邦 发表于 5 天前

十二月AI又双叒爆发了:世界模型,曙光乍现

回顾整个12月,好像整个AI领域突然发起了一场年终业绩冲刺,很多王炸级的AI产品集中上线。这些产品放在平时,几乎每个都能占据几天的热搜。而这回12月集中上线,反而让人不好抓住重点。今天,咱们就聊聊AI。0112月AI大事盘点首先,咱们简单盘一盘12月AI领域的大事。这场AI领域大冲刺的起点,是12月3日,人工智能科学家李飞飞的公司World Labs,发布了自己的第一个AI系统。他们对这个AI的定义是,大型世界模型,Large World Model,简称LWM。李飞飞今年4月宣布创业,9月新公司公开,12月初发布产品,这个速度非常惊人。紧接着,一天之后,12月4日,谷歌DeepMind发布了Genie2,他们对Genie2的定义是,大型基础世界模型。没错,跟李飞飞的大型世界模型只差一个词。几乎是同时,OpenAI的山姆·奥特曼在一场访谈里宣布,要从12月5日起,连续12天发布全新产品和demo。没错,连续12天发布。而就在第三天,他们就发布了Sora的升级版,Sora Turbo。而当地时间12月11日,OpenAI又正式宣布,将全面接入苹果。之后不到一天,谷歌就又发布了新一代大模型Gemini 2.0,谷歌给Genmini 2.0的定位叫,专为AI智能体而生。其间其他公司的动作还有很多,咱们就不展开了。就像前面说的,世界头部的几家AI公司就像年底冲业绩一样,集中在12月发布了一批王炸级的产品。我们要说的重点并不是这些产品本身,而是年底这轮AI群像里体现出的一个明显的趋势。这就是,世界模型。李飞飞创立的World Labs,定位是空间智能,属于世界模型。而谷歌的新产品Genie2,也自称是世界模型。这两个AI的功能很像,都是给它输入一张图片,它就能给你生成一个完整的3D环境。比如,给它看一张演唱会的照片,它就能生成一个演唱会的3D模型。你可以像玩3D游戏一样在这个模型里游览。除了谷歌和李飞飞的公司,OpenAI今年也高调布局了人形机器人领域,投资了相关的公司,而人形机器人最重要的底层支撑,就是世界模型。未来一年,你可能会在媒体上看到更多关于世界模型的报道。因此今天,我们就展开说说这个世界模型,算是对明年可能的趋势做个事先的科普打底。
02有了世界模型,世界有何不同?很多人第一次听说世界模型,是从杨立昆开始的。在ChatGPT刚火起来,所有媒体都在一路追捧的时候,法国的AI科学家杨立昆就说,OpenAI的大语言模型能力非常有限,要想达到AGI,也就是通用人工智能,还得走世界模型路线。在这里要特别强调一下杨立昆这个人。这是AI领域现存于世的辈分最高,影响力最大,贡献最大的科学家之一。早在1988年,杨立昆就在大名鼎鼎的贝尔实验室任职,跟信息论之父香农、晶体管发明者肖克利算是同门师兄弟。根据李飞飞在自传里的回忆,杨立昆也给过她重要的启迪。在贝尔实验室期间,杨立昆开始训练神经网络识别签名。他从美国邮政署拿到了7200多份各类字体的手写扫描件,并且用它们来训练神经网络。后来,这个研究成果被银行采纳,用在自助取款机上,可以读取支票上的数字。而当时是1993年,没错,是31年前。而杨立昆的这个发明,也是神经网络最早真正落地的应用之一。当然,其中的细节你可以不用记,但总归我们只要知道,杨立昆算是世界模型的祖师爷之一,也是这个技术流派里你最需要知道的人。那么,到底什么是世界模型呢?简单说,世界模型就是能直接观察现实,并且从现实中抽象出常识,并且基于常识展开预测和行动。注意,这个技术路线和目前比较主流的大语言模型不一样。目前你看到的多数AI应用,比如GPT、Gemini,还有国内的文心一言等等,它们的运行前提都是数据。你需要用大量的数据来训练它们。尽管目前很多大模型已经实现了多模态,也就是可以输入音频、图片、视频,但是,这个过程的本质是,要先把这些信息转换成数据,然后让AI统一理解。而世界模型在这一步要更直接,它类似于直接观察世界,然后抽象出常识。注意,是常识。这个过程更接近于真实人类的学习逻辑。比如,杨立昆在他的自传《科学之路》里就举过一个例子,假如你给AI看一个画面,一个小女孩,面前摆着一个蛋糕,蛋糕上插着几根点燃的蜡烛。然后问AI,小女孩下一步会做什么?这个问题对AI来说就非常难,它得理解什么叫生日,过生日习惯吃蛋糕,而吃蛋糕之前要先点蜡烛,再许愿,最后吹灭蜡烛。按照杨立昆在这本书里的想法,假如是一般的大模型,就只能做出像素层面的测算,也就是想象这个画面下一步会变成什么样,每个像素点会如何变化,最终可能会生成一张小女孩有好几个重影,然后往四面八方同时移动的照片。而世界模型就能通过学习搞懂其中的常识,做出正确的预测。当然,杨立昆的《科学之路》是2021年出版的,恰好第二年GPT就爆发了。现在大语言模型的很多能力已经不亚于杨立昆当初设想的世界模型。但问题是,训练大语言模型需要大量的语料,而互联网上的信息是有限的,语料可能会变得越来越贵。同时,随着深伪事件变多,也就是通过AI来做信息的深度伪造,这可能会让这类大规模使用用户数据的训练行为,面临更严格的监管。而世界模型的训练不局限于网络上的信息,而且对素材的需求量也小得多。从这个角度看,后续世界模型的发展速度可能会追上大语言模型。那么,回到现在,世界模型的进展如何呢?我们可以看看李飞飞和谷歌这回发布的成果。首先,这两个作品都有一个关键突破,实现了内容的一致性。比如,你在AI生成的3D环境里走一圈,从南走到北,再从北走到南,来回的路上两边的画面都不会变。你第一次看到的这棵树和第二次看到的这棵树完全一样。这个一致性算是个很大的突破。其次,从运行逻辑上看,根据普林斯顿AI创新中心的创始人,王梦迪的观点,谷歌的Genie2和李飞飞的AI看起来很像,但本质上还是有区别。Genie2的本质是像素预测,它未必搞懂了真实世界中的物理规律。相比之下,李飞飞的模型是通过图片中的信息,推理出了其中事物的相对关系,然后完成3D建模。因此,王梦迪认为,李飞飞的模型更符合真正的世界模型。好,关于世界模型,咱们先说到这。我们主要说了三个重点。第一,世界模型的本质是从现实中抽象出常识,并基于常识展开预测和行动。第二,这个领域最重要的科学家是杨立昆,最重要的实践者之一是李飞飞的World Labs。第三,随着互联网语料获取的难度增加,后续世界模型的发展可能会追上大语言模型。最后,如果你还想了解更多新鲜、有料、有趣的知识新闻,欢迎关注得到头条。这是得到APP的一档日更栏目,每周一到周五零点准时上线。让我们一起在世事变化中,每天学点知识。

页: [1]
查看完整版本: 十二月AI又双叒爆发了:世界模型,曙光乍现