微信邦

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 5|回复: 0

OpenAI发布史上最强推理反思模型o1,罗胖遐想的一大功能有望实现

[复制链接]
发表于 7 天前 | 显示全部楼层 |阅读模式
不得不说,OpenAI这家公司在制造意外方面,永远不会让人失望。过去几个月,很多人都在猜测他们最强大的大模型GPT-5什么时候会发布。期间,不断有关于这个名为“草莓”的项目细节被泄露,甚至连他们的CEO萨姆·奥尔特曼也在推特上挑逗一样地发了一张草莓图片。


不过,9月13日凌晨,OpenAI突然发布了他们的最新一代大模型。没有发布会,没有预热,只是在推特上发了一条简单的通知,语言也特别朴素。原文是:“我们将发布OpenAI o1的预览版,这是一个全新系列的人工智能模型,旨在花更多时间思考后再做出反应。与以往的科学、编码和数学模型相比,这些模型能够推理复杂的任务,解决更难的问题。”
听到了吗?他们的新模型不叫GPT-5,也不叫草莓,而是叫作o1。那一瞬间,我的脑海里冒出了一个著名的脑筋急转弯:“小明的爸爸有三个儿子,大儿子叫大毛,二儿子叫二毛,请问三儿子叫什么名字?”这种简单的命名,让我意识到背后可能蕴含的深意,我给你展开讲讲。
你可能经常会看到一些APP发布重要的里程碑版本。如果开发者认为接下来这个版本非常重要,通常会重新编号,从12.7.8直接跳到13.0版本。这往往暗示着对新版本、新功能的重视程度。比如微信4.0版本推出了朋友圈功能,5.0版本加强了扫一扫功能,并支持绑定银行卡。
而这次OpenAI的新模型,不再延续以往的命名规范,直接取名为o1,这意味着他们内部认为这才是他们真正的起点,也代表了目前的最强水平。
至于这款新模型是否无愧于“最强模型”这个称号,想必大家已经在各大科技媒体上,看到了许多评测细节。接下来,我帮大家划几个重点,并分享一下我认为它在哪些领域可能会产生的“化学反应”。


首先,新模型在复杂推理或数学计算等方面的能力,简直可以说是被打通了任督二脉。
我上学时,正值金庸、古龙小说流行,作为一个“小镇做题家”的我,经常在面对试卷时做过这样一个白日梦:有一天,一个白胡子老爷爷在路上被撞倒,我上前扶起他,他感激地说:“小伙子,你人真好,我送你一件小礼物。”说完,他突然一掌按在我的背上,我头顶冒出白烟,三花聚顶之后,他消失得无影无踪,我一睁眼,感觉自己身轻如燕,任督二脉被打通了,最神奇的是,面前的物理卷子上的题目,我居然全都会做了。
这次OpenAI的新模型提升就是这种感觉。比如,在解决博士生水平的物理题时,上一代最强模型GPT-4的得分还是59.5分,但最新的o1模型得分一下子从不合格跳到了92.8分。我上学时,我们班的座位是按成绩排名的,全班150人,每次考试后,大家抱着书站在外面,等着从第一名开始叫名字,进教室挑座位。全班大概有12到13排座位,按照OpenAI这次的成绩,基本上相当于从倒数几排一下子冲到了前三排最中间的高分宝地。
不仅是物理,只要是需要思考的学科,新模型都有显著的提升。
第二,新模型将推理和思考能力变成了默认的“基础功能”。其实在过去一段时间,经常写指令词的同学,会发现当我们要求AI反思或者一步步推理时,它的回答效果会好很多。而这次,o1模型不需要额外提示,它就能自行进行深入的推理和反思。
这次的更新让AI更加智能,是你压根不用再交代了,聪明的AI会自行判断是否需要思考和反思。OpenAI在官网上展示了一个案例,就是让AI去编写一个代码脚本的过程。
在以前,GPT-4o拿到题目后就直接开始写代码,但很遗憾,往往出错了。新模型则会先自言自语,复述一遍问题的要求,然后把任务拆解,明确最终目标。接着,它会用程序能理解的语言,将人类的需求重新翻译一遍,并提醒自己其中可能存在的陷阱,还会列出需要用到的知识点和步骤。完成这些准备后,它才开始逐行编写代码。更令人惊讶的是,代码写完后,它还会自行运行并进行测试。
这意味着,以前我们经常抱怨AI的输出像个黑盒子,完全不知道它为什么会这么回答。但是现在,AI清晰地展示了每一步的思考过程。在观察它思考的过程中,我甚至觉得自己也在提升,尤其是对如何处理复杂问题的思维方式有了新的理解,当面对复杂问题时,我们到底应该如何思考和解决?
第三,新模型在推理方向上也引入了强化学习。这句话该如何理解呢?举个例子,假如有一道复杂的数学题,之前的AI如果第一次回答错了,大概率第1万次还是会错的。但现在,如果给AI更多的时间和重复尝试的机会,结果将会发生很大的不同。
例如,使用新模型参加国际信息学奥赛,如果每道题允许它做50次尝试,那么它可以拿到213分,相当于在100名人类选手中排第49名。但如果每道题它可以尝试10000次,那么它的得分可以达到362.14分,这个成绩足以拿到奥赛金牌。在同样复杂的编程竞赛中,如果允许模型提交10次,它写出的代码得分是1807分,超过了93%的参赛程序员。
写到这里,我突然有些心疼AI了。如果AI真的有思想,它会不会觉得自己像是生活在衡水中学一样的环境里,动不动就得一套卷子写10遍?
当然,这次发布还有一些偏技术层面和开发者关心的细节,例如版本和成本等内容。这里我就不展开了,感兴趣的朋友可以去官网仔细研究。而且这次发布并不是预告片,而是直接可用的状态。我们的开发者账户在凌晨4点就收到了API更新通知。
当然,现在发布的仍然是一个预览版本,估计未来还会有更多能力和亮点,将逐步被用户发现。不过,结合目前这个强大的、擅长推理的AI,我想展开一下想象,看看它可以在哪些场景发挥重要作用。
首先需要说明的是,这个强大的模型对我们普通人的日常使用,可能并不会带来特别明显的提升,甚至因为需要更多时间反思,速度可能会变慢。我举个例子你就能理解:当面对一道特别简单的数学题时,学渣可能会立刻做出来,而学霸则会在脑海中反复思考,“老师怎么可能让我做这么简单的题?肯定有陷阱。”因此,有时反而是学霸做得慢。这与AI的逻辑类似。
但是,对于一些需要复杂推理的场景,例如科学研究、编码、数学等复杂问题时,这个模型就特别有用。所以,当我技术部门的同事得知可以测试新模型时,他们都兴奋地测试了各种算法题和奥数题。这些题目在以前的大模型上基本都答不出来,而这次的表现却非常出色。我把测试的截图放在文稿里了,你可以点开看看。
测试题目1:姜萍比赛的奥数题
o1新模型思考了116秒,给出的答案正确,一个B,一个A,截图如下:


GPT4o用时9秒回答问题,但答案错误,截图如下:


测试题目2: 9.11和9.8,谁更大?
o1新模型不仅答对了,还给出了latex公式推导


当然,如果这些专业人士能借助AI解决许多复杂问题,例如在新药研发、新材料开发等领域取得突破,那么对于整个社会的价值是巨大的。我们不能因为自己毕业后再也不用高等数学,就轻易得出“高数没用”这样武断的结论。
接下来,我想分享一下我特别期待的三个应用场景:
第一个场景是实时视频分析。最近在一些线下活动中,我听到了一些用户的需求。如果有更强大的AI能做实时的视频画面分析,它将在许多场景中发挥巨大作用。举个例子,很多小区都有人工物业管理人员巡视,或者采用安防机器人。如果能接入实时的视频分析系统,那么一条配备摄像头的机器狗,绕着小区转一圈,AI就可以实时分析并做出判断。例如,某棵树的叶子变黄了,上面有害虫,需要打药,机器狗可以提出建议,让人类决定是否需要打药处理。又比如,发现某个消防设施有故障,机器狗可以立即标记,并提醒人类过来维修或更换。
例如之前有连锁餐饮企业的老板,问我有没有什么软件,能看到他们 100 多家连锁店的后厨有没有按照卫生标准干活。其实这个需求里,看到画面只要装摄像头就可以了,但是如果需要人每时每刻的去盯着这些画面,那效率会极其低下,并且也不太会有人喜欢干这种监视人的活儿。但如果 AI 可以做画面的记录和分析的话,每天就可以出一个报告,例如哪家店没有按照卫生规范干活,甚至分析得多了,还可以让 AI 去优化现有的卫生流程,做到即满足卫生需求,又能提升效率,这些都是复杂问题的解决。
第二个场景是写复杂的论文或者报告。这个场景大家其实很容易理解,毕竟大部分人都被一些毕业论文或者学术论文支配过。如果AI 在推理等各方面的能力进一步提升,那么可能写论文对很多人来说不再是个难题,咱们先提出一个大方向,让 AI 去思考这些方向上,有哪些角度或者选题还没有被其他人写过,让 AI 给出一个大的选题库,我们就可以指指点点的说:“嗯,第 3 个方向不错,第 4 个有点没意思,改一下,第 8 个跟我同学的撞题了,改个说法,让他意识不到。”
然后就可以一步步的让 AI 来出提纲,出摘要,画图,写作,排版,最后还要有一个独立的审稿 AI,在提交之前帮你审查和修改一遍,这才能叫做真正的 AI 助手。
第三个场景其实是 AI 变身产研团队。现在的 AI 更多是完成零碎的代码写作,效果的好坏非常依赖于这个程序员本身的技术水平。如果 AI 能够进一步提升推理和代码能力的话,那么每个人其实只需要说出自己的需求,然后 AI 去做产品需求、功能点规划和完成最后的代码。所以再往后发展,AI 的实现能力大规模迭代的话,考验我们每个人的,往往是需求定义能力,而不再是“想法融资都有了,就缺一个程序员了。”
比如,之前有连锁餐饮企业的老板问我,有没有什么软件,能帮助他们监控旗下100多家连锁店的后厨,确保员工是按照卫生标准操作。其实在这个需求里,看到画面只需要安装摄像头就可以了,但如果要人力去24小时盯着这些画面,效率会极低,而且也没人喜欢干这种监视人的活儿。然而,如果AI能进行画面记录和分析,每天就能自动生成一份报告,指出哪家店没有按照卫生规范操作。进一步来说,AI甚至可以优化现有的卫生流程,做到既满足卫生需求,又提升效率,这就是AI解决复杂问题的典型应用。
第二个场景是撰写复杂的论文或报告。这个场景大家很容易理解,毕竟大多数人都被毕业论文或学术论文“支配”过。如果AI的推理能力进一步提升,写论文可能不再是一件令人头疼的事情。我们可以先提出一个大方向,让AI思考这个方向上有哪些角度或选题是尚未被深入研究的。AI可以生成一个选题库,我们可以逐个挑选:“嗯,第3个方向不错,第4个没意思,改一下,第8个跟我同学的撞题了,改个说法,让他意识不到。”
接下来,AI可以一步步生成提纲、摘要,绘制图表,完成写作和排版。最后,甚至可以有一个独立的审稿AI,在正式提交前帮我们审查和修改。这才是真正意义上的AI助手。
第三个场景是AI化身为产研团队。目前,AI多用于完成零散的代码编写,效果好坏往往取决于程序员的技术水平。如果AI的推理和编程能力能够进一步提升,那么每个人只需要提出自己的需求,AI就可以完成产品需求分析、功能点规划,并最终实现代码编写。再往后发展,AI 的实现能力大规模迭代的话,考验我们每个人的,往往是需求定义能力,而不再是“想法融资都有了,就缺一个程序员了。”
最后,当我看到这次更新时,非常兴奋。因为不久前,我和罗胖讨论过的一个Get笔记的功能场景,或许很快就有机会变成现实了。


我和罗胖都是重度的笔记用户,在讨论时,我们设想了一个通过AI让笔记“发芽”的功能。
现有的笔记软件,更多的是帮助你快速记录已经知道的内容,但存在两个痛点:一是你并不知道哪些相关信息可能会引起你的兴趣,因为你还不清楚它们的存在;二是几年后,你可能完全忘记了某条笔记的背景和细节,无论是搜索还是询问AI,难点不在于找不到,而在于你不知道该怎么问。
我们设想的“发芽”功能就是为了解决这两个问题。每当你记录一个想法或摘抄内容时,你可以主动点击“发芽”按钮,然后去睡觉。第二天醒来时,这条笔记的下方,会自动生成许多你可能感兴趣的相关内容,而这些信息可能是你从来没接触过的。
罗胖当时举了一个例子:如果你记下了一句加缪的金句,“发芽”的方向可能有两个。一是其他名人或书籍中谁提到过类似的说法;二是加缪本人还说过哪些经典名言,扩展出更多你感兴趣的内容。
同样地,AI会根据对你个人爱好的理解,那么同一张图片,可能生成的发芽结果是完全不一样的。比如,同一张黑悟空的图片,投资人看到的发芽结果可能是关于游戏的投资和收益分析;游戏玩家则会获得攻略和玩法;设计师可能会看到游戏中的建模和美术细节;而旅游爱好者则可能收到有关山西小众寺庙的推荐。
那么我们现在看的每一本书,每一节课,每一段语音,每一张图片,都会是一颗种子,让AI把它变成非常茂盛的森林。如果你觉得有帮助,欢迎分享转发给你的朋友。
最后,如果你关心AI应用,想要成为你身边最懂AI的人,也欢迎你和我一起,做一份完全从个人使用角度出发的AI产品好用榜,也就是AI领域的黑珍珠榜单。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

微信邦网联系QQ|Archiver|手机版|小黑屋|鲁公网安备 37082802000167号|微信邦 ( 鲁ICP备19043418号-5 )

GMT+8, 2024-9-20 00:28 , Processed in 0.061593 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2013 Wxuse Inc. | Style by ytl QQ:1400069288

快速回复 返回顶部 返回列表