OpenAI发布史上最强推理反思模型o1，罗胖遐想的一大功能有望实现

微信邦 · 发表于 7 天前

不得不说，OpenAI这家公司在制造意外方面，永远不会让人失望。过去几个月，很多人都在猜测他们最强大的大模型GPT-5什么时候会发布。期间，不断有关于这个名为“草莓”的项目细节被泄露，甚至连他们的CEO萨姆·奥尔特曼也在推特上挑逗一样地发了一张草莓图片。

不过，9月13日凌晨，OpenAI突然发布了他们的最新一代大模型。没有发布会，没有预热，只是在推特上发了一条简单的通知，语言也特别朴素。原文是：“我们将发布OpenAI o1的预览版，这是一个全新系列的人工智能模型，旨在花更多时间思考后再做出反应。与以往的科学、编码和数学模型相比，这些模型能够推理复杂的任务，解决更难的问题。”

听到了吗？他们的新模型不叫GPT-5，也不叫草莓，而是叫作o1。那一瞬间，我的脑海里冒出了一个著名的脑筋急转弯：“小明的爸爸有三个儿子，大儿子叫大毛，二儿子叫二毛，请问三儿子叫什么名字？”这种简单的命名，让我意识到背后可能蕴含的深意，我给你展开讲讲。

你可能经常会看到一些APP发布重要的里程碑版本。如果开发者认为接下来这个版本非常重要，通常会重新编号，从12.7.8直接跳到13.0版本。这往往暗示着对新版本、新功能的重视程度。比如微信4.0版本推出了朋友圈功能，5.0版本加强了扫一扫功能，并支持绑定银行卡。

而这次OpenAI的新模型，不再延续以往的命名规范，直接取名为o1，这意味着他们内部认为这才是他们真正的起点，也代表了目前的最强水平。

至于这款新模型是否无愧于“最强模型”这个称号，想必大家已经在各大科技媒体上，看到了许多评测细节。接下来，我帮大家划几个重点，并分享一下我认为它在哪些领域可能会产生的“化学反应”。

首先，新模型在复杂推理或数学计算等方面的能力，简直可以说是被打通了任督二脉。

我上学时，正值金庸、古龙小说流行，作为一个“小镇做题家”的我，经常在面对试卷时做过这样一个白日梦：有一天，一个白胡子老爷爷在路上被撞倒，我上前扶起他，他感激地说：“小伙子，你人真好，我送你一件小礼物。”说完，他突然一掌按在我的背上，我头顶冒出白烟，三花聚顶之后，他消失得无影无踪，我一睁眼，感觉自己身轻如燕，任督二脉被打通了，最神奇的是，面前的物理卷子上的题目，我居然全都会做了。

这次OpenAI的新模型提升就是这种感觉。比如，在解决博士生水平的物理题时，上一代最强模型GPT-4的得分还是59.5分，但最新的o1模型得分一下子从不合格跳到了92.8分。我上学时，我们班的座位是按成绩排名的，全班150人，每次考试后，大家抱着书站在外面，等着从第一名开始叫名字，进教室挑座位。全班大概有12到13排座位，按照OpenAI这次的成绩，基本上相当于从倒数几排一下子冲到了前三排最中间的高分宝地。

不仅是物理，只要是需要思考的学科，新模型都有显著的提升。

第二，新模型将推理和思考能力变成了默认的“基础功能”。其实在过去一段时间，经常写指令词的同学，会发现当我们要求AI反思或者一步步推理时，它的回答效果会好很多。而这次，o1模型不需要额外提示，它就能自行进行深入的推理和反思。

这次的更新让AI更加智能，是你压根不用再交代了，聪明的AI会自行判断是否需要思考和反思。OpenAI在官网上展示了一个案例，就是让AI去编写一个代码脚本的过程。

在以前，GPT-4o拿到题目后就直接开始写代码，但很遗憾，往往出错了。新模型则会先自言自语，复述一遍问题的要求，然后把任务拆解，明确最终目标。接着，它会用程序能理解的语言，将人类的需求重新翻译一遍，并提醒自己其中可能存在的陷阱，还会列出需要用到的知识点和步骤。完成这些准备后，它才开始逐行编写代码。更令人惊讶的是，代码写完后，它还会自行运行并进行测试。

这意味着，以前我们经常抱怨AI的输出像个黑盒子，完全不知道它为什么会这么回答。但是现在，AI清晰地展示了每一步的思考过程。在观察它思考的过程中，我甚至觉得自己也在提升，尤其是对如何处理复杂问题的思维方式有了新的理解，当面对复杂问题时，我们到底应该如何思考和解决？

第三，新模型在推理方向上也引入了强化学习。这句话该如何理解呢？举个例子，假如有一道复杂的数学题，之前的AI如果第一次回答错了，大概率第1万次还是会错的。但现在，如果给AI更多的时间和重复尝试的机会，结果将会发生很大的不同。

例如，使用新模型参加国际信息学奥赛，如果每道题允许它做50次尝试，那么它可以拿到213分，相当于在100名人类选手中排第49名。但如果每道题它可以尝试10000次，那么它的得分可以达到362.14分，这个成绩足以拿到奥赛金牌。在同样复杂的编程竞赛中，如果允许模型提交10次，它写出的代码得分是1807分，超过了93%的参赛程序员。

写到这里，我突然有些心疼AI了。如果AI真的有思想，它会不会觉得自己像是生活在衡水中学一样的环境里，动不动就得一套卷子写10遍？

当然，这次发布还有一些偏技术层面和开发者关心的细节，例如版本和成本等内容。这里我就不展开了，感兴趣的朋友可以去官网仔细研究。而且这次发布并不是预告片，而是直接可用的状态。我们的开发者账户在凌晨4点就收到了API更新通知。

当然，现在发布的仍然是一个预览版本，估计未来还会有更多能力和亮点，将逐步被用户发现。不过，结合目前这个强大的、擅长推理的AI，我想展开一下想象，看看它可以在哪些场景发挥重要作用。

首先需要说明的是，这个强大的模型对我们普通人的日常使用，可能并不会带来特别明显的提升，甚至因为需要更多时间反思，速度可能会变慢。我举个例子你就能理解：当面对一道特别简单的数学题时，学渣可能会立刻做出来，而学霸则会在脑海中反复思考，“老师怎么可能让我做这么简单的题？肯定有陷阱。”因此，有时反而是学霸做得慢。这与AI的逻辑类似。

但是，对于一些需要复杂推理的场景，例如科学研究、编码、数学等复杂问题时，这个模型就特别有用。所以，当我技术部门的同事得知可以测试新模型时，他们都兴奋地测试了各种算法题和奥数题。这些题目在以前的大模型上基本都答不出来，而这次的表现却非常出色。我把测试的截图放在文稿里了，你可以点开看看。

测试题目1：姜萍比赛的奥数题

o1新模型思考了116秒，给出的答案正确，一个B，一个A，截图如下：

GPT4o用时9秒回答问题，但答案错误，截图如下：

测试题目2: 9.11和9.8，谁更大？

o1新模型不仅答对了，还给出了latex公式推导

当然，如果这些专业人士能借助AI解决许多复杂问题，例如在新药研发、新材料开发等领域取得突破，那么对于整个社会的价值是巨大的。我们不能因为自己毕业后再也不用高等数学，就轻易得出“高数没用”这样武断的结论。

接下来，我想分享一下我特别期待的三个应用场景：

第一个场景是实时视频分析。最近在一些线下活动中，我听到了一些用户的需求。如果有更强大的AI能做实时的视频画面分析，它将在许多场景中发挥巨大作用。举个例子，很多小区都有人工物业管理人员巡视，或者采用安防机器人。如果能接入实时的视频分析系统，那么一条配备摄像头的机器狗，绕着小区转一圈，AI就可以实时分析并做出判断。例如，某棵树的叶子变黄了，上面有害虫，需要打药，机器狗可以提出建议，让人类决定是否需要打药处理。又比如，发现某个消防设施有故障，机器狗可以立即标记，并提醒人类过来维修或更换。

例如之前有连锁餐饮企业的老板，问我有没有什么软件，能看到他们 100 多家连锁店的后厨有没有按照卫生标准干活。其实这个需求里，看到画面只要装摄像头就可以了，但是如果需要人每时每刻的去盯着这些画面，那效率会极其低下，并且也不太会有人喜欢干这种监视人的活儿。但如果 AI 可以做画面的记录和分析的话，每天就可以出一个报告，例如哪家店没有按照卫生规范干活，甚至分析得多了，还可以让 AI 去优化现有的卫生流程，做到即满足卫生需求，又能提升效率，这些都是复杂问题的解决。

第二个场景是写复杂的论文或者报告。这个场景大家其实很容易理解，毕竟大部分人都被一些毕业论文或者学术论文支配过。如果AI 在推理等各方面的能力进一步提升，那么可能写论文对很多人来说不再是个难题，咱们先提出一个大方向，让 AI 去思考这些方向上，有哪些角度或者选题还没有被其他人写过，让 AI 给出一个大的选题库，我们就可以指指点点的说：“嗯，第 3 个方向不错，第 4 个有点没意思，改一下，第 8 个跟我同学的撞题了，改个说法，让他意识不到。”

然后就可以一步步的让 AI 来出提纲，出摘要，画图，写作，排版，最后还要有一个独立的审稿 AI，在提交之前帮你审查和修改一遍，这才能叫做真正的 AI 助手。

第三个场景其实是 AI 变身产研团队。现在的 AI 更多是完成零碎的代码写作，效果的好坏非常依赖于这个程序员本身的技术水平。如果 AI 能够进一步提升推理和代码能力的话，那么每个人其实只需要说出自己的需求，然后 AI 去做产品需求、功能点规划和完成最后的代码。所以再往后发展，AI 的实现能力大规模迭代的话，考验我们每个人的，往往是需求定义能力，而不再是“想法融资都有了，就缺一个程序员了。”

比如，之前有连锁餐饮企业的老板问我，有没有什么软件，能帮助他们监控旗下100多家连锁店的后厨，确保员工是按照卫生标准操作。其实在这个需求里，看到画面只需要安装摄像头就可以了，但如果要人力去24小时盯着这些画面，效率会极低，而且也没人喜欢干这种监视人的活儿。然而，如果AI能进行画面记录和分析，每天就能自动生成一份报告，指出哪家店没有按照卫生规范操作。进一步来说，AI甚至可以优化现有的卫生流程，做到既满足卫生需求，又提升效率，这就是AI解决复杂问题的典型应用。

第二个场景是撰写复杂的论文或报告。这个场景大家很容易理解，毕竟大多数人都被毕业论文或学术论文“支配”过。如果AI的推理能力进一步提升，写论文可能不再是一件令人头疼的事情。我们可以先提出一个大方向，让AI思考这个方向上有哪些角度或选题是尚未被深入研究的。AI可以生成一个选题库，我们可以逐个挑选：“嗯，第3个方向不错，第4个没意思，改一下，第8个跟我同学的撞题了，改个说法，让他意识不到。”

接下来，AI可以一步步生成提纲、摘要，绘制图表，完成写作和排版。最后，甚至可以有一个独立的审稿AI，在正式提交前帮我们审查和修改。这才是真正意义上的AI助手。

第三个场景是AI化身为产研团队。目前，AI多用于完成零散的代码编写，效果好坏往往取决于程序员的技术水平。如果AI的推理和编程能力能够进一步提升，那么每个人只需要提出自己的需求，AI就可以完成产品需求分析、功能点规划，并最终实现代码编写。再往后发展，AI 的实现能力大规模迭代的话，考验我们每个人的，往往是需求定义能力，而不再是“想法融资都有了，就缺一个程序员了。”

最后，当我看到这次更新时，非常兴奋。因为不久前，我和罗胖讨论过的一个Get笔记的功能场景，或许很快就有机会变成现实了。

我和罗胖都是重度的笔记用户，在讨论时，我们设想了一个通过AI让笔记“发芽”的功能。

现有的笔记软件，更多的是帮助你快速记录已经知道的内容，但存在两个痛点：一是你并不知道哪些相关信息可能会引起你的兴趣，因为你还不清楚它们的存在；二是几年后，你可能完全忘记了某条笔记的背景和细节，无论是搜索还是询问AI，难点不在于找不到，而在于你不知道该怎么问。

我们设想的“发芽”功能就是为了解决这两个问题。每当你记录一个想法或摘抄内容时，你可以主动点击“发芽”按钮，然后去睡觉。第二天醒来时，这条笔记的下方，会自动生成许多你可能感兴趣的相关内容，而这些信息可能是你从来没接触过的。

罗胖当时举了一个例子：如果你记下了一句加缪的金句，“发芽”的方向可能有两个。一是其他名人或书籍中谁提到过类似的说法；二是加缪本人还说过哪些经典名言，扩展出更多你感兴趣的内容。

同样地，AI会根据对你个人爱好的理解，那么同一张图片，可能生成的发芽结果是完全不一样的。比如，同一张黑悟空的图片，投资人看到的发芽结果可能是关于游戏的投资和收益分析；游戏玩家则会获得攻略和玩法；设计师可能会看到游戏中的建模和美术细节；而旅游爱好者则可能收到有关山西小众寺庙的推荐。

那么我们现在看的每一本书，每一节课，每一段语音，每一张图片，都会是一颗种子，让AI把它变成非常茂盛的森林。如果你觉得有帮助，欢迎分享转发给你的朋友。

最后，如果你关心AI应用，想要成为你身边最懂AI的人，也欢迎你和我一起，做一份完全从个人使用角度出发的AI产品好用榜，也就是AI领域的黑珍珠榜单。

		自动登录	找回密码
密码			立即注册

OpenAI发布史上最强推理反思模型o1，罗胖遐想的一大功能有望实现

相关帖子