OpenAI发布其最新最先进的推理模型o3和o4-mini

就在 GPT 4.1 系列发布几天后,OpenAI 再次发布了 o3 和 o4-mini 推理模型,向 AGI(人工通用智能)迈出了一大步。o3 和 o4-mini 不仅仅是人工智能模型,它们还是具有高级智能、自主性、工具调用功能和实际软件工程技能的人工智能系统。这些新模型不会等着你去做工作;它们会自己去使用工具,自动完成任务!因此,让我们深入探讨新的 o 系列模型 o3 和 o4-mini 的功能、基准性能和应用。

什么是o3和o4-mini?

o3 和 o4-mini 是 OpenAI 最新的推理模型,它们继承并取代了 o 系列中以前的模型,如 o1 和 o3-mini。与主要关注模式识别和文本生成的标准 LLM 不同,这些推理模型采用了更长的内部“思维链”流程。

这使它们能够分解复杂的问题,评估不同的步骤,并得出更准确、更周到的解决方案。因此,它们在 STEM、编码和逻辑推导等领域尤其出色。此外,这些模型是 o 系列中第一个能够代理使用和结合 ChatGPT 中的全套工具的模型。

o3 是 OpenAI 迄今为止最先进的推理模型,在需要跨领域深度分析思考的任务中表现出色。该模型的计算能力是 o1 的 10 倍,具有 “图像思维 ”能力。这使它能够在认知过程中直接处理视觉输入并进行推理,这是非常了不起的。

o4-mini 是 o3 的紧凑、高效和高性价比的对应产品。虽然体积较小,但它的性能却令人印象深刻,尤其是在数学、编码和视觉任务等领域。它的优化设计确保了更快的响应速度和更高的吞吐量,使其适用于对速度和效率要求极高的应用。

其他模型:OpenAI 还发布了 o4-mini-high 变体,它耗时更长,但答案可能更可靠。

未来版本:计划在不久的将来向专业版订阅者发布功能更强大的 o3-pro 版本,该版本将利用更多的计算资源。

推荐阅读:Llama 4模型:Meta AI正在开源最好的模型

o3和o4-mini的主要特点

以下是这些先进而强大的推理模型的一些主要特点:

  • 代理行为:它们具有主动解决问题的能力,能自主确定复杂任务的最佳方法,并高效执行多步骤解决方案。
  • 先进的工具集成:这些模型可无缝利用网页浏览、代码执行和图像生成等工具来增强其响应能力,并有效处理复杂的查询。
  • 多模态推理:他们可以处理视觉信息并将其直接整合到推理链中,从而能够在解释和分析文本数据的同时解释和分析图像。
  • 高级视觉推理(“图像思维”):这些模型可以解读复杂的视觉输入,如图表、白板草图,甚至是模糊/低质量的照片。作为推理过程的一部分,他们甚至可以处理这些图像(缩放、裁剪、旋转、增强),以提取相关信息。

o3和o4-mini是否Reflect AGI?

这两个“o 系列”模型都是专门设计来进行更深入的思考,并在做出反应之前进行复杂、多步骤的推理。

当需要解决一个问题时,o3 会首先使用蛮力找出一个解决方案。然后,模型会找到一种更聪明的计算方法,并以更简洁的格式呈现出来。它还会进一步重新检查答案,并将其简化,为用户提供非常简单易懂的回复。

现在,虽然这一思考过程的一部分是基于计算和训练,但这些模型并没有被明确教导如何简化答案或重新检查答案。这使得它们成为自我进化和自我学习的模型,让我们更接近 AGI。

此外,o3 还能自主决定何时以及如何使用 ChatGPT 中的各种工具(网络搜索、Python 数据分析、DALL-E 图像生成和视觉)来解决复杂的多方面查询。它可以连锁调用多个工具,反复搜索网络,分析结果,并综合各种模式的信息。

o3和o4-mini的可用性

两种模型均可通过 OpenAI 的 ChatGPT 平台和 API 服务访问。

ChatGPT Access:订阅 ChatGPT Plus、Pro 和 Team 计划的用户可直接在聊天界面上使用 o3、o4-mini 和 o4-mini-high 模型。企业和教育用户将在一周内获得访问权限。免费用户可在提交查询前选择 “Think ”选项,体验 o4-mini。

API 访问:开发人员可以通过 OpenAI 的聊天完成 API 和 Responses API 将 o3 和 o4-mini 集成到他们的应用程序中,从而在各种平台上实现定制的人工智能解决方案。

o3和o4-mini:基准性能

在一系列标准基准测试中,o3 和 o4-mini 模型都表现出了卓越的性能。

  • SWE-Lancer:这两种模型的高变体在这一编码基准测试中表现优异,令其祖先汗颜。
  • SWE-Bench Verified(软件工程):o3 获得 69.1%,o4-mini 紧随其后,获得 68.1%。这两个模型的表现都明显优于以前的模型,如 o3-mini(49.3%)和竞争对手 Claude 3.7 Sonnet(63.7%)。
  • Aider Polyglot(代码编辑):在代码编辑基准方面,这两个模型都被证明是 OpenAI 的佼佼者,创造了新的记录。

  • AIME 2025(数学):o4-mini 在配备 Python 解释器的情况下得分 99.5%,树立了新的标杆,而 o3 紧随其后,得分 98.4%。
  • Codeforces(竞技编程):o4-mini 的 Elo 评分为 2719,反映了其在竞技编程场景中解决问题的高级技能。与此同时,o3 获得了 2706 分,表现仍比其他模型高出数倍。
  • GPQA Diamond(博士级科学):o3 在不使用任何工具的情况下,在这一基准测试中取得了 87.7% 的准确率,展示了先进的科学推理能力,o4-mini 紧随其后,取得了 81.4% 的准确率。

  • MMMU(大规模多模态多任务理解):o3 在这项基准测试中表现出色,展示了其处理涉及文本和视觉数据的各种复杂任务的能力。

  • Humanity’s Last Exam:在这个评估不同领域的专家级推理的基准测试中,o3 的准确率达到 26.6%,超过了所有其他 OpenAI 模型。同时,o4-mini 的表现明显优于其前身 o3-mini。

想更好地了解这些基准的含义?请阅读我们的 LLM 基准综合指南

o3和o4-mini的应用

o3 和 o4-mini 的推理能力、工具使用和可视化功能得到了增强,从而开启了广泛的潜在应用领域,包括

  • 复杂数据分析和报告:通过编写和执行 Python 代码、从网上获取补充信息以及生成摘要或可视化效果来分析数据集。
  • 高级科学研究:通过解释复杂图表、分析实验数据、搜索文献以及提出新的研究方向,为研究人员提供协助。
  • 复杂编码与软件工程:调试复杂的代码,根据可视化模型或图表生成代码,理解资源库结构,执行多步骤软件开发任务。
  • 教育与辅导:利用循序渐进的推理解释复杂的 STEM 概念,解释教科书上的图表或手写笔记,并提供互动式问题解决帮助。
  • 多模态内容创建与理解:生成详细描述或图像分析,创建需要整合文本和视觉元素的内容,以及根据视觉证据回答问题。
  • 商业智能与战略:利用实时网络数据分析市场趋势,进行预测,并根据综合信息来源制定战略计划。
  • 创造性地解决问题:应对开放式挑战,需要结合不同类型的信息和推理步骤。

小结

OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大进步,尤其是在推理和多模态理解方面。通过将深度推理与多功能代理工具使用以及“用图像思考”的新能力相结合,这些模型为人工智能的智能性和实用性设定了新标准。这些模型在各种基准测试中的出色表现,彰显了它们在软件工程和科学研究等领域处理复杂现实任务的潜力。

o3 可为要求最苛刻的任务提供峰值性能,而 o4-mini 则是能力、速度和成本效益的完美结合。不过,这两种模型都具有相同的代理和自主能力,展示了人工智能的先进性。随着人工智能的不断发展,这种创新模型将为更复杂、更多用途的应用铺平道路,使我们更接近实现 AGI。

© 版权声明
THE END
喜欢就支持一下吧
点赞20 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容