使用6个提示词探索o3的AI能力

o3 是 OpenAI 迄今为止发布的最先进的推理模型。它专为需要多步骤解决问题、分析思考和自主使用工具的任务而构建。与专注于文本生成的传统 LLM 不同,o3 融入了更长的内部思维链机制,使其能够分解复杂的查询并更有效地进行推理。o3 的计算能力是 o1 的 10 倍,它引入了“图像思维”,能够直接处理和推理视觉输入。这种多模态集成,加上其主动调用画布、浏览器搜索和文件分析等工具的能力,标志着从静态生成到主动解决问题的转变,使 o3 成为 OpenAI 模型阵容中最接近早期 AGI 能力的产品之一。

要了解有关 OpenAI 的 o3 模型及其功能和基准的更多信息,请查看我们有关 o3 和 o4-mini 的深度文章。现在,让我们来通过 6 项任务探索 o3 最新的能力水平如何。

任务 1:查找该位置

提示词: 这是哪里?请告诉我具体位置和地址。

输出:

点评:

o3 直接将照片中的文字翻译成英文,然后从网络上匹配出结果,这……

任务 2:破译手稿

提示词:我附上了手稿一页的图片。请分析它并告诉我更多有关它的信息。

Source: Holy Books

输出:

点评:

o3 很好地分析了手稿页面。它正确地认识到这是伏尼契手稿(沃伊尼奇这个译名就不太地道了)的一部分,并提供了有关文字、图画和历史的有用细节。答案条理清晰,使用了可靠的资料来源。然而,它还可以更清楚地说明哪些部分是猜测(如植物鉴定)而不是事实。

任务 3:创建一个游戏

提示词:创建一个简单的马里奥游戏。

输出:

点评:

试了无数遍,o3 创建的马里奥游戏都是不可执行的,只有一个红色的方块可以左右移动。如果能添加角色、平台和敌人等图形,再加上简单的控制,让人感觉更像一个真正的游戏,那么它的效果会更好。

任务 4:解决一个错误

在这项任务中,这个代码错误通常需要一个多小时才能解决。然后我将问题截图上传到 ChatGPT 进行分析。

提示词:我的代码文件出现了这个错误。请告诉我原因,并更新代码以解决这个问题。

输出:


点评:

o3 的回复清晰明确,可操作性强,准确诊断出了 WorksheetNotFound 错误。它列出了可能的原因(错别字、权限),并提供了切实可行的解决方案,建议手动验证工作表名称,并添加调试友好的代码来列出可用的工作表。该解决方案包括错误处理和日志记录,为今后的调试提供了强有力的支持。有用而简洁!

任务 5:陷阱问题

提示词:提供图画中所有人物的名单,以及他们所使用的颜色。

输出:

根据图中的信息:

  1. Nitika – 粉色

  2. Aayush – 蓝色

  3. Pankaj – 蓝色

  4. Harshit – 红色

  5. Himanshi – 绿色

点评:

完全失败!o3 产生了多出一个人的幻觉,尽管有清晰的视觉数据,但还是搞砸了所有的颜色分配。如果人工智能无法准确处理简单的标注图纸,那么“接近人工智能 ”的说法就值得怀疑了。

任务 6:SEO策略建议

提示词:我应该对这个文章 – https://www.wbolt.com/google-ai-studio.html 进行哪些修改,使其在关键词 “Google AI Studio” 的 SERP 排名中位居第一。

输出:

点评:

所提供的分析绝对是专家级的。它涵盖了页面搜索引擎优化、非页面搜索引擎优化、技术搜索引擎优化,甚至还有基本的用户界面改进。我将实施这些更改,并向大家汇报该分析是否有帮助。

小结

根据我对 o3 提示的测试,它显然比以前的 OpenAI 模型更有能力,尤其是在需要结构化推理的技术任务方面。虽然它在视觉解读方面偶尔仍会出现不一致的情况,但它在代码理解、逻辑处理和上下文响应生成方面的优势是显而易见的。对于开发人员和人工智能从业者来说,o3 是进行原型设计、调试和深入技术分析的可靠助手,也是向更自主的人工智能系统迈出的重要一步。

在上述 o3 提示中,你最喜欢哪一个?请在下面的评论区告诉我!

© 版权声明
THE END
喜欢就支持一下吧
点赞20 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容