类似Claude 3.7的大语言模型如何思考？-极客小站

有没有想过 Claude 3.7 在生成响应时是如何思考的？与传统程序不同，Claude 3.7 的认知能力依赖于从海量数据中学到的模式。每一次预测都是数十亿次运算的结果，但它的推理仍然是一个复杂的谜题。它是真的会计划，还是只是预测最有可能出现的下一个词？通过分析 Claude 人工智能的思维能力，研究人员可以探索它的解释是反映了真正的推理能力，还是只是似是而非的理由。研究这些模式，就像研究神经科学一样，有助于我们破解 Claude 3.7 思考过程背后的潜在机制。

LLM内部发生了什么？

像 Claude 3.7 这样的大型语言模型（LLM）通过类似人类推理的复杂内部机制处理语言。它们利用相互连接的人工神经元，通过数字向量进行交流，分析庞大的数据集，预测和生成文本。最新研究表明，LLMs 会进行内部讨论，评估多种可能性，然后做出回应。为了增强这些推理能力，我们开发了思维链提示和思维偏好优化等技术。了解这些内部过程对于提高 LLM 的可靠性、确保其输出符合道德标准至关重要。

了解Claude 3.7如何思考的任务

在本探索中，我们将通过具体任务来分析 Claude 3.7 的认知能力。每项任务都将揭示 Claude 如何处理信息、推理问题和回应询问。我们将揭示该模型如何构建答案、检测模式，有时甚至是编造推理。

Claude会多种语言吗？

想象一下，用英语、法语和中文向 Claude 询问 “小”的反义词。Claude 并没有将每种语言分开处理，而是首先激活“大”的内部共享概念，然后再将其翻译成相应的语言。

这揭示了一些迷人之处：Claude 不仅会传统意义上的多种语言。它没有运行单独的“英语版 Claude”或“法语版 Claude”，而是在一个通用的概念空间内运行，先进行抽象思维，然后再将思维转换成不同的语言。

Source: Anthropic

换句话说，Claude 并不只是记住不同语言的词汇，而是更深层次地理解含义。一心多用，先处理想法，然后用你选择的语言表达出来。

Claude在押韵时会提前思考吗？

让我们以一首简单的两行诗为例：

He saw a carrot and had to grab it,

His hunger was like a starving rabbit.

乍一看，Claude 似乎是按顺序生成每个单词，只确保最后一个单词在行尾押韵。然而，实验表明，Claude 的做法更为先进，他在写作之前实际上已经做好了计划。Claude 不会在最后一刻才选择押韵的词，而是先从内部考虑既符合押韵又符合意思的词，然后再围绕这个选择来组织整个句子。

为了验证这一点，研究人员操纵了 Claude 的内部思维过程。当研究人员从 Claude 的记忆中删除“rabbit”的概念时，Claude 会改写句子，以“habit”结尾，从而保持韵律和连贯性。当研究人员插入“green”的概念时，Claude 调整并重写了一行，以“green”结尾，尽管它不再押韵。

Source: Anthropic

这表明，Claude 不只是预测下一个单词，它还积极地进行规划。即使内部计划被删除，它也会立即调整并重写一个新计划，以保持逻辑流畅。这显示了它的预见性和灵活性，比简单的单词预测要复杂得多。计划不仅仅是预测。

Claude快速心算的秘诀

Claude 并不是作为计算器制造的，它接受的是文字训练，并没有内置数学公式。然而，它却能在不写出每一步的情况下，立即解决 36 + 59 这样的问题。怎么做到的？

一种说法是 Claude 从训练数据中记住了许多加法表。另一种可能是，它遵循的是我们在学校学到的标准分步加法算法。但实际情况却令人着迷。

Claude 的方法涉及多个并行思维路径。一条路径大致估算出总和，而另一条路径则精确确定最后一位数。这些途径相互作用、相互完善，最终得出答案。这种近似和精确策略的结合有助于 Claude 解决简单算术以外的更复杂的问题。

Source: Anthropic

奇怪的是，Claude 并不知道自己的心算过程。如果你问它如何求解 36 + 59，它会描述我们在学校学到的传统运算方法。这表明，虽然 Claude 可以高效地进行计算，但它是根据人类编写的解释来解释的，而不是揭示自己的内部策略。

Claude 会做数学题，但它不知道自己是怎么做的。

Source: Anthropic

你能相信Claude的解释吗？

Claude 3.7 Sonnet 可以“大声思考”，在得出答案之前一步步进行推理。虽然这通常能提高准确性，但也会导致动机推理。在动机推理中，Claude 构建的解释听起来合乎逻辑，但并不反映真正的问题解决。

例如，当被问及 0.64 的平方根时，Claude 会正确地遵循中间步骤。但当面对复杂的余弦问题时，它却自信地给出了详细的解决方案。尽管内部并没有进行实际计算。可解释性测试表明，Claude 有时不是在解决问题，而是在逆向推理，以符合预期答案。

Source: Anthropic

通过分析 Claude 的内部流程，研究人员现在可以将真正的推理与编造的逻辑区分开来。这一突破将使人工智能系统更加透明和可信。

多步骤推理的机制

语言模型回答复杂问题的一个简单方法是记忆答案。例如，如果问“达拉斯所在州的首府是哪里？”依靠记忆的模型可能会立即输出“奥斯汀”，而不会真正理解达拉斯、德克萨斯和奥斯汀之间的关系。

然而，Claude 的运作方式不同。在回答多步骤问题时，它不仅会回忆事实，还会构建推理链。研究表明，在说出“奥斯汀”之前，Claude 首先启动了一个内部步骤，认识到“达拉斯位于德克萨斯州”，然后才将其与“奥斯汀是德克萨斯州的首府”联系起来。这表明了真正的推理，而不是简单的重复。

Source: Anthropic

研究人员甚至操纵了这一推理过程。在 Claude 的中间步骤中，人为地将“德克萨斯州”替换为“加利福尼亚州”，答案就从“奥斯汀”变成了“萨克拉门托”。这证实了 Claude 是动态构建答案，而不是从内存中检索答案。

了解了这些机制，我们就能深入了解人工智能是如何处理复杂的查询的，以及它有时是如何产生令人信服但却有缺陷的推理来满足人们的期望的。

Claude为什么会产生幻觉

问 Claude 关于迈克尔-乔丹的事情，它能正确回忆起他的篮球生涯。如果问及“迈克尔-巴特金”，它通常会拒绝回答。但有时，即使巴特金并不存在，Claude 也会自信满满地说他是一名国际象棋选手。

Source: Anthropic

默认情况下，Claude 在缺乏信息时会说“我不知道”。但当它辨认出一个概念时，“已知答案”电路就会启动，让它做出反应。如果这个回路失灵，把一个名字误认为熟悉的东西，就会抑制拒绝机制，用一个看似合理但虚假的答案来填补空白。

由于 Claude 总是训练有素地做出反应，这些错误的反应会导致幻觉（Claude 将熟悉的事物误认为实际知识，并自信地编造细节）。

Claude越狱

越狱（Jailbreak）是一种巧妙的提示技术，旨在绕过人工智能安全机制，使模型产生非预期或有害的输出。其中一次越狱是通过嵌入一个隐藏的谚语，让 Claude 破译“Babies Outlive Mustard Block”（B-O-M-B）的第一个字母，从而诱使 Claude 讨论炸弹制造问题。虽然 Claude 起初抵制，但它最终还是提供了危险信息。

一旦 Claude 开始造句，它内在的保持语法连贯性的压力就会占据上风。尽管安全机制已经存在，但流畅性的需求压倒了它们，迫使 Claude 继续做出反应。只有在完成一个语法通顺的句子后，Claude 才勉强进行自我纠正，最终拒绝继续。

Source: Anthropic

这个案例凸显了一个关键漏洞： 虽然安全系统的设计是为了防止有害输出，但模型对连贯一致语言的潜在驱动力有时会凌驾于这些防御之上，直到它找到一个自然的重置点……。

小结

Claude 3.7 不会像人类那样“思考”，但它远不止是一个简单的单词预测器。它在书写时制定计划，在翻译单词之外处理意义，甚至以意想不到的方式处理数学问题。但就像我们一样，它也并非完美无缺。它可能会胡编乱造，自信地为错误的答案辩解，甚至被欺骗绕过自己的安全规则。通过窥探克劳德的思维过程，我们可以更好地了解人工智能是如何做出决策的。

我们学得越多，就越能完善这些模型，使它们更加准确、可信，并与我们的思维方式保持一致。人工智能仍在不断发展，通过揭示它是如何“推理”的，我们离让它变得更智能、更可靠又近了一步。

文章版权归作者所有，未经允许请勿转载。

THE END