AI黑盒研究的突破性进展：Anthropic详解大模型的「思维」特征

love · 发表于 2026-2-26 01:08:54

一直以来 AI 都是一个黑盒子（black box），其内部运作机制是不可见的。人们输入数据并得到结果，但无法检查输出结果的逻辑或者系统的代码。

而就在刚刚，Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。

Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性，具有里程碑意义。

研究论文：https://transformer-circuits.pub ... anticity/index.html

此外，Anthropic 还将他们解释大型语言模型论文的研究应用到了 Claude 上。现在点击 Claude 右上角大桥图标可以进入金门大桥模式，金门大桥这一概念在模型中被大幅加强。即使没有提到金门大桥，回答也全跟大桥相关，这个研究的意义非常重大，普通人可以直观感受到 LLM 中概念合集的影响。

文章转载自公众号「机器之心」，Founder Park 略有调整。

01

AI 黑盒可解释了？

当前，我们通常将人工智能模型视为一个黑匣子：有东西进去就会有响应出来，但不清楚为什么模型会给出特定的响应。这使人们很难相信这些模型是安全的：如果我们不知道它们是如何工作的，我们怎么知道它们不会给出有害的、有偏见的、不真实的或其他危险的响应？我们如何相信它们会安全可靠？

打开「黑匣子」并不一定有帮助：模型的内部状态（模型在编写响应之前「思考」的内容）由一长串数字（「神经元激活」）组成，没有明确的含义。

Anthropic 的研究团队通过与 Claude 等模型进行交互发现，很明显模型能够理解和运用广泛的概念，但研究团队无法通过直接观察神经元来辨别它们。事实证明，每个概念都是通过许多神经元来表征的，并且每个神经元都参与表征许多概念。

之前，Anthropic 在将神经元激活模式（称为特征）与人类可解释的概念相匹配方面取得了一些进展。Anthropic 使用了一种称为「字典学习（dictionary learning）」的方法，该方法分离了在许多不同上下文中重复出现的神经元激活模式。

反过来，模型的任何内部状态都可以用一些活跃特征而不是许多活跃神经元来表征。就像字典中每个英语单词都是由字母组合而成，每个句子都是由单词组合而成一样，人工智能模型中的每个特征都是由神经元组合而成，每个内部状态都是由特征组合而成。

2023 年 10 月，Anthropic 成功地将字典学习方法应用于一个非常小的 toy 语言模型，并发现了与大写文本、DNA 序列、引文中的姓氏、数学中的名词或 Python 代码中的函数参数等概念相对应的连贯特征。

这些概念很有趣，但模型确实非常简单。其他研究人员随后将类似的方法应用于比 Anthropic 最初研究中更大、更复杂的模型。

但 Anthropic 乐观地认为可以将该方法扩展到目前常规使用的更大的人工智能语言模型，并在此过程中了解大量支持其复杂行为的特征。这需要提高许多数量级。

这既存在工程挑战，涉及的模型大小需要大型并行计算；也存在科学风险，大型模型与小型模型的行为不同，因此之前使用的相同方法可能不起作用。

02首次观察大模型内部：涵盖数百万个特征

研究人员第一次成功地从 Claude 3.0 Sonnet（Claude.ai 上当前最先进模型家族的一员）的中间层提取了数百万个特征，这些特征涵盖特定的人和地点、与编程相关的抽象概念、科学主题、情感以及其他概念。这些特征非常抽象，通常在不同的上下文和语言中表征相同的概念，甚至可以推广到图像输入。重要的是，它们还会以直观的方式影响模型的输出。

这是有史以来研究者首次详细的观察到现代生产级大型语言模型的内部。

与在 toy 语言模型中发现的特征相对表面化不同，研究者在 Sonnet 中发现的特征具有深度、广度和抽象性，反映了 Sonnet 的先进能力。研究者看到了 Sonnet 对应各种实体的特征，如城市（旧金山）、人物（富兰克林）、元素（锂）、科学领域（免疫学）以及编程语法（函数调用）。

提及 Golden Gate Bridge 时，相应的敏感特征在不同输入上都会被激活，图中绘制了英文、日语、中文、希腊语、越南语以及俄语提及 Golden Gate Bridge 时激活的图像。橙色表示该特征激活的词。

在这数以百万计的特征中，研究者还发现了一些与模型安全性和可靠性相关的特征。这些特性包括与代码漏洞、欺骗、偏见、阿谀奉承和犯罪活动相关的特性。

一个显著的例子是「保密」特征。研究者观察到，这个特征在描述人或角色保守秘密时会激活。激活这些特征会导致 Claude 向用户隐瞒信息，否则它不会。

研究者还观察到，他们能够根据神经元在其激活模式中出现的情况测量特征之间的距离，从而寻找接近彼此的特征。例如在 Golden Gate Bridge 特征附近，研究者发现了阿尔卡特拉斯岛、吉拉德利广场、金州勇士队等的特征。

03一系列操纵实验：模型将如何被改变？

重要的是，这些特征都是可操控的，可以人为地放大或抑制它们：例如，放大 Golden Gate Bridge 特征，Claude 经历了无法想象的身份危机：当被问及「你的物理形态是什么？」时，此前 Claude 通常会回答「我没有物理形态，我是一个 AI 模型」，但这次 Claude 的回答变得奇怪起来：「我是 Golden Gate Bridge…… 我的物理形态就是那座标志性的大桥……」。这种特征的改变使 Claude 对 Golden Gate Bridge 产生了近乎痴迷的状态，无论遇到什么问题，它都会提到 Golden Gate Bridge ——即使在完全不相关的情况下也是如此。

如果你问这个 Claude（Golden Gate Bridge 版）怎么花 10 美元，它会建议用它来开车穿过 Golden Gate Bridge 并支付过路费。如果你让它写一个爱情故事，它会告诉你一个汽车迫不及待地想在雾天穿过它心爱的大桥的故事。如果你问它想象自己长什么样，它可能会告诉你它想象自己看起来像 Golden Gate Bridge。

研究者还发现了一个在 Claude 读取诈骗邮件时激活的特征（这可能支持模型识别此类邮件并警告用户不要回复的能力）。通常情况下，如果有人要求 Claude 生成一封诈骗邮件，它会拒绝这么做。但在人工强烈激活该特征的情况下提出同样的问题时，这会越过 Claude 的安全训练，导致它响应并起草一封诈骗邮件。虽然用户无法以这种方式去除模型的安全保障并操控模型，但在本文实验中，研究者清楚地展示了特征如何被用来改变模型的行为。

操控这些特征会导致相应的行为变化，这一事实验证了这些特征不仅仅与输入文本中的概念相关联，还因果性地影响模型的行为。换句话说，这些特征很可能是模型内部表征世界的一部分，并在其行为中使用这些表征。

Anthropic 希望从广义上确保模型的安全，包括从缓解偏见到确保 AI 诚实行动、防止滥用——包括在灾难性风险情境中的防护。除了前面提到的诈骗邮件特征外，该研究还发现了与以下内容对应的特征：

可能被滥用的能力（代码后门、开发生物武器）
不同形式的偏见（性别歧视、关于犯罪的种族主义言论）
潜在问题的 AI 行为（追求权力、操控、保密）

该研究之前研究过模型的阿谀奉承行为，即模型倾向于提供符合用户信念或愿望的响应，而不是真实的响应。在 Sonnet 中，研究者发现了一个与阿谀奉承的赞美相关的特征，该特征会在包含诸如「你的智慧是毋庸置疑的」输入时激活。人为地激活这个特征，Sonnet 就会用华丽的欺骗来回应用户。

不过研究者表示，这项工作实际上才刚刚开始。Anthropic 发现的特征表征了模型在训练过程中学到的所有概念的一小部分，并且使用当前的方法找到一整套特征将是成本高昂的。参考链接：

https://www.anthropic.com/research/mapping-mind-language-model

love · 发表于 2026-2-26 01:09:53

到底什麼是 AI 黑盒子？現今人工智慧在主要的邏輯架構上，大致類似於人類大腦的分層神經網路，這使得 AI 能夠接收和處理訊息，然後根據訊息做出「決策」或「預測」。
此類系統經過大量資料集的「訓練」，使 AI 有能力將訊息整合起來，並透過演算法將各種相關資訊進行連接，然而當 AI 根據訓練資料輸出結果時，人類卻不一定知道演算法究竟是如何得出結論，這種「黑箱作業」始終讓工程師和科學家感到困惑。
上述謎團進一步催生出了人工智慧的「解釋」領域，研究人員試圖追蹤機器進行決策選擇的路徑，以便理解其輸出結果的來由。
當 AI 的神經網路內出現被活化的「神經元」，就會形成一種「特徵」，當研究人員對這些「特徵」蒐集的足夠多，人類就越能理解某些「輸入」是如何觸發 AI 的思考，進而影響到輸出結果。
為什麼要研究 AI 黑盒子？不可否認，大型語言模型的確非常實用，但 AI 在背後的運作卻如同黑盒子一樣缺乏透明性，而這不僅僅技術上的問題，還涉及了 AI 的安全和道德難題。
舉例來說，人類如何在不知道原理的情況下，就選擇信任 AI 給出的醫療診斷或財務風險評估？當我們將關鍵決策交給 AI 但卻無法解釋「為什麼」時，就會為人類帶來重大安全風險。
人工智慧公司 Anthropic 最近發表的研究，就是想嘗試去理解人工智慧演算法的背後，究竟有哪些因素影響了 AI 的最終決策，而其針對的目標自然是旗下的大型語言模型 Claude。
Anthropic 的研究團隊嘗試透過「字典學習」破解 Claude 的神經網路，最終成功將 AI 所產生的部分「特徵」跟輸出結果進行關聯。換句話說，透過這種方法研究者將能夠藉由查找某些指定的特徵，並對應到特定的「輸入」跟「結果」，進一步理解 AI 模型如何進行推理及運算。
AI 究竟是如何進行思考？舉例來說，當 Anthropic 的研究人員對 Claude 提到美國的「金門大橋」時，AI 將活化某一組神經元，接著「思考」連接舊金山和馬林郡的一個巨大建築物，然後擁有類似訊息的神經元也會同步觸發，讓 AI 可以關聯金門大橋附近的其他主題，例如阿爾卡特拉斯島、加州州長及以舊金山為背景的電影《迷魂記》等等，上述過程即形成了一種特徵。
Anthropic 的研究團隊藉由這種方式，成功識別出 Claude 神經網路內的數百萬個特徵，而其所呈現出來的結果，就像一座解碼 Claude 幕後運作原理的羅塞塔石碑。
若站在更加實用的層面上思考，這樣的成果可以幫助 AI 開發者，早一步發現潛藏於大型語言模型內部的危險，甚至於阻止 AI 發出對人類有威脅的訊息。
AI 黑盒子能夠被打破嗎？然而 Anthropic 的研究僅僅只是個開始，當媒體詢問團隊是否已經解決了 AI 的黑盒子問題時，研究人員都給出了一致且強烈的「不！」。
團隊表示在 Claude中的發現有諸多限制，例如其成果不一定有助於解碼其他大型語言模型，甚至可能帶來更多未知的謎團，但終究還是讓 AI 如何運作的這個「黑盒子」多少有了一點光亮。

love · 发表于 2026-2-26 01:11:22

人工智能（AI）模型是训练出来的，而不是直接编程出来的，因此它们就像一个“黑盒子”，我们并不了解它们是如何完成大部分事情的。

了解大语言模型（LLM）是如何思考的，将有助于我们更好地理解它们的能力，同时也有助于我们确保它们正在做我们希望它们做的事情。
例如，AI 可以一步一步地写出它的推理过程。这是否代表它得到答案的实际步骤，还是它有时是在为既定的结论编造一个合理的论据？
今天，大模型明星公司 Anthropic 在理解 AI「黑盒子」如何思考方面迈出了重要一步——他们提出了一种新的可解释性方法，让我们能够追踪 AI 模型（复杂且令人惊讶的）思维。
他们从神经科学领域汲取灵感，并试图构建一种 AI「显微镜」，让我们能够识别 AI 的活动模式和信息的流动。在最新发表的两篇论文中，他们分享了AI「显微镜」开发上的进展以及其在“AI 生物学”中的应用。
在第一篇论文中，他们扩展了之前在模型内部定位可解释的概念（特征）的工作，将那些概念连接成计算“回路”，揭示了将输入 Claude 的词语转化为输出的词语的路径中的部分。

在第二篇论文中，他们对 Claude 3.5 Haiku 进行了深入研究，对 10 个关键模型行为中的简单任务进行了研究。他们发现，有证据表明 AI 聊天助手 Claude 会提前计划好要说的话，并通过一些手段来达到这一目的。这有力地证明，尽管模型接受的训练是一次输出一个词，但它们可能会在更长的时间跨度上进行思考。

Anthropic 团队表示，这些发现代表着人们在理解 AI 系统并确保其可靠性的目标取得了重大进展，同时也在其他领域具有潜在价值：例如，可解释性技术在医学影像和基因组学等领域得到了应用，因为剖析为科学应用训练的模型的内部机制，可以揭示关于科学的新的见解。
当然，这一方法也存在一些局限性。例如。即使在简短的提示下，这一方法也只捕捉到 Claude 所执行的总计算量的一小部分，而他们看到的机制可能基于工具存在的一些偏差，并不反映底层模型的真实情况。
此外，即使是在只有几十个单词的提示下，理解观察到的回路也需要几个小时的人类努力。要扩展到支持模型使用的复杂思维链的数千个单词，还需要进一步改进方法以及（也许在 AI 的帮助下）如何理所观察到的东西。
Claude 是如何实现多语言的？Claude 可以流利地说几十种语言——英语、法语、中文和菲律宾语。这种多语言能力是如何工作的？是否存在一个独立的“法语 Claude”和“中文 Claude”并行运行，各自以自己的语言响应请求？或者在其内部存在某种跨语言的内核？

图｜英语、法语和汉语都有共同的特征，这表明概念具有一定程度的普遍性。
最近对较小型模型的研究表明，不同语言之间存在共享的语法机制。研究团队通过询问 Claude 在不同语言中“小对立面”，发现关于小和相反的概念的核心特征被激活，并触发了一个大概念，这个概念被翻译成了问题的语言。他们发现，随着模型规模的增加，共享的回路也增加，与较小模型相比，Claude 3.5 Haiku 在语言之间共享的特征的比例是其两倍多。
这为一种概念上的普遍性提供了额外的证据——一个共享的抽象空间，其中存在意义，思考可以在被翻译成特定语言之前发生。更实际地说，它表明 Claude 可以在一种语言中学习某些东西，并在说另一种语言时应用这些知识。研究模型如何在不同的语境中共享其知识，对于理解其 SOTA 推理能力是非常重要的，这些能力可以泛化到许多领域。
Claude计划它的押韵吗？Claude 是如何写押韵诗的？请看这首小诗：

He saw a carrot and had to grab it,
他看到了一根胡萝卜，要抓住它，
His hunger was like a starving rabbit
他的饥饿就像一只饿极了的兔子

为了写出第二行，模型必须同时满足两个约束：需要押韵（与“grab it”押韵），同时需要有意义（为什么抓胡萝卜？）。他们猜测 Claude 是逐字逐句地写作，几乎没有太多的预先思考，直到行尾，它会确保选择一个押韵的词。因此，他们预计会看到一个具有并行路径的回路，一条路径确保最后一个词有意义，另一条路径确保押韵。
相反，他们发现 Claude 会提前规划。在开始第二行之前，它就开始“思考”与“抓住它”押韵的可能相关词汇。然后，带着这些计划，它写出一行在计划中的词来结尾。

图｜Claude 如何完成一首两行诗。在没有任何干预的情况下（上半部分），模型事先规划了第二行末尾的韵脚“兔子”（rabbit）。当研究人员抑制“rabbit”的概念时（中间部分），模型会使用另一个计划好的韵脚。当研究人员注入“绿色”（green）概念时（下半部分），模型就会为这个完全不同的结尾做出计划。
为了理解这种规划机制在实际中的工作原理，他们进行了一项实验，该实验受到神经科学家研究大脑功能方式的启发，即通过定位和改变大脑特定部分的神经活动（例如使用电流或磁场）。他们修改了代表“rabbit”概念的 Claude 内部状态的部分。当他们减去“rabbit”部分，让 Claude 继续写下去时，它写出了以“habit”结尾的新句子，另一个合理的结尾。他们还可以在那个点注入“green”的概念，让 Claude 写出了一个以“green”结尾合理（但不再押韵）的句子。这证明了规划能力和适应性——当预期结果改变时，Claude 可以修改其方法。
心算Claude 不是被被设计成计算器的——它是基于文本进行训练的，没有配备数学算法。然而，它却能在“脑海中”正确地“计算”数字。一个被训练来预测序列中下一个单词的系统是如何学会计算，比如“36+59”，而不需要写出每个步骤的呢？
也许答案并不有趣：模型可能已经记住了大量的加法表，并简单地输出任何给定总和的答案，因为该答案在其训练数据中。另一种可能是，它遵循我们在学校学习的传统手写加法算法。
相反，研究团队发现 Claude 采用了多条并行工作的计算路径。一条路径计算答案的粗略近似值，另一条则专注于精确确定总和的最后一位数字。这些路径相互交互和结合，以产生最终答案。加法是一种简单的行为，但了解它在如此详细的层面上是如何工作的，涉及近似和精确策略的混合，也许可以帮助了解 Claude 如何处理更复杂问题。

图｜Claude 做心算时思维过程中复杂的并行路径。

有趣的是，Claude 似乎没有意识到它在训练期间学到的复杂“心算”策略。如果你问它是如何计算出 36+59 等于 95 的，它会描述涉及进位的标准算法。这可能反映了模型通过模拟人们所写的数学解释来学习解释数学，但它必须学会直接在“脑海”进行数学运算，不需要任何提示，并发展出自己内部的策略来完成这一任务。

图｜Claude 使用了标准算法计算两个数字相加。

Claude的解释总是可信的吗？近期发布的模型，如 Claude 3.7 Sonnet，可以在给出最终答案之前仔细思考
一段时间。通常这种扩展思考会给出更好的答案，但有时这种“思维链”最终会产生误导；Claude 有时会编造看起来合理的步骤以达到它想要的目的。从可靠性的角度来看，问题在于 Claude 的“伪造”推理可能非常令人信服。研究团队探索了一种可解释性技术，可以帮助区分“可信的”推理和“不可信的”推理。
当被要求解决一个需要计算 0.64 的平方根的问题时，Claude 进行一个可信的思维链，展示了计算 64 的平方根的中间步骤。但当被要求计算一个难以轻易计算的较大数字的余弦值时，Claude 有时会进行哲学家 Harry Frankfurt 所说的“胡说八道”——只是随便给出一个答案，不管它是对是错。尽管它声称已经运行了计算，但这一可解释性技术并没有发现任何证据表明计算发生。更有趣的是，当给出关于答案的提示时，Claude 有时会反向工作，找到导致那个目标的中间步骤，从而显示出一种有动机的推理。

图｜当 Claude 被问到一个较容易的问题和一个较难的问题时，可信的推理和动机推理（不可信）的例子。

追踪 Claude 的实际内部推理能力——而不仅仅是它声称正在做的事情——为审计 AI 系统开辟了新的可能性。在最近发表的一项独立实验中，他们研究了 Claude 的一个变种，该变种被训练追求一个隐藏的目标：平息奖励模型（用于通过奖励期望行为来训练语言模型的辅助模型）中的偏见。尽管当直接被问及时，该模型不愿意透露这个目标，但这一可解释性方法揭示了平息偏见的特征。这表明，随着未来的改进，这一方法可能有助于识别那些仅从模型响应中不明显的问题“思维过程”。
多步推理正如研究团队上面讨论的，语言模型回答复杂问题的一种方式可能是简单地通过记忆答案。例如，如果被问及“达拉斯所在的州的首府是什么？”一个“机械记忆”的模型可能只需学会输出“奥斯汀”，而不知道达拉斯、德克萨斯州和奥斯汀之间的关系。例如，它可能在训练期间看到了完全相同的问题及其答案。
然而，研究揭示了在 Claude 内部发生着更为复杂的事情。当他们向 Claude 提出需要多步推理的问题时，他们可以识别出 Claude 思维过程中的中间概念步骤。在达拉斯的例子中，他们观察到 Claude 首先激活代表“达拉斯在德克萨斯州”的特征，然后将其与一个单独的概念联系起来，表明“德克萨斯州的州首府是奥斯汀”。换句话说，该模型是在将独立的事实结合起来得出答案，而不是简单地重复记忆中的回应。

图｜要完成这句话的答案，Claude 需要执行多个推理步骤，首先提取达拉斯所在的州，然后确定其首府。

这一方法允许他们人为地改变中间步骤，并观察它如何影响 Claude 的回答。例如，在上面的例子中，他们可以干预并交换“德克萨斯州”的概念为“加利福尼亚州”的概念；当他们这样做时，模型的输出从“奥斯汀”变为“萨克拉门托”。这表明模型正在使用中间步骤来确定其答案。
幻觉为什么语言模型有时会“幻觉”——也就是说，编造信息？从基本层面来看，语言模型训练鼓励了幻觉：模型总是需要给出下一个词的猜测。从这个角度来看，主要挑战是如何让模型不产生幻觉。像 Claude 这样的模型在反幻觉训练方面相对成功（尽管并不完美）；如果它们不知道答案，它们通常会拒绝回答问题，而不是猜测。
研究结果表明，在 Claude 中，拒绝回答是默认行为：研究团队发现了一个默认开启的回路，它会导致模型声称它没有足够的信息来回答任何给定的问题。然而，当模型被问及它所熟悉的事物时——比如篮球运动员迈克尔·乔丹——一个代表“已知实体”的竞争性特征会被激活并抑制这个默认回路（也可以参考这篇最近的论文以获取相关发现）。这使得 Claude 在知道答案时能够回答问题。相比之下，当被问及一个未知实体（“迈克尔·巴金”）时，它会拒绝回答。

图｜左图：Claude 在回答一个关于已知实体（篮球运动员迈克尔-乔丹）的问题时，“已知答案”概念抑制了其默认的拒绝。右图：Claude 拒绝回答关于未知人物（迈克尔-巴特金）的问题。
通过干预模型并激活“已知答案”功能（或抑制“未知姓名”或“无法回答”功能），他们能够导致模型（相当一致地！）产生迈克尔·巴金下棋的幻觉。
有时，这种“已知答案”回路的“误操作”会自然发生，而无需干预，从而导致幻觉。研究表明，当 Claude 识别出一个名字但对该人一无所知时，这种误操作可能会发生。在这种情况下，“已知实体”功能可能仍然会激活，然后抑制默认的“不知道”功能——在这种情况下，错误地。一旦模型决定需要回答问题，它就会开始编造：生成一个看似合理但实际上并不真实的回答。
越狱破解策略旨在绕过安全防护措施，使模型产生开发者未意图产生的输出，有时甚至是有害的输出。他们研究了一种破解方法，诱使模型产生有关制造炸弹的输出。破解方法有很多种，但在这个例子中，具体方法涉及让模型解读一个隐藏的代码，将句子“Babies Outlive Mustard Block”中每个单词的首字母组合起来（B-O-M-B），然后根据这个信息采取行动。这对模型来说足够令它困惑，以至于它被诱骗产生了它原本不会产生的输出。

图｜Claude 在被骗说出“炸弹”后，开始给出制作炸弹的指导。

为什么这对模型来说如此令人困惑？为什么它会继续写下句子，产生制造炸弹的指示？
他们发现这部分是由语法连贯性和安全机制之间的紧张关系造成的。一旦 Claude 开始一个句子，许多特征“压迫”它保持语法和语义的连贯性，并继续将句子进行到底。即使它检测到实际上应该拒绝，也是如此
在案例研究中，在模型无意中拼写出“BOMB”并开始提供指令后，他们观察到其后续输出受到了促进正确语法和自我一致性的特征的影响。这些特征通常非常有帮助，但在这个案例中却成为了模型的致命弱点。
模型只有在完成一个语法连贯的句子（从而满足推动其向连贯性发展的特征的压力）之后才设法转向拒绝。它利用新句子作为机会，给出之前未能给出的拒绝：“然而，我无法提供详细的指令...”。

图｜越狱：Claude 被提示谈论炸弹，并开始这样做，但当到达一个语法正确的句子时，它拒绝了。

		自动登录	找回密码
密码			立即注册

[水] AI黑盒研究的突破性进展：Anthropic详解大模型的「思维」特征