Anthropic开源“归因图谱”,能追溯大模型的“思考”过程! 简单来说,归因

量子位来谈科技 2025-05-30 19:17:36

Anthropic开源“归因图谱”,能追溯大模型的“思考”过程! 简单来说,归因图谱就是一张“流程图”。图上的一个个小点(节点)代表了模型处理信息时识别出的各种“特征”,而连接这些点的线(边)则表示这些特征之间是怎么相互影响的。 它能图形化地展示模型为了给出一个特定的答案,都走了哪些计算步骤。 来看两个官方示例,咱们一看就明白: 两跳推理 当你问Gemma 2(2B 模型)“达拉斯所在州的首府是什么”时,模型需要先想一下:达拉斯在德克萨斯州,然后再推导出德克萨斯州的首府是奥斯汀。 归因图谱就能把这种“先想一步”的过程清晰地画出来。【图2】 多语言回路 另一个例子是Haiku模型,当你用不同语言问它“小的反义词是什么”时,它内部处理问题的“回路”竟然非常相似。 这可能说明 Haiku 在理解问题时,不是死板地看语言本身,而是先转化成了一种“不分语言”的通用概念来识别。(英文:【图3】中文:【图4】法语:【图5】) Anthropic 这次开源的工具,普通人也能上手试试看! 想简单体验一下的同学,可以直接去Neuronpedia网站。选择一个模型和预设问题或提出新问题,它就能帮你生成对应的归因图谱,交互式地探索这些图谱的奥秘。【图6】 如果你是研究人员或者对代码感兴趣,可以直接去代码仓库深入研究。总的来说,这次开源能帮助大家: 在你支持的模型上,生成自己的归因图谱,追踪模型的“思考回路”。 在交互界面上,更直观地查看、标记和分享这些图谱。 通过调整图谱中的特征值,看看模型输出会有啥变化,从而验证自己的想法。 来试试看吧! Neuronpedia:-2-2b/graph 代码仓库:-research/circuit-tracer

0 阅读:0
量子位来谈科技

量子位来谈科技

感谢大家的关注