# TransformerLens：变形金刚的机械解释 TransformerLens 是 GPT 风格语言模型的机械可解释性研究事实上的标准库。它由 Neel Nanda 创建并由 Bryce Meyer 维护，提供了干净的界面，可以在每次激活时通过 HookPoints 检查和操作模型内部。 **GitHub**：[TransformerLensOrg/TransformerLens]()（2,900+ 颗星） ## 何时使用 TransformerLens **当您需要时使用 TransformerLens：** * 在训练期间学习的逆向工程算法 * 执行激活修补/因果追踪实验 * 研究注意力模式和信息流 * 分析电路（例如感应头、IOI电路） * 缓存并检查中间激活 * 应用直接logit归因 **在以下情况下考虑替代方案：** * 您需要使用非 Transformer 架构 → 使用 **nnsight** 或 **pyvene** * 您想要训练/分析稀疏自动编码器 → 使用 **SAELens** * 您需要在大规模模型上进行远程执行 → 将 **nnsight** 与 NDIF 结合使用 * 你想要更高层次的因果干预抽象 → 使用 **pyvene** ## 安装 pip 安装变压器镜头对于开发版本： pip install git+https://github.com/TransformerLensOrg/TransformerLens ## 核心概念 ### HookedTransformer 在每次激活时用 HookPoints 包装变压器模型的主类：从 Transformer_lens 导入 HookedTransformer # 加载模型模型 = HookedTransformer.from_pretrained("gpt2-small") # 对于门控模型（LLaMA、Mistral）导入操作系统 os.environ["HF_TOKEN"] = "your_token" 模型 = HookedTransformer.from_pretrained("meta-llama/Llama-2-7b-hf") ### 支持的型号（50+）家庭|型号 ---|--- GPT-2 | gpt2、gpt2-中、gpt2-大、gpt2-xl 骆驼 |美洲驼-7b、美洲驼-13b、美洲驼-2-7b、美洲驼-2-13b 埃鲁瑟人工智能 | pythia-70m 到 pythia-12b、gpt-neo、gpt-j-6b 米斯特拉尔|密斯特拉尔-7b、混合-8x7b 其他 | phi、qwen、opt、gemma ### 激活缓存运行模型并缓存所有中间激活： # 获取所有激活 tokens = model.to_tokens("埃菲尔铁塔在") logits, 缓存 = model.run_with_cache(tokens) # 访问特定的激活 residual = cache["resid_post", 5] # 第5层残差流 attn_pattern = cache["pattern", 3] # 第 3 层注意力模式 mlp_out = cache["mlp_out", 7] # 第 7 层 MLP 输出 # 过滤要缓存的激活（节省内存） logits, 缓存 = model.run_with_cache( 代币， name_filter=lambda 名称：名称中的“resid_post” ） ### ActivationCache 密钥关键模式|形状|描述 ---|---|--- `resid_pre，层` | [批次，位置，d_model] |注意前残差 `resid_mid，层` | [批次，位置，d_model] |关注后残差 `resid_post，层` | [批次，位置，d_model] | MLP后的残差 `attn_out，层` | [批次，位置，d_model] |注意力输出 `mlp_out，层` | [批次，位置，d_model] | MLP输出 `图案，图层` | [批次，头，q_pos，k_pos] |注意力模式（后softmax） `q，层` | [批次、pos、头、d_head] |查询向量 `k，层` | [批次、pos、头、d_head] |关键向量 `v，层` | [批次、pos、头、d_head] |值向量 ## 工作流程 1：激活补丁（因果追踪）通过将干净的激活修补到损坏的运行中来识别哪些激活会因果影响模型输出。 ### 一步一步从transformer_lens导入HookedTransformer，修补进口火炬模型 = HookedTransformer.from_pretrained("gpt2-small") # 1. 定义干净和损坏的提示 clean_prompt = "埃菲尔铁塔位于城市" baded_prompt = "罗马斗兽场位于以下城市" clean_tokens = model.to_tokens(clean_prompt) Corrupted_tokens = model.to_tokens(corrupted_prompt) # 2. 获得干净的激活 _, clean_cache = model.run_with_cache(clean_tokens) # 3. 定义指标（例如，logit 差异） paris_token = model.to_single_token("巴黎") rome_token = model.to_single_token("罗马") 定义指标（logits）：返回 logits[0, -1, paris_token] - logits[0, -1, rome_token] # 4. 修补每个位置和层结果 = torch.zeros(model.cfg.n_layers, clean_tokens.shape[1]) 对于范围内的图层（model.cfg.n_layers）：对于范围内的 pos(clean_tokens.shape[1])： def patch_hook(激活, 钩子): 激活[0, pos] = clean_cache[hook.name][0, pos] 返回激活 patched_logits = model.run_with_hooks( 损坏的令牌， fwd_hooks=[(f"blocks.{layer}.hook_resid_post", patch_hook)] ）结果[层，位置] = 度量（patched_logits） # 5. 可视化结果（图层 x 位置热图） ### 清单 * 定义差异最小的干净输入和损坏输入 * 选择捕捉行为差异的指标 * 缓存清理激活 * 系统地修补每个（层、位置）组合 * 将结果可视化为热图 * 识别因果热点 ## 工作流程 2：电路分析（间接对象识别）复制“Interpretability in the Wild”中的 IOI 电路发现。 ### 一步一步从 Transformer_lens 导入 HookedTransformer 进口火炬模型 = HookedTransformer.from_pretrained("gpt2-small") # IOI任务：“当约翰和玛丽去商店时，玛丽给了一个瓶子” # 模型应该预测“John”（间接宾语）提示=“当约翰和玛丽去商店时，玛丽给了一个瓶子” tokens = model.to_tokens(提示) # 1. 获取基线 logits logits, 缓存 = model.run_with_cache(tokens) john_token = model.to_single_token(“约翰”) mary_token = model.to_single_token(“玛丽”) # 2. 计算 logit 差异 (IO - S) logit_diff = logits[0, -1, john_token] - logits[0, -1, mary_token] print(f"Logit 差值: {logit_diff.item():.3f}") # 3. 按head直接logit归因 def get_head_contribution(层, 头): # 将头输出投影到 logits head_out = 缓存["z", 层][0, :, head, :] # [pos, d_head] W_O = model.W_O[层, 头] # [d_head, d_model] W_U = model.W_U # [d_model, 词汇] # 最终位置对 logits 的头部贡献贡献= head_out[-1] @ W_O @ W_U 返回贡献[john_token] - 贡献[mary_token] # 4. 映射所有头 head_contributions = torch.zeros(model.cfg.n_layers, model.cfg.n_heads) 对于范围内的图层（model.cfg.n_layers）：对于范围内的头部（model.cfg.n_heads）： head_contributions[层，头] = get_head_contribution(层，头) # 5. 确定最有贡献的负责人（名称推动者、备份名称推动者） ### 清单 * 使用清晰的 IO/S 令牌设置任务 * 计算基线logit差异 * 按注意力头贡献分解 * 识别关键电路元件（名称推动器、S-抑制、感应） * 通过消融实验进行验证 ## 工作流程3：感应头检测查找实现 [A][B]...[A] → [B] 模式的感应头。从 Transformer_lens 导入 HookedTransformer 进口火炬模型 = HookedTransformer.from_pretrained("gpt2-small") # 创建重复序列：[A][B][A] 应该预测 [B] Repeated_tokens = torch.tensor([[1000, 2000, 1000]]) # 任意标记 _, 缓存 = model.run_with_cache(repeated_tokens) # 入会负责人从决赛 [A] 回到第一场 [B] # 检查从位置2到位置1的注意力 duction_scores = torch.zeros(model.cfg.n_layers, model.cfg.n_heads) 对于范围内的图层（model.cfg.n_layers）：模式=缓存[“模式”，层][0]#[头，q_pos，k_pos] # 从 pos 2 到 pos 1 的注意力 duction_scores[层] = 模式[:, 2, 1] # 分数高的头像为感应头像 top_heads = torch.topk(induction_scores.flatten(), k=5) ## 常见问题及解决方案 ### 问题：调试后挂钩仍然存在 # 错误：旧的钩子仍然处于活动状态 model.run_with_hooks(tokens, fwd_hooks=[...]) # 调试，添加新的钩子 model.run_with_hooks(tokens, fwd_hooks=[...]) # 旧挂钩仍然存在！ # 右：始终重置钩子 model.reset_hooks() model.run_with_hooks（令牌，fwd_hooks = [...]） ### 问题：代币化陷阱 # 错误：假设一致的标记化 model.to_tokens("Tim") # 单个令牌 model.to_tokens("Neel") # 变成 "Ne" + "el" （两个标记！） # 右：明确检查标记化 tokens = model.to_tokens("Neel", prepend_bos=False) print(model.to_str_tokens(tokens)) # ['Ne', 'el'] ### 问题：分析中忽略了 LayerNorm # 错误：忽略 LayerNorm pre_activation = 残差@ model.W_in[layer] # 右：包括 LayerNorm ln_scale = model.blocks[层].ln2.w ln_out = model.blocks[层].ln2(残差) pre_activation = ln_out @ model.W_in[层] ### 问题：大型模型的内存爆炸 # 使用选择性缓存 logits, 缓存 = model.run_with_cache( 代币， name_filter=lambda n：n 中的“resid_post”或 n 中的“pattern”， device="cpu" # CPU 上的缓存） ## 关键类参考班级 |目的 ---|--- `HookedTransformer` |主模型包装带挂钩 `激活缓存` |类似字典的激活缓存 `HookedTransformerConfig` |型号配置 | `因式分解矩阵`高效的分解矩阵运算 ## 与 SAELens 集成 TransformerLens 与 SAELens 集成以进行稀疏自动编码器分析：从 Transformer_lens 导入 HookedTransformer 从 sae_lens 导入 SAE 模型 = HookedTransformer.from_pretrained("gpt2-small") sae = SAE.from_pretrained("gpt2-small-res-jb", "blocks.8.hook_resid_pre") # 使用 SAE 运行 tokens = model.to_tokens("Hello world") _, 缓存 = model.run_with_cache(令牌) sae_acts = sae.encode(cache["resid_pre", 8]) ## 参考文档有关详细的 API 文档、教程和高级用法，请参阅“references/”文件夹：文件|内容 ---|--- [references/README.md]() |概述和快速入门指南 [references/api.md]() | HookedTransformer、ActivationCache、HookPoints 的完整 API 参考 [references/tutorials.md]() |激活修补、电路分析、logit 透镜的分步教程 ## 外部资源 ### 教程 * [主要演示笔记本]() * [激活修补演示]() * [ARENA Mech Interp 课程]() \- 200 多个小时的教程 ### 论文 * [变压器电路的数学框架]() * [情境学习和归纳头]() * [野外可解释性 (IOI)]() ### 官方文档 * [官方文档]() * [模型属性表]() * [Neel Nanda 的词汇表]() ## 版本说明 * **v2.0** ：删除了 HookedSAE（移至 SAELens） * **v3.0 (alpha)** : TransformerBridge 用于加载任何 nn.Module

变压器镜头的可解释性

包含技能