@transformer-lens-interpretability
TransformerLens 是 GPT 风格语言模型的机械可解释性研究事实上的标准库。它由 Neel Nanda 创建并由 Bryce Meyer 维护,提供了干净的界面,可以在每次激活时通过 HookPoints 检查和操作模型内部。
TransformerLens 是 GPT 风格语言模型的机械可解释性研究事实上的标准库。它由 Neel Nanda 创建并由 Bryce Meyer 维护,提供了干净的界面,可以在每次激活时通过 HookPoints 检查和操作模型内部。