近年来,随着人工智能特别是大规模语言模型的发展,理解这些模型内部如何处理信息和执行计算成为研究重点。对模型内部机制的解码不仅能够提升模型的可解释性,还能为模型的优化和安全使用提供基础。跨层转码器(Cross-Layer Transcoders,简称CLTs)作为一种新兴的方法,引起了广泛关注。通过对GPT-2 Small模型的分析,CLTs展示了其在重现并理解复杂计算任务中的强大能力,尤其是在简单已知的机制任务中表现突出。 CLTs的设计核心在于学习稀疏且可解释的神经网络特征,进而揭示模型层与层之间以及不同位置的Token间的计算关系。通过训练CLTs,我们可以获得近似于原始模型MLP计算的特征集合,并利用这些特征构建替代模型,实现对特定计算组件的选择性分析。
这种方法不仅增强了对神经网络复杂内部活动的追踪能力,还为研究模型内部电路图提供了一种有效工具。 采用“greater-than”(大于)任务作为案例,是研究CLTs效能的最佳切入点。这个任务的计算机制在之前的研究中已被部分逆向工程,非常适合验证CLT对已知机制的复现能力。任务要求模型对一个句子进行补全,需判断输入年份与输出年份之间的大小关系。Hanna等人的研究表明,GPT-2 Small中的特定MLP神经元联合工作,通过抑制小于输入的年份、增强大于输入的年份的预测,体现出明确的数值比较行为。 通过训练CLTs在GPT-2 Small模型上,用FineWeb数据集的百万级Token,研究人员生成了详细的归因图(Attribution Graph)。
这些图形表现出从输入年份关键Token传递到预测位置各层特征激活的浓密路径。归因图显示,模型在后期层对关键年份Token处理的特征数量最多,进一步支持了CLT捕获核心计算路径的效能。 对这些特征进行深入分析,研究团队发现了多类计算功能鲜明的特征。其中,最为重要的是“greater-than”(大于)功能特征,它们以强烈的激活模式区分较大数值。某些特征显示出对时间跨度中较大年份的敏感度,甚至能识别罗马数字表示的日期,表明模型已超越简单字符匹配,具备了更加抽象的语义理解能力。 一些特征则表现出较为复杂和细致的行为。
例如,有的特征在特定数值范围内表现出高度输入依赖性,只在输入年份介于一定区间时激活,这说明模型可能通过多个窄范围特征拼接形成更广泛的计算能力。还有特征呈现出与预期任务相反的行为,比如重点激活并促进较小数字的预测,推测可能代表“数值小于”机制,或者是一种对“低数值情境”的泛化检测。 除了简单的数值比较机能,CLTs还揭示了更复杂的数值结构特征,其中包含了如数值奇偶性(parity)检测等高级抽象功能。某些特征典型地在文本中表现为对转折词(如“and”、“or”)的激活,暗示它们可能参与语义上的对立或对比推理。这类特征的发现为我们理解模型如何编码和处理复杂语义关系打开了新视角。 此外,特征们还表现出对数学结构的敏感,例如针对数字的倍数关系(如5的倍数、特定末尾数字)做出响应。
它们在不同文本上下文中均有激活,涵盖技术文档、法律文本、时间戳等,显示了模型在各领域对数字模式识别的广泛应用。 尽管CLTs展现出强大的特征提取和解释能力,但研究中仍发现一些局限性。特征的归因热图与最大激活实例之间存在偏差,表明在孤立分析单一特征时,可能无法完全反映模型内部特征交互的复杂性。此外,特征选择在分析中主要针对单一输入提示,未来结合多输入融合可能更有效地剔除噪声特征、提炼纯净电路图。 未来的研究方向中,利用CLTs深入探索输入中不同成分如何相互影响尤为值得关注。例如,当前研究集中于预测位置的最终输出,通过CLTs可以追踪诸如句子主体名词对预测的长期影响机制,从而揭示跨位置的计算流动与归因机制。
此外,将CLTs与其他解释模型结合,分析其在复杂推理任务、跨语境迁移中的表现,有望助力打造更加透明和稳健的语言模型。 总的来说,跨层转码器为人工智能模型的内部计算结构揭示带来革新。以GPT-2 Small为基础,通过CLTs的训练与分析,科研团队不仅成功复现了已知的数值比较机制,还意外发现了诸多抽象且丰富的代表性特征。这些成果不仅加深了我们对语言模型内部工作原理的理解,也为未来解释性机器学习和模型改进提供了新工具和思路。随着技术的不断发展,CLTs及其相关技术的完善必将在推动AI可解释性及安全性研究中发挥更加关键的作用。