COBOL,作为面向商业的通用编程语言,历经数十年仍在银行、保险和政府等关键领域被广泛采用。尽管COBOL代码库庞大且稳定运行,但随着时间推移,COBOL开发者数量不断减少,给系统的维护和升级带来了巨大挑战。特别是缺乏系统的文档支持,令新入职的开发人员难以快速理解代码逻辑,影响业务连续性和技术传承。近年来,人工智能技术,尤其是大语言模型(LLMs),为软件工程领域带来革新。借助其强大的自然语言处理能力,LLMs能够从代码中自动生成功能说明、注释甚至重构建议。不过,COBOL的独特架构和较长的代码长度对LLM的统一使用提出了高难度的技术瓶颈。
大多数现有模型受到令牌窗口大小限制,难以全面分析大文件或复杂功能,导致解释效果不理想。为了突破这一局限,由方建磊等人领导的研究团队提出一种多智能体方法,利用两个基于LLM的智能代理协同工作,分别从函数级、文件级乃至项目级别对COBOL代码进行分层解释。这种多智能体架构允许各代理专注于不同的上下文信息和代码粒度,并通过信息互动补充彼此,生成更完整且准确的代码解释。合作机制不仅提升了对长代码文件的处理能力,还增强了上下文感知和语义连贯性,解决了单一模型无法高效处理长文本的痛点。在该方法中,智能体通过整合代码库中多源的上下文信息,动态调整提问和回答的内容,确保生成的解释与代码功能一致,并对业务流程有所诠释。研究团队在14个真实的开源COBOL项目上进行了广泛测试,结果表明该方法在多个评价指标上均显著优于传统单一LLM基线。
在函数级别,METEOR、chrF和SentenceBERT三项指标分别提升了12.67%、18.59%和0.62%,显示了更精准的功能描述能力。文件级别的解释不仅涵盖短文件,也成功应对了超过常规令牌限制的长文件,用户评价其目的性、功能性和条理清晰度均有明显改进,分别提升了4.21%、10.72%和14.68%。更为重要的是,在项目层面,该方法能够为82%的样本项目生成有效的整体功能和目的解释,极大促进了新开发者对遗留系统架构的理解。该研究突破了传统大语言模型对长代码处理的瓶颈,将多智能体协作概念引入代码解释领域,开创了针对遗留编程语言维护的新范式。对于金融机构和政府部门而言,能够借助该技术高效生成准确的代码说明,将缩短新员工培训周期,降低维护风险,保障系统的稳定运行和迭代升级。未来,随着大语言模型技术不断进步,结合多智能体架构的代码理解和生成工具有望广泛应用于更多历史悠久且复杂的软件系统中。
通过深度挖掘上下文信息,优化代理协作机制,这类方法不仅能提升代码质量,还将推动软件工程自动化水平的整体提升。提升COBOL代码解释的研究也启示业界关注如何将AI技术精准落地于传统IT资产管理领域,实现智能化转型。综上所述,应用多智能体加持大语言模型的创新方法,为解决COBOL维护难题提供了有效路径。随着相关算法的不断完善,未来将有更多遗留系统受益于此类技术,推动传统行业迈向智能化新时代。对于程序员、维护工程师及管理层而言,深入了解并采用此类先进工具,将成为提升开发效率和保障业务长期稳定的关键所在。