医疗信息化的飞速发展使电子健康记录(EHR)成为医院和医疗机构记录患者诊断、治疗及健康状况的重要载体。美国的数据表明,从2008年到2021年,办公室医生使用电子健康记录的比例从42%飙升至88%以上,极大地丰富了医疗数据的数字存储。这些数字化文本数据中蕴含着大量的医疗知识,如何准确提取并编码成为现实应用中的关键问题。国际疾病分类(ICD)编码作为医疗诊断和治疗标准化的基石,通过唯一的字母数字组合对疾病、症状及治疗程序进行统一规范,为医疗信息交流、统计分析及政策制定提供了坚实支撑。然而,ICD编码的复杂结构及精细层级对编码人员提出了极高的专业要求,人工编码耗时且易出错,亟需借助人工智能技术实现自动化辅助。大型语言模型(LLMs)以其卓越的自然语言理解和生成能力,在医学文本处理领域展现出巨大潜力,尤其在医疗报告总结、医学实体识别和问答系统中表现优异。
但是,ICD编码任务因其对诊断的准确判别和层级逻辑的严苛需求,远比简单的文本抽取复杂。LLMs虽然拥有广泛的参数知识,但直接依赖其生成ICD代码往往导致高误差率和幻觉现象,难以保证编码的精确性。基于此,将ICD编码问题拆解为文本解析与外部知识查询两部分成为一种可行策略。在这一思路下,构建结构化的ICD知识图谱(KG)并与LLMs结合,既可利用KG强大的语义关系表达能力,也可借助LLMs的零样本实体提取能力,形成协同互补的智能编码方案。知识图谱作为一种基于图结构的数据组织技术,不仅可以将实体作为节点,关系作为边,清晰地展现复杂的实体联系,还可以通过丰富的语义信息挖掘节点间的层级和属性差异。对于ICD编码的分支结构和多维关联而言,知识图谱是理想的表示工具。
现有ICD体系中超过七万个编码按照疾病类型、部位、严重程度、病因等多维度展开,构建知识图谱有助于显式刻画编码间的继承与关联关系。此外,通过融合疾病、症状、治疗等信息,知识图谱能够为后续的临床查询和辅助决策提供更全面的语义上下文支持。知识图谱的构建需要依赖于高质量的医疗实体识别和关系抽取。借助LLMs在零样本或少样本环境下强大的语言理解能力,可以从ICD代码描述文本中自动识别条件、部位、严重程度、病因、相关手术等多种实体类别,完成精细的命名实体识别(NER)任务。随后,再由LLMs确定各实体间的语义关系,如疾病影响部位、症状与病因间的因果联系等,从而形成边与节点间的有效连通。联合实体链接技术,将识别出的实体统一映射至权威医学标准如统一医学语言系统(UMLS),实现术语规范化和语义统一,进一步提升知识图谱的质量和使用便利性。
图数据库如Neo4j则为存储和查询知识图谱提供高效的支撑,其基于图模型的存储结构能够更自然地表达复杂医学知识的层级和关联,配合灵活的查询语言Cypher,方便临床人员和人工智能模型快速定位所需ICD编码以及相关的医疗信息。基于此构建的ICD知识图谱不仅为编码自动化铺平了道路,也能够为后续医疗知识推理、智能问诊和疾病风险预测提供坚实基础。更为关键的是,知识图谱可与LLMs通过检索增强生成(Retrieval-Augmented Generation,RAG)方法实现深度融合,扩展模型的记忆边界和推理能力。LLMs在回答临床问题时,能够调用知识图谱中的结构化信息,避免单纯依赖参数化记忆的局限,提升答案的准确性和可信度。当前的实现中虽采用了GPT-4o mini等相对轻量的模型作为实体识别与关系抽取的工具,但未来结合更强大或专门训练的医学语言模型,将进一步降低错误传播、增强实体的一致性与完整性。此外,扩展引入医学文献资源、临床指南等多源知识,将丰富知识图谱的语义层次,提升整体表现和应用价值。
通过创新结合大型语言模型和ICD知识图谱技术,医疗领域的文本编码过程正朝着更加智能和自动化方向迈进,这不仅解放了医疗专业人员的工作负担,也为医疗大数据的深度利用和精准医疗奠定了坚实基础。伴随着技术的完善与应用场景的拓展,未来的ICD编码辅助系统将更加精准高效,推动医疗服务水平和健康管理水平的全面提升。 。