随着网络威胁日益复杂且快速演变,如何有效获取、处理并分析大量散布于公共空间和专用渠道的安全情报,成为网络安全领域亟需解决的难题。近年来,人工智能特别是大规模语言模型的兴起,为威胁情报自动化和智能化提供了全新可能。结合Google ADK(Agent Development Kit)推出的多代理平台,构建具备智能协作与自我优化能力的威胁情报系统,成为许多安全研究者和工程师探索的前沿领域。本文将以一种基于Google ADK打造的多代理威胁情报系统——Umbrix为例,详细解析其设计理念、技术架构、核心流程及创新点,展现现代威胁情报采集和分析的新趋势。 Umbrix项目的起源颇具启发意义。项目发起者在尝试使用小型语言模型分析大量PCAP数据时,着重研究如何通过Google搜索加深对公开网络安全数据集的挖掘。
这个“google dork”式的检索策略不仅极大扩展了源数据的覆盖面,也引发了关于利用多代理系统改进安全信息访问效率的思考。以此为基础,Umbrix提出了一个核心命题:如果未来的智能系统是真正具备自主行动能力和协同协作能力的,那么必须构建一套能高效采集、处理并以图数据库形式组织信息的基础组件和服务。 在技术栈方面,Umbrix结合了Kafka实现消息总线和事件驱动架构,利用DSPy进行内容模式分析,借助Neo4j进行关系映射和实体解析。结合Prometheus和Grafana完成系统监控与指标收集,同时配合丰富的MCP(Multi-Agent Control Protocol)工具,使得AI代理不仅能够高效互联,还能共享任务及状态。代理控制循环是整套系统的核心调度机制。CTIMasterCoordinatorAgent作为主控协调者,基于异步事件驱动模型,负责管理代理的生命周期、健康状态检测及任务的智能分配。
它将代理分为发现代理、采集代理和处理代理三大类,分别承担来源发现、数据收集和内容处理任务。调度环在不断监测代理状态的同时,依据消息队列状态动态调整代理策略,保证整个系统灵活且稳定地运行。 发现代理是系统智能化的突破口。它们通过一套复杂的反馈循环结合DSPy分析,多维度评估采集源的可信度和价值,如内容与网络安全主题的相关性、IOC指示器丰富度、来源声誉以及发布频率。只有质量评分高于既定阈值(如0.7)的源才会被加入后续采集队列,有效过滤噪音,聚焦高价值目标。采集代理则以结构保持的方式抽取内容,这意味着保留文章的层次结构、标题及列表等,有利于下游DSPy模块进行更精细的上下文分析。
整个内容提取链路还设计了重试机制,保证关键数据的完整性和质量。 内容的智能路由是预处理环节的重要环节。根据内容分析得出的信心度和内容类型,系统会选择更合适的采集或处理代理。例如高置信度的安全威胁内容会投入支持更复杂方法的增强型RSS采集代理进行深入挖掘和富化;而混合或不明确类型内容,则采用混合校验策略。 语义实体抽取是提供结构化威胁情报的核心技术。Umbrix中设计了一套规则结合上下文验证的实体抽取方法,包括文件哈希(MD5、SHA1、SHA256)、IP地址(经上下文排除误判)、域名、CVE漏洞编号及知名APT组织名称。
实体识别结合正则表达式和上下文过滤机制,确保提取结果既准确又具有实际威胁分析价值。通过对安全词汇及上下文出现频率的加权,系统计算综合信心分,处理过程自动调整内容可信度,为后续决策提供量化依据。 在威胁情报的富化阶段,Umbrix集成了多种专门的处理代理,如GeoIP丰富模块为IP指标赋予地理归属、自治系统编号及风险评分;MITRE ATT&CK映射模块则基于行为模式识别威胁战术与技术细节。层层流程的叠加为生成可靠、结构化且跨域关联的威胁数据库打下坚实基础。 除了内容和实体,消息传递架构也极具特色。系统以Kafka为核心,实现模块间松耦合的事件驱动处理。
消息主题划分明确,从feed发现、原始情报、富化数据到图数据库事件,形成一条高效可靠的链路。特别强调的是exactly-once处理机制,采用手动提交和基于相关ID的重复数据过滤,保障数据无遗漏和无重复,提高系统整体数据一致性和可用性。 Neo4j图数据库充当智能威胁网络的存储及分析层。通过对提取实体的归一化解析,系统不仅修正格式差异,还链接不同情报中潜在的关联关系。通过“图书管理员”代理,系统推断报告中共同出现的指标、基础设施重叠、战术手法相似性以及时间相关性,进行深度网络分析。该代理还监控查询模式,动态提供性能优化建议,如索引构建,以确保查询在规模扩大后依旧高效响应。
MCP客户端和工具的集成使得多代理系统不仅能采集与处理威胁数据,还能支持复杂图查询。自然语言查询自动转为Cypher语句,让非专业用户也能轻松调取最新漏洞数据、APT攻击路径分析或基础设施交集报告,极大提升情报使用的便捷性和效率。 目前Umbrix系统在处理最新iOS漏洞、针对医疗行业的勒索软件攻击、金融机构遭受APT组织钓鱼等场景表现出色,为安全运营中心(SOC)提供了高度自动化和智能化的威胁识别能力。未来,随着节点和数据规模持续扩张,通过结合更多机器学习模型和实时行为分析技术,将实现更精准的威胁预测和响应。 总体而言,基于Google ADK构建的多代理威胁情报系统为网络安全态势感知和威胁管理注入了全新动力。通过高度模块化和智能化的架构设计,系统有效融合海量异构数据,实现自动化发现、结构化处理及图关联分析,显著提升情报价值和应对效率。
随着开放平台的生态逐步完善,类似Umbrix的创新方案无疑将引领下一代网络安全技术的变革浪潮,为企业和社会构筑更坚实的数字防线。