Wikidata 嵌入计划(Wikidata Embedding Project)由 Wikimedia Deutschland 发起,并与 Jina.AI 与 DataStax 合作,于 2025 年 10 月 1 日正式启动。这个项目的核心在于将向量化语义搜索整合到 Wikidata,使得庞大的开放知识图谱不仅对人类可读,而且更加友好地对机器理解与检索。新的向量数据库和多语言嵌入模型为开发者、研究者和各类应用提供了连接结构化事实与语义表示的桥梁,从而推动更可靠、更透明的生成式人工智能与检索增强生成(RAG)系统的发展。Wikidata 的向量服务可通过公开的 Web 应用与 API 访问,入口为 wd-vectordb.wmcloud.org,并提供相应的 API 文档与反馈渠道。 传统的 Wikidata 检索方式主要依赖关键词匹配的 CirrusSearch 与基于查询语言的 SPARQL。CirrusSearch 对自然语言和语境的理解较弱,容易漏检或返回不相关结果,而 SPARQL 虽然精确,但学习成本高、对非专家不友好。
向量语义搜索通过将文本与实体映射为高维向量,使语义相似的查询和实体在向量空间中靠得更近,从而在保持可用性的同时显著提升检索的语义相关性。项目团队指出,这种混合检索方式既能保留图数据库的结构化精确性,又能利用向量检索的语义灵活性,适合多种应用场景,包括自然语言问答、实体识别与消歧、事实核查、数据可视化与文本分类等。 在技术合作层面,Jina.AI 提供了支持 100 多种语言且最长可处理 8192 个 token 的嵌入模型,这使得 Wikidata 的多语种条目能够被一致地映射到共享的向量空间,进而支持全球用户以母语发起语义检索。DataStax 则提供可扩展的向量数据库基础设施,用来存储和检索高维向量,保障在大规模实体集合上的相似度搜索性能与可靠性。Wikimedia Deutschland 负责项目整体协调、数据加工与社区联动,确保向量化流程与 Wikidata 社区的开放原则相一致。 项目的目标不仅是提升检索体验,还包含几个更深层的战略意义。
首先,通过为开源 AI/ML 社区提供基于 Wikidata 的向量数据库,项目鼓励生态系统中出现更多开源工具和应用,使研究者与开发者能在一个经由社区维护、可审计的知识源上构建创新系统。其次,多语言支持确保全球用户均可受益,避免语言偏倚带来的信息孤岛。第三,借助可验证的外部知识库来增强生成式 AI,可以减少模型单纯依赖内在参数所带来的错误,提供来源可追溯的答案,从而提高透明度与信任度。 将 Wikidata 纳入检索增强生成(RAG)体系,有助于解决生成模型的几项结构性问题。向量检索结合结构化知识使得信息不再仅依赖大规模模型权重的统计记忆,而是引用人类审校的事实条目以供生成之用,从而降低错误陈述的概率并提供来源链路。此外,由于 Wikidata 是持续更新的知识库,使用它作为外部知识源有助于保持生成内容的新鲜度,弥补模型训练数据的时效性局限。
Wikidata 中各条目的去重与结构化表示还可以在一定程度上放大小众或被低估知识的可见性,减缓主流语料导致的信息偏倚。 在应用场景方面,Wikidata 向量数据库可被用于事实核查与可证实的生成式应用,支持在生成文本时附带明确的数据来源和引用路径。实体识别与消歧任务可以借助向量检索快速定位候选实体并基于图关系做进一步验证,从而提高自动化管线的准确性。混合语义与图结构检索能为复杂查询提供更自然的交互方式,例如用户以自然语言提出的问题可以先由嵌入模型检索相关实体,再通过 SPARQL 或图遍历策略提取精确的数据字段。数据可视化与主题聚类也能从向量表示中受益,以语义相似性作为聚类基础,为研究人员提供全新的探索维度。 项目并非纯技术层面的堆叠,而同时重视开放性、透明度与社区参与。
Wikidata 的内容由全球志愿者维护,因此在将条目向量化之前需考虑版权、数据映射与信息质量的治理机制。Wikimedia Deutschland 强调,会与社区保持沟通,发布技术细节与实现文档,并开放反馈渠道以便研究者和实践者能报告问题、提交改进建议或贡献实现方案。项目页面与技术文档进一步列出了向量数据库的架构、使用范例与部署说明,便于第三方构建可复用的模块化工具链。 在演讲与宣传层面,项目成员曾在多个国际会议与社区活动中介绍思想与实现路径。早在 2024 年,Wikidata 开始筹备相关研究与原型;2024 年底出现了与 DataStax 的联动报道,强调利用 NVIDIA 等硬件加速的可扩展方案;2025 年上半年项目在数据复用会议与开源 AI 峰会展示了初步成果;并在 2025 年 10 月正式公布上线后继续通过网络研讨会、工作坊与博客文章向更广泛的受众推广。通过这些传播活动,Wikidata 嵌入计划努力在学术、工程与公众层面建立起对向量化检索与开源知识结合价值的共识。
对开发者而言,项目提供的向量数据库与 API 除了允许直接语义检索外,还便于与现有图数据和关系查询系统集成。开发者可以在自己的应用中先调用嵌入模型将查询或文本转换为向量,随后在向量数据库中检索最相近的实体,再基于获取到的实体 ID 使用 SPARQL 查询获取结构化事实或时间线信息。这样的混合流程有助于构建既语义化又可验证的智能服务,适配客服问答、学术检索、文化遗产搜索等多样化场景。 与此同时,也存在需要关注的挑战与风险。向量搜索和嵌入模型本身可能携带偏见,尤其是当模型训练语料不均衡时可能导致某些语言或文化的表示质量较差。因此项目在扩展多语种支持时需持续评估模型对不同语言表现的公平性与准确性。
另一个挑战是隐私与数据权属,尽管 Wikidata 的大多数数据为公共和可重用,但在处理链接外部资源或用户生成查询时,应当明确数据使用与合规框架。最后,向量索引与相似度检索在大规模实体集上的性能与成本也需要工程上持续优化,DataStax 提供的可扩展基础设施正是为应对这类挑战而设计。 Wikidata 嵌入计划已经面向社区开放测试并邀请开发者参与。如果希望体验或集成该服务,可以访问 wd-vectordb.wmcloud.org,查阅 API 文档或通过官方反馈渠道提交使用案例与改进建议。项目团队也通过新闻通讯、研讨会与公开工作坊与社区保持互动,欢迎学者、企业与开源项目共同探索如何在尊重开放原则与可审计性的前提下,将结构化知识更好地赋能给下一代智能应用。 总体而言,Wikidata 嵌入计划代表了开放知识图谱与现代语义检索技术结合的典型范例。
它不仅解决了检索可用性与语义理解之间的张力,也为生成式 AI 提供了可验证、可更新与多语言的知识支撑。随着项目技术成熟与社区生态的扩展,Wikidata 有望在保障信息来源透明、公平与多元方面发挥更大作用,成为构建可信任 AI 应用的重要开放基础设施之一。未来几年中,围绕向量化的质量评测、多语种公平性、图与向量的高效混合检索策略以及与外部系统的治理接口都将是关注重点,这些进展将直接决定 Wikidata 向量化能在多大程度上改变人们获取与使用开放知识的方式。 。