AI Companies Data Hub 是一套面向研究者、投资人、记者与政策制定者的公开数据资源,旨在系统化记录在基础模型和通用人工智能领域处于前沿的公司在收入、融资、员工规模、计算支出和使用量等方面的关键经济指标。该数据库由 Epoch AI 维护,最新更新时间为 2026 年 2 月 12 日,数据以可下载的 CSV 文件与交互式可视化为主,采用 Creative Commons Attribution 许可,便于研究复现和二次使用。理解和使用这套数据,能够帮助行业观察者把握前沿 AI 的商业化节奏、成本结构与生态演进。 数据内容与核心指标覆盖收入、融资轮次、员工人数、计算支出与使用量等维度。收入指标以年化收入或报告期收入为主,年化收入表示将近期收入速率外推到一年后的估值方式;融资数据记录公司直接募集的股权融资与重要的次级股权交易,同时记录债务融资;员工人数侧重于永久全职员工,力求在不同公司之间保持可比性;计算支出主要记录年度运营层面的云计算或自建数据中心的折旧与运维成本,作为公司实际采购计算资源的代理变量;使用量包括周活跃用户、月活跃用户等产品级指标,优先选择最能代表公司主力产品的度量。 该数据库不仅提供原始数据,还辅以可视化工具与数据洞见,揭示若干重要趋势与结论。
数据团队识别出的显著结论包括 OpenAI 在 2024 年的云计算开支大幅增加,总计约為 70 亿美元的云计算费用,其中约 50 亿美元用于研发类计算任务,包括训练与研究相关的所有计算,另有约 20 亿美元用于推理服务。基于对多个已发布模型训练与推理成本的估算,团队推断 2024 年大部分研发计算被用于实验性训练、去风控化的探索性训练或尚未公开的模型,而非最终版本训练任务。对 GPT-4.5 等已公开模型的训练费用估值给出了置信区间,反映出单次主训练运行的成本存在显著不确定性。 在营收方面,数据库显示 OpenAI、Anthropic 与 Google DeepMind 在 2023 到 2024 年间合计营收呈现近 9 倍增长的态势。OpenAI 的年化营收在 2025 年 4 月的估算接近 100 亿美元,Anthropic 与 Google DeepMind 的年化营收分别达到数十亿美元的规模。值得注意的是,除少数极为领先的"纯玩法"基础模型开发商外,基于自研模型对外直接销售并在 2024 年超过 1 亿美元营收的公司并不多见。
与此同时,微软与亚马逊等云和平台公司通过向客户提供集成第三方模型的产品获得了可观的 AI 相关收入,例如微软宣布其 AI 业务收入约為 130 亿美元,体现了平台公司在将基础模型商业化过程中扮演的重要角色。 理解这些数据的来源与可信度关键在于判断原始信息的强弱。Epoch AI 的做法是优先采集公司官方声明、管理层或员工的明确披露,以及具备内部消息来源或文档证据的成熟媒体报道。每个数据点会被标注为「Confident」或「Likely」,以便用户基于来源类型和报告细节判断可信度。研究者在使用时应当注意多源交叉验证,尤其是对估算值和推断性指标进行敏感性分析。数据的可见差异可能来自公司在会计口径、外包与内部化工程安排、甚至地域性政策差异方面的不同选择。
关于可访问性,Epoch AI 提供下载链接以 CSV 格式导出完整数据包,并在网页端配置交互式图表、表格与筛选器。常见的使用方式包括直接在浏览器中筛选公司与指标,或通过 Python 等工具读取 CSV 进行批量分析。示例的 Python 读取方式为:import pandas as pd; ai_companies_df = pd.read_csv('https://epoch.ai/data/ai_companies.csv'); compute_spend_df = pd.read_csv('https://epoch.ai/data/ai_companies_compute_spend.csv')。数据包通常包含公司主表、计算支出表、融资轮次表、员工报告表、营收报告表与使用量报告表,便于构建横截面与时间序列分析。研究者应注意数据版本与更新时间戳,以确保分析结果对应正确的时间窗口。 数据的许可与引用政策鼓励开放再利用。
Epoch AI 在 Creative Commons Attribution 许可下发布数据,使用者需要在成果中给予合适署名。官方给出的引用示例便于学术论文或政策文件列明来源。对于需要更深入的定制研究或商业咨询,Epoch AI 提供付费的定制研究与顾问服务,面向政府机构与企业客户。 将 AI Companies Data Hub 应用于实际研究时,可以从若干角度获得策略价值。对资金投入与产出效率的比较可以帮助估算模型研发的边际成本与规模经济效应,通过横向对比各公司在单位计算花费上产生的产出(例如新模型发布频率、商业化收入增速),可以推断技术领先者的投入强度与策略倾向。对员工结构的纵向跟踪有利于识别人才聚集与外包策略的变化,例如一些公司将训练与基础设施工作外包给云厂商,导致员工人数看似较低但计算花费较高的现象。
对政府与监管机构而言,理解企业的计算支出与数据中心部署可用于风险评估、供应链稳定性审视与关键硬件依赖分析。 但是,使用这类公开数据库需谨慎对待若干局限性。首先,许多指标依赖于公司披露或媒体间接估算,存在报导偏差和时间滞后。其次,不同企业在报告口径上并非完全一致,尤其是在员工统计与营收口径上,跨公司对比可能受限。再次,计算支出这一代理变量并不完全等同于所消耗的计算量(如 GPU 小时),因为不同云供应商计费策略、硬件型号和效率差异会造成成本到计算量的映射不精确。最后,私人市场上的二级股权交易和未公开融资信息难以全面捕获,估值与资本流动分析需辅以额外信息。
为提高分析质量,建议结合多种数据源:将 AI Companies Data Hub 与论文与模型数据库交叉比对可以确认研发活动与模型发布的时间线,把 GPU 集群与超级计算机数据库合并分析能揭示公司是否自建算力或大量租用云资源;结合产业链数据可以追踪关键芯片供应商、机架与冷却系统等硬件依赖;采用自然语言处理方法对媒体报道与公司公开财报进行实体识别,可提高数据点的自动化更新与异常检测能力。研究者在发布结论时应清晰标注不确定性区间,使用置信区间或情景分析来表达估算范围。 从实操角度讲,投资人可以利用数据库判别哪些公司在商业化路径上展现出快速收入增长與规模化推理能力,结合融资节奏與估值动向评估资本结构的可持续性。行业分析师可以通过时间序列观察各公司在计算支出與员工扩张上的领先或落后态势,从而预测技术路线与产品发布时间窗。政策制定者应关注算力集中性与关键硬件依赖,利用数据支持在出口控制、产业补贴和人才培养政策上的决策。媒体与记者可借此核查管理层声明、追踪重大融资与人员变动,提升报道的事实核验能力。
为了提高研究透明度与可复制性,建议在使用数据库时公开分析代码与数据版本信息,并且将任何对原始数据的修正或清洗步骤详细记录。Epoch AI 提供的 CSV 文件与交互式工具便于快速上手,但当进行计量研究时,必须建立一致的口径定义并与同领域研究对齐,以减少数据解释的偏差。社区协作在维持数据质量方面也非常重要,用户反馈渠道(data@epochai.org)用于提交错误报告或建议数据补充,数据维护团队会在可能的情况下更新与注释。 总结而言,AI Companies Data Hub 为理解前沿基础模型企业生态提供了系统化与可操作的数据基础。它将收入、融资、员工、计算开支與使用量等关键维度整合,以便进行跨公司比较与时间序列观察。虽然存在来源多样性带来的不确定性,但通过谨慎的交叉验证、清晰的口径定义与合理的假设检验,可以把这套数据转化为对商业趋势、技术路线和政策风险的有力洞见。
无论是研究人员、投资者、政策制定者还是媒体人,掌握如何读取并恰当运用这些数据,都将有助于更准确地评估前沿 AI 的发展轨迹与社会经济影响。 。