近年来,嵌入向量(embeddings)作为自然语言处理和图像识别领域的重要技术,已经成为诸多人工智能应用的核心组成部分。无论是信息检索、语义搜索,还是推荐系统和知识图谱,嵌入向量都提供了高效的语义表达方式,帮助计算机理解和匹配复杂的信息。然而,令人惊讶的是,目前高质量的嵌入服务价格极低,有时与大语言模型生成文本的成本相比甚至低了一个数量级。这一现象引发了业内和学术界的广泛关注。那么,为什么嵌入向量如此便宜?背后隐藏着怎样的技术和经济逻辑?本文将揭示其中的奥秘。 首先要理解嵌入向量的生成过程涉及什么样的计算,计算成本为何如此低。
一般而言,生成嵌入向量是通过对输入文本(或图像)进行一次前向传播计算得到高维稠密向量。与语言模型的文本生成不同,嵌入向量只需一次完整的前向计算,模型不会逐步生成后续词元,也不需要复杂的解码或采样过程。举例来说,使用目前领先的Qwen3-Embedding-8B模型来处理长度约为1024令牌的文本时,整个过程只需完成大约16.4万亿次浮点运算(FLOPs)。 虽然这听起来计算量巨大,但实际上运行在现代GPU上的效率极高。以NVIDIA H100 GPU为例,其标称的浮点运算能力接近1000万亿次每秒,实际应用中可持续达到750万亿次每秒。考虑到一次完整的前向传播只需16.4万亿次计算秒级就能完成单句嵌入生成,因此即便是高负载运行,也能在极短时间内处理大量令牌。
相比之下,生成文本的语言模型需要多轮推理和更多解码计算,整体成本高出许多。 此外,嵌入生成的计算模式决定了它是"计算受限"而非"内存受限"。这意味着计算过程主要受浮点计算能力制约,而非数据传输速度。嵌入模型由于只需单次前向推理,其模型参数存储和激活数据相比复杂语言模型要少,且计算过程不易通过批处理(batching)获得大幅加速。批处理增加只能带来非常有限的吞吐量提升,且会显著增加单用户等待的延迟,这一点与语言生成模型截然不同。批量处理在嵌入生成中效果有限,这也导致了其单位计算成本较低而扩展空间有限,因此价格相对透明且趋于低价竞争。
在硬件成本方面,以云服务市场的价格计算,使用NVIDIA H100的GPU成本约为每小时两美元,而消费者级别的RTX 4090成本仅为每小时约三角七十美分。尽管H100的计算性能更强,但因其价格高昂且现实性能受到功耗限制,导致单位浮点运算成本并不优于RTX 4090。实际测试表明,一张RTX 4090在嵌入推理任务中达到的吞吐量足以媲美更昂贵的H100,而其每美元的计算能力更高。因此,对许多应用场景而言,成本效益更优的消费者级GPU成为嵌入服务背后的主要动力,进一步拉低了服务价格。 这一硬件选择和经济逻辑上的优势,使得嵌入生成的实际运维成本远低于消费者习惯预期。从而,行业领军者如OpenAI、Google、Cohere等,都以极具竞争力的价格提供嵌入接口,部分情况下千令牌价格不到一美分。
即便是处理全球性的海量文本,如整个英语维基百科,整体成本也控制在数百美元范围内。 价格的快速降落还受到市场竞争和技术趋同性的影响。目前,领先的嵌入模型都趋于产生相似的语义表达,差异性缩小,导致没有什么厂商能凭借底层模型架构形成长期护城河。技术门槛低使得竞争激烈,价格战不可避免,这进一步压低了市场售价。结果,许多专注于嵌入服务的企业开始转型,将重心转向端到端的搜索解决方案或复杂的增强检索系统,依靠综合服务实现更高利润。 在软件层面,对嵌入生成过程的深度分析也揭示了计算热点。
使用CUDA和NVIDIA Nsight等工具进行细粒度的性能分析显示,绝大部分计算时间耗费在矩阵乘法计算的CUDA核函数中,尤其是高度优化的矩阵乘法实现。注意力机制计算在整体时间中占比不算高,虽然对长输入序列而言占比有所增大。激活函数和标准化层消耗的计算占比则相对较小。高效的矩阵计算核心驱动了整体推理流程极高的硬件利用率,这也是嵌入生成成本低的核心原因之一。 从经济角度看,嵌入生成服务的核心运营指标应当聚焦于"每美元浮点计算能力"(FLOPS per dollar)。这一指标直接关系到单位计算的边际成本,硬件选择和应用调度策略都围绕最大化该指标展开。
过度追求内存带宽和超大显存的高端GPU对嵌入生成并无明显收益,反而增加了成本。相反,针对计算密集型但内存需求较低的任务,对计算资源的有效利用以及提高硬件利用率成为降低成本的核心。 综上所述,嵌入向量的低价源于其固有的计算特点及市场供需驱动。单次前向推理计算密集但时间极短,硬件利用率高且不依赖高内存带宽,加上市场竞争激烈,导致价格快速下降。当前嵌入模型的性能相对同质化,缺乏明显的技术壁垒,价格形成机制更加透明且趋同于接近成本价。未来随着技术进步和硬件升级,这一趋势还可能向生成式大模型迁移。
嵌入价格的持续低廉不仅促进了更广泛的应用落地,也为人工智能生态提供了坚实的基础算力支撑。理解嵌入向量成本背后的机制,有助于从业者合理设计产品和服务,实现性价比最优化,从而激发更多创新的AI应用场景。 。