随着人工智能技术的飞速发展,业界与学界对于衡量AI成长与影响力的指标产生了浓厚兴趣。衡量一个新兴领域的发展,往往需要数据的支撑,但正如历史上多次技术浪潮所展示的那样,衡量的困难不仅在于数据的缺乏,更事关我们如何定义和理解那些指标的内涵。回顾互联网、智能手机发展初期,我们目睹过无数种不同的指标从“互联网主机数量”到“日活跃用户”,再到“平均收入”等,这些指标虽各有侧重,却都并非完美契合。如今,在生成式人工智能的浪潮中,关于该如何衡量AI的所谓“成长”,同样没有一个标准统一的答案。 生成式AI的多样性是问题之一。当我们问一个用户是否“使用过AI”时,实际涵盖的范围极其广泛:是像ChatGPT、Claude、Gemini这类以大型语言模型为核心的产品,还是一些含有机器学习功能的小工具,如社交媒体中的AI美颜或语音助手?这涉及的定义边界至关重要,因为不同用例对用户体验的影响完全不同。
一周活跃用户(WAU)是目前行业常见的衡量指标,往往被用来描绘某款AI产品的用户数量和活跃程度。然而,WAU本身也有很大局限:如果用户仅仅是一周使用一次,那么这项技术对其日常生活的改变意义远不及日常活跃用户(DAU)。但无论如何,WAU至少是具象且易于理解的指标,体现了某种程度的使用频率。 除了用户活跃度,另一类常见指标是生成内容的规模,比如“生成的Token数量”。谷歌和微软等巨头曾展示此类指标,意在体现AI模型的使用量。尽管这些数据表面上体现了增长趋势,但它们的多重变量让理解变得复杂。
Token数量的攀升可能意味着更多用户在使用应用,也可能因为模型变得更加高效,或者更复杂的请求导致单次生成更多内容。同样,这类指标对外部观察者而言,难以反映真实的用户体验和价值创造。就如同20年前衡量YouTube流量增长的带宽指标,我们不能单纯用数字大小断定用户活跃度或内容质量的提升。 深入到大型科技公司内部,我们能看到更精细和更具洞察力的指标。例如谷歌着眼于搜索的响应速度,这一指标直接影响用户满意度,而这也形成了一个良性反馈机制,优化用户体验。与此相比,当前大型语言模型提供商尚未普遍实现类似的反馈闭环机制。
用户在问问题后是否满意回答结果、是否需要重复提问或选择转向其他搜索引擎,这些行为的度量对优化产品极为重要,但尚缺乏成熟的指标体系描述与量化。 比较生成式AI与其他技术浪潮的成长速度时,也需保持谨慎。AI的普及速度显然快于早期个人计算机和智能手机的普及,原因不仅是用户基数巨大,更在于接入门槛低,用户无需购买额外硬件,只需通过现有互联网即可使用。虽然这种增长看似更快,但背后是建立在多年技术积累和基础设施完善之上的。在此基础上,芯片制造商如NVIDIA对于GPU需求的迅速增长,也是依托多年的代工经验和完善的供应链体系。 从宏观角度看,所有技术指标最终都归结为时间和金钱两大因素。
人工智能产业的各类指标所体现的指标有效性,事实上取决于对应的商业模式和产品形态。如今行业仍处于早期,许多商业模式和产品体验仍未成型,正确的衡量指标是随业务模式转变而动态变化的。正如早期互联网分析师预测电子邮件将比网页更重要,实际结果则是二者深度融合并共同发展。 未来,生成式AI极有可能被嵌入在更多应用场景和平台中,其使用方式也将更加多样化。传统意义上“用户使用”这一概念的定义恐怕将发生改变,类似我们无法真正衡量数据库使用频率一样,对LLM(大型语言模型)的直接使用频率可能意义有限。探究“语言模型是否会达到谷歌每日搜索量”或“是否会加速智能手机更新周期”等问题,已经成为行业和资本更加关注的焦点。
此外,如何衡量AI驱动的搜索引擎优化(SEO)指标,如何度量AI对电商行为的改变,则是未来研究的重要方向。 总结来看,人工智能指标的选择与定义不仅是技术问题,更是战略和商业问题。恰当的指标不仅能反映市场和用户真实需求,也能辅助企业更好地优化产品,形成良性反馈。现阶段,外部的各类粗糙指标只能作为参考,行业期待更成熟、标准化的度量体系出现,推动人工智能真正从“黑盒”走向可衡量的商业和社会价值。在这场前所未有的技术革新中,理解和完善指标,或许是每一个参与者都必须面对的核心命题。未来,随着AI产品形态日益清晰,衡量标准也将趋于明确,帮助行业更好地把握这艘“火箭”的航向与速度。
。