随着人工智能技术的飞速发展,评测(Eval)成为衡量模型性能和质量的重要手段。尤其在生成式人工智能(Generative AI)兴起之后,越来越多的创业公司试图通过提供专业的模型评测服务谋求市场机会。然而,纵观AI发展历程,独立的评测初创公司始终屈指可数,鲜有能够持续成长并取得商业成功。究竟是什么原因导致这些看似潜力巨大的评测创业项目频频失败?本文将深入剖析评测初创公司的困境,厘清背后的多重制约因素,并探讨安全评测领域的特殊优势及未来可能的突破口。评测创业公司面临的首要挑战源自人才流失。具备设计和执行高质量评测方案能力的人才往往能够在模型开发链的其他环节中获得更高的薪酬和更大的影响力。
评测工作虽专业性强,但最终价值和商业回报往往被局限在一定范围内。相比之下,后期训练(post-training)技术和具体应用开发领域能够创造更大经济收益,并直接带动模型性能提升的核心改进,使得优秀评测人才更倾向于转向这些环节。这种机会成本的考量导致评测领域持续出现人才瓶颈,限制了新创企业的创新能力和研发深度。举例来说,某些拥有丰富评测经验的研究人员曾选择离开评测项目,转而投入到为智能代理打造后期训练工具的创业中,以寻求更高的商业回报和职业成长空间。客户群体的稀缺性是评测初创公司面临的又一重大难题。AI模型使用者大多是高度技术化的开发者群体,他们通常要么具备自行设计并实施评测的能力,要么不具备足够的理解和需求去消化复杂的评测指标与结果。
换言之,在"使用模型API构建应用"和"缺乏独立评测能力"的两个条件的交叉区间中,潜在客户群体几乎微乎其微。那些专业水平足以理解关键指标,比如AIME 2024指标改进幅度背后含义的开发者,自然倾向于亲自运行评测以满足需求。另一方面,技术门槛较低、对模型版本差异不了解的客户更希望寻找完整解决方案,而非单纯的评测服务。因此,评测创业公司在市场定位上陷入尴尬局面,很难精准连接需求与服务,影响业务拓展。更为棘手的是来自大型AI实验室及研究机构的竞争压力。当评测指标成为公开排行榜的评价标准后,模型开发方自然会通过各种策略优化这些关键指标,哪怕这些优化可能违背评测的初衷。
这种现象正是著名的"古德哈特法则"在AI领域的演绎,即"当一项度量指标成为目标时,其作为度量的效用必然下降"。以Meta为例,曾先后被曝光在Llama系列模型中公开测试数据的使用以及私下测试的多版本、甚至发布时优化过的版本冒充正式版本参与排行,导致评测结果失去公信力。除了技术上的"作弊",大厂普遍采取诸如邀请员工在排行榜投票、挖角评测初创企业人才、以免费算力换取优异结果及索取内部性能数据等手段,变相削弱独立评测机构的公正性和竞争力。正因如此,许多评测创业团队面临道德压力和信任危机,难以在行业中赢得稳定地位。尽管上述挑战普遍存在,但安全评测领域则展现出较为独特的发展潜力。安全评测关注模型在伦理、偏见、攻击防御等方面的表现,涉及技术风险和社会责任,吸引了一批理念鲜明、愿意坚守研究初心的专家群体。
相较技术能力驱动的规模化后期训练和应用开发,安全评测技术人员更少受到高薪诱惑影响,愿意长期投入相关领域。此外,安全评测的特殊性使得其客户群体包括不仅限于技术开发者,还涵盖了政策制定者、监管机构及企业合规团队,这极大拓宽了潜在市场边界。若未来人工智能伦理规范与监管提案落实,安全评测初创公司有望借助法规红利,实现商业模式的稳健发展。与此相辅相成的是,安全评测外部供应商的独立性被广泛认可,使其在行业中具备相对优势。尽管安全领域依然面临来自大厂的技术投机及指标优化困扰,但安全事件的严重性往往促使监管和社会舆论强化监督力度,这样的环境为安全评测服务提供商构筑了坚实的立足点。另一值得注意的现象是,卖评测和卖评测工具本质上是两种截然不同的商业模式。
前者本质上是一项运营业务,面临成本和规模的压力,而后者即提供用于生成和管理评测流程的软件平台,属于典型的SaaS业务,具有边际成本低、规模扩展快的优势。例如,平台型项目LM Arena通过数百万志愿者免费标注数据,为社区提供评测服务的同时,也在积极开拓围绕数据流和软件服务的商业路径。与传统评测创业相比,这类以技术驱动的工具商更容易吸引投资并维持持续发展动力。尽管如此,LM Arena所获的巨额融资仍未必代表传统评测业务的繁荣,更可能是基于其创新的运营模式和补充服务的潜力。综合来看,评测初创公司大量夭折背后,是多条限制和博弈共同作用的结果。高质量评测人才不断流向更有利的领域,导致技术储备和创新不易持续积累。
潜在客户数量严重不足且对技术要求两极分化,使得市场需求无法有效覆盖。同时,大型AI企业通过各种手段优化自身评价指标,降低了评测机构提供客观公正数据的空间与价值。相比之下,安全评测凭借其技术驱动与社会责任并重的特点,为相关初创企业打开了一扇相对通畅的窗口。未来,推动评测生态繁荣发展的关键仍在于提升评测工作的附加价值与可持续盈利能力。这需要评测企业从单纯的评测结果输出转向综合服务提供商角色,涵盖数据标注、评测工具开发、咨询建议及相关合规支持等多维度。同时,加强行业规范建设,推动建立透明、公正的评价标准和监管体系,有助于缓解"古德哈特法则"带来的负面影响,增加评测服务的可信度。
总之,AI评测初创公司若想逆转当前困境,必须深入理解行业内部博弈与市场需求结构,结合技术创新与商业模式变革,围绕人才培养、客户拓展和竞争策略三大方面迈出坚实步伐。安全评测领域的机遇与政策支持为整个评测生态注入了新活力,也为创业者提供了前瞻性的发展方向。未来,随着人工智能在更多应用场景落地,评测作为保障模型质量与安全不可或缺的一环,其重要性将进一步凸显。只有解决了人才、用户与公平竞争三重难题,评测初创公司才能真正实现商业价值与技术领先,推动整个AI行业迈向更健康和可持续的未来。 。