随着人工智能技术的快速发展,越来越多的初创公司开始依赖实验室级别的API来构建他们的应用,这种策略在当前阶段似乎奏效,但从发展的历史轨迹来看,每一家真正有竞争力的AI企业最终都会走向自主训练自己的模型。这种转变不仅是趋势使然,更是行业生态的必然。随着蒸馏技术、微调和后训练技术的逐步简化和成熟,模型训练门槛不断降低,未来那些能够掌控自有模型的企业将成为市场的领跑者。 回顾历史,上世纪2019年,OpenAI逐步发布了GPT-2模型,出于安全考虑分阶段释出不同规模的模型版本。随着GPT-3的发布,市场上出现了更多像Cohere和Primer这类自主训练并发布模型的企业。与此同时,基于扩散模型的Midjourney和Stable Diffusion也陆续进入商用阶段,真正开启了AI模型商业化的热潮。
到了2024年,拥有一定计算资源与GPU设备的个人或组织便能启动模型训练作业。2025年,DeepSeek成功以约600万美元成本蒸馏出一款能与OpenAI的o1水平推理相当的前沿模型,刹那间模型训练的门槛大幅降低。 这种现象说明了一个重要事实:现今API背后驱动的模型技术已经不再是难以逾越的壁垒。训练和复制模型的要素归结为三个核心部分:数据、算力和模型架构。变换器(Transformer)架构已经超越了此前流行的长短期记忆网络(LSTM),成为主流的架构选择。对预训练、后训练以及推理的技术细节的开放,使得复制甚至创新都变得更加高效。
算力问题,从资本层面看,只是寻找资金的能力。数据作为训练的基础资源,也可以通过蒸馏等技术实现更高效利用,最近的研究甚至表明,通过蒸馏的一亿参数模型可以达到七亿参数规模模型训练的效果。 许多人或许会想,训练模型是不是必须依靠新奇的架构?实际上并非如此,真正的难点更在于数据效率和强化学习方法的创新。虽然基于扩散的技术在某些领域前景可期,但受限于计算资源和可获取数据的规模,其效率仍是一大瓶颈。 既然门槛在降低,那么为什么应用层面公司还要投入训练模型的环节呢?答案在于自动化带来的生产力变革。当如今各类编程任务通过AI可以在短时间内被自动完成,软件不再像过去那样依赖复杂专业技能,它转而成为一种直接面向消费者的品牌和服务。
而成功的关键则是能否掌握分发渠道和数据积累。以Cursor为例,它最初只是基于VSCode和GPT-4的API封装工具,但随着数据的积累与模型的定制化,它已经开始运行自有模型来支持"快速应用"等功能。大量用户产生的操作轨迹为其提供强化学习的数据基础,使模型能够处理更多复杂的软件工程任务。归根结底,模型的好坏不再是赢家,而是谁能掌控模型的训练和应用。 这其中体现了一条清晰的路径:初期通过API验证产品市场匹配,随后运用积累的独特数据来微调小型专用模型,最终目标是训练具有核心竞争力、不可替代的自有模型,将数据护城河转化为生产力。应用本身成为强化学习的环境,或将高价值的用户交互轨迹卖回实验室,以此实现价值再造。
说到数据,就不能不提其作为AI发展瓶颈的重要性。OpenAI并购Statsig正是为了获得其"会话回放(Session Replays)"海量数据,这些记录用户互动细节的轨迹数据,恰恰是强化学习的黄金资源。Sutton和Silver称这一阶段为"经验时代",强调下一个前沿是从智能体与环境交互中获取数据。电脑已经成为专业人士的主要工作场所,每天产生大量未被充分利用的未标记数据,这些是未来帮助AI实现通用智能的关键。 与此同时,模型的经济效益不再简单由其智能水平衡量,而是转化为生产力指标,例如"Token Factor Productivity(TFP)"。TFP衡量单位代币所产生的经济价值,具体定义是产出经济价值与消耗代币的比值。
以作者个人经验为例,每月为Claude Pro支付200美元,但产生的效益价值达数万美元,换算可得每花费1美元产生42美元价值,极大地验证了自主训练模型的合理性。 未来随着AI应用渗透各种行业,基于TFP的衡量方式将成为标准。如何在保证输入代币成本可控的情况下提升模型输出价值,将成为企业提升竞争力的核心问题。换句话说,谁能有效将代币转换为高劳动产出率,谁就能在新一轮软件与劳动力革命中站稳脚跟。 总的来看,训练模型已经不仅仅是技术问题,而是决定AI企业生死存亡的核心战略。那些掌握数据积累和模型训练能力的企业,将从根本上改变软件行业与劳动市场的格局。
以模型为产品核心的时代已经来临,企业竞争的焦点回归生产力,而非单纯的智能水平。软件正全方位吞噬传统产业,而AI模型则开始蚕食传统劳动力,唯有高效将代币转化为经济价值的企业才能真正赢得未来。 。