类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

跟着我们

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

跟着我们

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

跟着我们

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

跟着我们

2025年10月02号 04点34分22秒

2025年大型语言模型的规模与发展趋势解析

加密市场分析加密货币的机构采用

钱财 qian.cx

How large are large language models? (2025)

近年来，人工智能尤其是在自然语言处理领域的快速发展，将大型语言模型（Large Language Models, LLMs）推上了技术创新的前沿。语言模型通过海量文本数据的训练，实现对自然语言的理解与生成，广泛应用于智能助手、内容创作、自动翻译等多个场景。随着模型参数规模的不断扩大和训练技术的进步，2025年的大型语言模型已经迈入了一个全新的阶段，本文将深入剖析这些模型的规模、结构、训练数据以及相关技术创新，为读者全面呈现大型语言模型的最新发展动态。回顾语言模型的发展历程，早期的代表作如2019年OpenAI发布的GPT-2系列，涵盖了从1.37亿参数的基础版本到达到16.1亿参数的XL版本。训练数据大致为40GB的互联网文本，约为100亿个token。虽然参数量相对较小，但已经展示出较强的文本生成能力。

2020年，OpenAI发布了震撼业界的GPT-3，模型参数数量高达1750亿，训练数据规模约为4000亿token。这一代模型采用了更加多样和庞大的语料库，包括CommonCrawl、WebText2、书籍语料和维基百科等，训练耗费数月时间，依赖大型数据中心中的成千上万的NVIDIA A100 GPU。GPT-3的出现标志着语言模型参数和训练数据规模进入了新的量级。紧接着，GPT-3.5和GPT-4相继面世，尽管关于其架构和训练数据的具体细节尚未公开，但从性能和应用广度中可以看出其模型规模和复杂度进一步提升。与此同时，Meta推出了著名的LLaMA系列。在2023年发布的LLaMA模型涵盖7亿至650亿参数不等，其中最大的65亿参数版本预训练使用了约1.4万亿token的海量数据。

到了2024年，LLaMA发布了令人瞩目的4050亿参数版本，该模型采用密集型变压器架构，训练数据量近3.7万亿token。Meta公司在数据来源方面逐渐保持低调，但明确表示使用多样性更丰富的知识类数据。2025年，LLaMA系列计划推出更为庞大的4代模型，据报道其最大型号达到2万亿总参数，采用稀疏专家（Mixture-of-Experts，MoE）架构激活2880亿参数。目前这款“巨兽”模型尚未公开发布，相关团队内部因基准测试数据的操控丑闻遭遇信任危机。所谓的稀疏专家模型（MoE）逐渐成为训练和部署超大规模语言模型的主流方案。MoE模型结合多个专家子模型，其中每次推理仅激活部分专家参数，从而在参数规模和计算资源需求间实现平衡。

2023年底，Mistral推出的Mixtral系列MoE模型开创了此类架构的新时代，允许拥有类似GPT-3的总参数量（数百亿至百亿不等），同时显著降低推理计算量和硬件门槛。2024年及以后，更多基于MoE架构的大型语言模型纷纷问世，如DeepSeek V3 Base（拥有6710亿参数，激活参数37亿，训练数据达14.8万亿token），Databricks推出的DBRX系列（总参数1320亿，激活360亿，训练数据超12万亿），以及腾讯的Hunyuan、百度的ERNIE等均搭载MoE或类似技术。这些模型不仅参数量惊人，训练数据也突破了以往的规模，并开始兼顾多模态以及多语言训练，让模型能理解和生成视觉、文本等多类型信息。面对多样的模型架构和参数规模，MoE模型与传统密集型模型的性能和智能表现之间的对比成为业内关注焦点。一方面，MoE技术能显著提升模型规模及推理效率，支持更大规模的训练，降低硬件门槛；另一方面，模型的“密度”即参数的激活数量和深度，似乎是模型推理智能和表现的重要因素。当前，自动化基准测试难以全面区分这两种模型在真实语言任务中的表现差异。

业内普遍认为，参数规模和训练数据多寡仍是基础，而模型结构创新、数据质量提升、训练工艺优化同样不可或缺。除参数规模外，训练数据的来源和质量对模型最终表现影响深远。过去几年中，训练数据主要来源于网络爬取文本、书籍集、百科知识库、代码库等多样资源。然而，训练数据中存在版权争议和隐私问题，这也是行业及监管焦点。部分研发团队选择引入合成数据——由模型自身生成的训练语料，来规避版权风险和提高数据多样性，但这也引发了数据退化循环的潜在隐忧。此外，“退火”技术逐渐进入训练流程，将高质量、专业领域如数学或代码类语料加入训练后阶段，提升模型在特定任务上的表现，但这也引起业界对基础语言模型纯粹性的讨论。

当前，基于Transformer架构的语言模型依旧占据主导地位，但潜在的新架构如RWKV、BitNet及基于字节潜隐空间的模型设计吸引了研究者关注。有观点认为，真正推动语言模型能力革命的，除了规模爆炸，还有架构创新和更高效的训练机制。未来可能会出现更具灵活性、更高效且更易控的模型架构，甚至为特定任务量身打造专用语言模型。从市场角度看，长期以来，具备GPT-3规模甚至更大规模的模型较少公开发布，导致研究者和开发者多依赖小规模模型或合成语料精调版本，无法充分发挥超大模型优势。近年来，从Meta的4050亿参数模型到Mixtral、DeepSeek、Databricks等开源或部分公开的规模超过千亿的模型，极大地推动了行业生态发展，也让开发者能以相对低廉代价接触和使用顶尖技术，促进了应用创新。综合来看，2025年的大型语言模型展示了前所未有的参数规模和数据量级，同时伴随架构创新和训练方法的持续演进。

从GPT-2的百万级参数，到GPT-3的千亿级，再到如今数千亿甚至万亿级的MoE超大模型，语言模型的“体量”正在不断突破极限。未来随着硬件性能提升以及训练技术革新，这些模型有望在语言理解的深度和广度上实现更大飞跃。同时，数据伦理和模型安全议题亦将成为必须重视的方向，为该领域的可持续发展奠定基础。无论是科研探索还是产业应用，掌握大型语言模型的规模与架构演进规律，都有助于把握人工智能最核心的驱动力，迎接更智能、更高效的语言计算新时代。

下一步

Bybit, OKX expand crypto services in Europe under MiCA

2025年10月02号 04点35分41秒 Bybit与OKX借助MiCA监管扩展欧洲加密服务，推动行业合规发展

随着欧盟《加密资产市场监管条例》（MiCA）全面实施，全球领先的加密交易平台Bybit与OKX纷纷布局欧洲市场，推出符合MiCA标准的加密货币交易服务，助力欧洲加密生态加速发展和合规化进程。本文深度解读两大交易所如何抢占欧洲市场先机及MiCA法规对行业未来的深远影响。

PrimeXBT Launches ‘Trade as VIP’ Campaign Offering 70% Off Trading Fees

2025年10月02号 04点38分08秒 PrimeXBT 推出“VIP交易”新促销活动，交易手续费立减70%

PrimeXBT全新‘Trade as VIP’活动重磅来袭，大幅降低交易手续费，为交易者带来前所未有的优惠体验。本文深入剖析该活动的优势及其对加密货币交易市场的影响，助您把握节省成本的绝佳机会。

WEMADE & Redlab Unleash Web3 MMORPG – Global Pre-Registration Open for Aug 2025

2025年10月02号 04点39分44秒 WEMADE与Redlab携手开创Web3 MMORPG新时代——《ROM:黄金时代》全球预注册火热开启，2025年8月正式上线

《ROM:黄金时代》作为WEMADE与Redlab最新合作的Web3 MMORPG游戏，结合区块链技术与经典RPG玩法，预计于2025年8月在全球170多个国家上线。预注册活动现已启动，玩家可通过WEMIX PLAY平台及官方网站参与并领取丰厚奖励。本文深入探讨游戏特色、创新的RPG代币经济体系以及社区活动，揭示这一大片受关注的区块链游戏如何为玩家带来全新游戏体验。

No. 1 DeFi Protocol on Aptos, Echo, Launches Token Generation Event

2025年10月02号 04点40分40秒 Echo协议引领Aptos生态，比特币DeFi新时代的开拓者

Echo协议作为Aptos生态系统中最具影响力的DeFi协议，近期成功启动了代币生成事件（TGE），标志着比特币流动性金融（BTCfi）在Aptos上的重要里程碑。该协议凭借强大的技术实力和庞大的用户基础，推动了比特币资产的链上生产力提升，成为Aptos生态中不可忽视的力量。

2 Unstoppable Stocks to Buy With Great Upside Potential

2025年10月02号 04点44分36秒两只不可阻挡的潜力股，值得长期关注与投资

深入解析亚马逊和Roku两只具备巨大增长潜力的股票，探讨其业务优势、市场前景及技术创新，帮助投资者把握未来财富增长机会。

Kirkland’s accelerates transformation with leadership appointments

2025年10月02号 04点47分25秒柯克兰加速转型，领导层任命引领多品牌战略升级

随着家居装饰零售市场竞争日益激烈，柯克兰通过重组领导团队，积极推进多品牌运营转型，提升供应链管理和实体零售策略，旨在打造利润可持续增长的全新商业模式。

Meeka Metals begins gold production at Murchison project, Australia

2025年10月02号 04点49分24秒米卡金属开启澳大利亚默奇森黄金项目生产，迈向高产稳健发展新时代

米卡金属公司成功启动澳大利亚默奇森黄金项目，实现首金浇铸，项目有望带动地区经济及金矿资源开采迈上新台阶。本文详尽解析项目背景、生产进展及未来发展规划，展望矿业市场的潜力与机遇。