类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2025年10月28号 20点33分29秒

微软ArchScale：简单且可扩展的预训练新时代

去中心化金融 (DeFi) 新闻稳定币与中央银行数字货币

钱财 qian.cx

微软ArchScale提供了一个专注于神经架构研究的简单且可扩展的预训练工具包，通过融合多种尖端技术和优化策略，推动大规模语言模型的研发与应用。本文深入解析ArchScale的核心特性、训练方法及其在长文本处理和推理能力评估中的优势。

随着人工智能技术的飞速发展，预训练语言模型在自然语言处理领域的重要性日益凸显。而要构建具备强大理解与生成能力的模型，选择合适的预训练框架和方法变得至关重要。微软最新推出的ArchScale平台，凭借其简单、高效和可扩展的设计理念，正在引领神经语言模型研究的新潮流。ArchScale不仅集成了多种先进架构，还提供完善的规模定律和优化器支持，成为研究人员和工程师构建大规模模型的理想利器。ArchScale作为一个全面的预训练工具包，专注于神经语言架构与规模定律的结合，帮助用户便捷训练和评估各类语言模型。它涵盖了包括Transformer、状态空间模型（SSM）、混合注意力机制、门控记忆单元（GMU）、YOCO以及差分注意力等多种现代架构，支持多样化的模型设计与创新。

值得一提的是，ArchScale内置了μP++与μP等先进的规模定律，为模型训练过程中的超参数调整提供理论支持，有效优化大规模模型在不同参数规模和训练token数下的表现。此外，ArchScale还支持Chinchilla FLOPs规模定律和其他实验性规模关系，便于研究人员深入探究训练策略对模型性能的影响。性能优化方面，ArchScale从基础硬件利用率出发，采用end-to-end的torch.compile训练方式，结合Lightning Fabric实现了FSDP分布式训练，充分利用混合精度计算和张量并行技术，甚至支持最新的fp8格式，极大提升了训练速度与效率。训练流程提供了灵活的数据混合支持，采用预先分词的打包数据集，并支持变长训练以适应长上下文环境，配合稳定的大词汇表训练和融合内核技术，确保训练过程的稳定性与高效性。ArchScale在预训练Phi-4-mini-flash模型中体现了其强大能力。该模型基于微软自有的高质量5万亿token数据集，支持在多达1000 GPUs的集群环境下进行训练，并提供标准参数设置与优化建议。

用户不仅能轻松启动大规模训练任务，还能尝试更优的架构组合，如SambaYda，配合μP++进行训练，获得更高的性能和更稳定的训练效果。在模型规模扩展方面，ArchScale通过简单易用的脚本支持从1亿到33亿参数的SambaY系列模型训练，利用μP++和Chinchilla令token数量按理想比例扩展，结合深度参数自动调节，降低了超参数调优的复杂度。数据规模扩展同样便捷，支持以百亿级token为单位，扩大训练语料规模，以探索数据对模型性能的影响。ArchScale允许用户灵活调节超参数，例如学习率，利用μP++机制以较低计算资源进行参数扫描，从而实现优化策略的高效验证，同时保证了在不同模型规模上保持性能一致性。对于长文本处理，ArchScale支持最大128K序列长度的训练，配合PreLong-64K等预分词长文本数据集以及可变长度训练技术，有效提升了模型对漫长文本的理解能力。特别是在Mamba-1模型基础上，附加依赖项支持更高效的可变长度训练，满足复杂长上下文的调度需求。

评估方面，ArchScale提供了全面的测试工具，涵盖常见NLP基准任务、长文本理解及检索任务。用户可以在多GPU环境下评估SambaY模型的性能，如Wikitext、Lambada、ARC、Winogrande、HellaSwag等数据集。在长上下文能力评测上，ArchScale支持RULER benchmark，测试模型在32K上下文长度内的“针芒在草堆”检索难题，同时通过Phonebook评测验证模型对长文本信息检索的效率和准确性。此外，ArchScale还支持数学和科学推理任务评测，利用集成的vLLM推理后端和多GPU环境，通过eval_reason.sh脚本实现高效推理评估，辅助研究人员掌握模型的推理能力与实用性。微软ArchScale植根于开放源码理念，采用MIT许可协议，鼓励社区参与与共享创新。它融合了诸如Samba、LitGPT、TinyLlama和Flash Linear Attention等多项先进技术，成为一个集成化、灵活、可扩展的预训练平台。

总之，ArchScale为神经架构研究提供了一个强大而灵活的解决方案。它将多样架构选择、科学的规模定律、优化的训练流程以及全面的评估体系结合，促进模型研发效率的提升与性能的最大化。随着人工智能对多领域应用的不断深入，ArchScale的出现正是顺应时代需求的创新之举，有望推动大型语言模型在研究和实际场景中的突破与普及。未来，随着更多社区成员和研究团队参与其中，ArchScale有望持续迭代升级，成为构建下一代人工智能语言模型的重要基石。对于广大AI研究者和开发者而言，探索和利用ArchScale，无疑能够加速模型预训练步伐，优化资源投入，实现性能和效率的最佳平衡，助力人工智能迈向更高峰。