随着人工智能技术的飞速发展,大规模语言模型和多模态模型成为推动行业革新的重要力量。作为中国领先的科技企业,百度近期正式发布了ERNIE 4.5模型家族的开源版本,这标志着百度在大规模多模态模型研发和应用领域又迈出了坚实的一步。ERNIE 4.5不仅带来了卓越的性能表现,还融合了多项前沿技术创新,为科研工作者和开发者提供了强大且高效的AI工具。本篇将全面介绍ERNIE 4.5模型家族的构建理念、技术特点、性能表现及其在实际应用中的广泛价值。 ERNIE 4.5模型家族是一组涵盖10款不同变体的多模态大规模模型,包含了Mixture-of-Experts(混合专家模型,简称MoE)架构以及密集型模型。其最大模型参数规模达到惊人的4240亿,活跃参数则有47亿和3亿两个版本,此外还提供了0.3亿参数的轻量型密集模型,满足不同规模和场景的需求。
MoE结构作为ERNIE 4.5的核心创新之一,引入了异构模态架构,支持跨模态的参数共享,同时保留独立的模态专属参数。这种设计有效解决了多模态融合中各模态相互干扰的问题,提升了模型对文本及视觉信息的理解能力。 在多模态预训练方面,ERNIE 4.5采用了多模态异构的MoE机制,能够同时训练文本和图像数据,以捕获更丰富的跨模态信息。该机制包括模态隔离路由、路由器正交损失以及多模态令牌平衡损失等技术,有效保障了不同模态间的互补与协同学习。这不仅提升了模型在文本理解和生成上的表现,也大幅增强了视觉理解和跨模态推理的能力。 百度还针对ERNIE 4.5设计了高效的基础设施支持。
通过创新的异构混合并行和分层负载均衡策略,实现了训练资源的最佳利用。内存效率高的流水线调度、FP8混合精度训练以及精细化重计算技术,极大提升了模型的预训练吞吐量。为推理阶段优化,百度引入了多专家并行协作与卷积编码量化算法,实现4位和2位的无损量化,从而保证推理性能和模型精度的平衡。基于自主研发的PaddlePaddle深度学习框架,ERNIE 4.5模型能够在广泛硬件平台上高效运行,兼顾性能和部署便捷性。 多模态模型在不同应用场景中有着多样化的需求。百度为此推出了针对特定模态的后训练优化策略,分别针对通用语言理解生成(LLM)和视觉语言理解(VLM)进行了专门调优。
结合监督微调(SFT)、直接偏好优化(DPO)及统一偏好优化(UPO)等多种训练技术,打造出适应多样化任务需求的模型系列。值得一提的是,视觉语言模型支持“思考模式”和“非思考模式”两种运行状态,既能专注视觉感知能力,也能强化跨模态复杂推理,满足不同使用场景。 在多项业内标杆测试中,ERNIE 4.5展现出出色的竞争实力。基础版本ERNIE-4.5-300B-A47B-Base在28项基准测试中领先其他大型模型如DeepSeek-V3-671B-A37B-Base,覆盖泛化能力、推理、知识密集型任务等多种维度。配置约为Qwen3-30B的70%的ERNIE-4.5-21B-A3B-Base,在数学和推理基准(如BBH、CMATH)上超越了后者彰显其参数利用效率优势。后训练版本ERNIE-4.5-300B-A47B在指令跟随与知识任务方面表现突出,在IFEval、Multi-IF、SimpleQA等测试中取得领先成绩。
视觉语言模型层面,ERNIE-4.5-VL在非思考模式下对视觉感知、文档与图表理解、视觉知识等方面表现卓越。切换到思考模式后,不仅保持了感知能力,还显著提升了推理力量,在MathVista、MMMU及VisualPuzzle等难题中接近或超越OpenAI-o1。轻量级的ERNIE-4.5-VL-28B-A3B也表现出色,某些场景下优于同类较大体量模型Qwen2.5-VL-7B及Qwen2.5-VL-32B。这些成果突显了百度在多模态模型规模与性能平衡中的深厚功力。 除了强大的模型能力,ERNIE 4.5家族还配套了丰富的开发与部署工具。ERNIEKit作为工业级开发套件,支持预训练、SFT、低秩适配(LoRA)、直接偏好优化(DPO)以及量化感知训练(QAT)等功能,方便开发者进行模型微调和压缩。
FastDeploy则提供一键式多硬件部署体验,兼容vLLM与OpenAI协议,支持动态角色切换和多机分解调度,有效提升推理速度与稳定性。FastDeploy还支持低位量化推理和上下文缓存,极大简化了大模型在实际应用中的运行维护负担。 结合PaddlePaddle深度学习框架,ERNIE 4.5实现了从模型训练到推理部署的全流程高效协同。无论是研究机构还是企业开发者,都能基于开放生态快速上手,构建符合自身需求的智能应用。此外,模型亦提供PyTorch兼容的格式,满足不同技术栈用户的使用习惯。 ERNIE 4.5开源采取Apache 2.0许可协议,为学术研究和商业应用提供宽松灵活的使用保障。
百度希望通过开源分享促进全球AI社区的合作交流,推动多模态人工智能向更加智能、多元和高效的方向迈进。随着更多开发者和科研人员参与其中,ERNIE 4.5在自然语言处理、计算机视觉、跨模态理解等领域的应用前景将愈加广阔。 综合来看,ERNIE 4.5模型家族凭借其前沿的技术创新、卓越的性能表现和完备的生态支持,已成为全球多模态大规模模型的重要代表。它不仅是百度人工智能战略的重要里程碑,也为推动中国乃至全球AI技术发展和智能产业升级带来了新的动力。未来,随着模型持续优化和应用领域不断拓展,ERNIE 4.5有望引领新一代多模态智能应用的浪潮,助力实现更加智能和普惠的数字化社会。