随着人工智能技术的迅猛发展,图像生成模型在多个领域展现出巨大的应用潜力。然而,拥有庞大参数量的模型如Qwen Image在实际应用中面临着诸多挑战,特别是在边缘设备如智能手机和平板电脑等硬件资源受限的平台上。Qwen Image作为目前开源领域规模最大、性能最先进的图像生成模型之一,凭借其20亿参数,展现了卓越的提示符合性和编辑能力,但同时也给移动端的部署和优化带来了前所未有的难度。为此,Draw Things团队积极寻求解决方案,力求让Qwen Image以及其细化版本Qwen Image Edit能在iPhone、iPad和Mac设备上高效运行,覆盖大多数苹果生态系统内近五年的设备。Qwen Image模型核心结构基于60层的多模态差分变换器(MMDiT),融合了来自阿里巴巴的视频生成模型Wan 2.x的精细调优视频变分自编码器(VAE)。这样的构架确保了模型的优良性能与生成质量,但也带来了对硬件计算能力和内存的极大考验。
MMDiT在训练过程中激活值的规模会逐渐增大,甚至可能达到数千万的量级。这一激活动态在模型深度更浅的先前版本Hunyuan和FLUX.1中已出现过问题,但由于Qwen Image层数更多且激活值更大,导致在苹果M1和M2等硬件时代,为避免BF16仿真带来的性能瓶颈,绝大多数计算仍需保持在FP16精度下完成。然而,Qwen Image的激增激活范围意味着除了主要激活可以在FP32中累积外,更多的FP16激活需要进行缩放以防止溢出。为应对这一挑战,团队设计了一套更为激进的下采样策略,确保模型能够在FP16精度下安全稳定运行且维持高准确率。具体而言,Qwen Image在多模态块中两条不同的路径将激活反馈回FP32的主路径:一是注意力模块中的输出投影结果,二是前馈神经网络(FFN)计算结果。以往版本仅需对FFN路径的激活进行缩放,而Qwen Image晚期层次的两条路径均需大幅放大激活以确保对主路径的影响,这也导致FP16激活溢出风险大幅提升。
为化解此问题,针对q/k/v投影输入进行8倍下采样,并适当调整RMS规范化中的epsilon值。同时,注意力模块输出经过2倍缩放后,再于输出投影前回升至FP32路径。FFN部分则采取分层不同强度的缩放策略,其中0到58层采用32倍缩放,第59层更是激进地达到512倍。得益于这些优化,Qwen Image及其编辑变体均可在保持很低精度损失的同时实现FP16下的本地推理。此外,团队也提供BF16版本供选择,关键计算层采用BF16运行且无需缩放,从而最大限度减轻老旧设备中BF16仿真带来的性能负担。除了激活缩放策略,Qwen Image还使用了Wan 2.x的带因果三维卷积的视频VAE对潜在空间进行编码和解码。
尽管该VAE具有与FLUX.1相近的参数规模且原生支持视频时序特性,但其三维卷积使得首次解码一帧高分辨率图像时计算量极大,比如在M3 Pro芯片上生成1024×1024图像需要五到六秒。团队深入分析发现,首次解码时使用到了上一帧全零填充,这使得许多三维卷积计算变得冗余。因此,通过对卷积核权重和偏置的调整并切换为二维卷积,大幅提升了首帧解码速度,生成时间缩短至一秒以内。除此之外,Qwen Image模型中约七成参数来自于基于时间步长的自适应层归一化(Layer-Norm)。与Hunyuan和FLUX.1类似的MMDiT模型不同,Qwen Image的自适应层归一化仅依赖于时间步长。这使得可以通过离散化时间步长(0到1000),以缓存预计算的归一化参数,减少大约七亿条参数加载到内存的需求。
该策略虽然并非针对显存中已加载权重时的必要优化,但在RAM存取成为瓶颈时发挥了重要作用,有效减轻了模型部署时的资源压力。Draw Things团队基于以上多重创新和优化,在苹果生态系统内实现了Qwen Image的本地推理体验。无论是iPhone、iPad还是Mac,只要设备不超过五年,用户都能直接享受到高性能、低延迟的图像生成服务。Metal FlashAttention 2.0作为底层加速技术,充分利用了苹果芯片的计算架构,推动了该模型在移动端的可行性。每一次技术突破都使得在边缘设备上运行大型图像生成模型成为可能,也为未来更广泛的应用场景铺平道路。Qwen Image的优化不仅仅是模型本身的调优,更是一场软硬件协同设计的深度探索。
面对边缘设备计算资源有限、功耗敏感的现实,Draw Things通过精妙的缩放策略、高效的视频VAE改进,以及对层归一化细节的精准掌控,成功将大规模模型的威力扩展到了每个人的手中。展望未来,随着苹果芯片架构不断演进与软件优化技术的进一步深入,诸如Qwen Image这类超大规模生成模型将在移动端发挥更大作用,助力艺术创作、娱乐体验、广告设计等领域实现前所未有的创新与效率提升。无论是对开发者还是终端用户而言,能够在手机或平板上获得媲美服务器的大规模图像生成能力,代表了人工智能技术普及的新里程碑。随着技术界持续攻克边缘设备的瓶颈,图像生成的边界将被不断突破,点亮更多创意与想象的可能性。 。