随着人工智能技术的迅猛发展,生成图像的技术也在不断进化。近年来,扩散模型与自回归模型占据了主导地位,成为大多数生成式图像技术的核心。然而,苹果研究团队近日重新启用了一种曾被遗忘的人工智能技术——归一化流(normalizing flows),并结合变换器(transformers)架构打造出全新的图像生成模型,这一突破不仅让生成图像的质量大幅提升,也为移动设备上的高效图像生成树立了新的标杆。归一化流模型的独特之处在于,其能够通过数学变换将真实世界的数据转化为结构化噪声,随后通过反向过程生成新的样本。这种方法的显著优势是能够精确计算每一幅生成图像的概率,这一点是扩散模型难以实现的。在某些需要理解生成结果概率的重要任务中,归一化流模型的表现尤为突出。
尽管早期基于归一化流的模型在画质上不占优势,生成的图像往往模糊且缺乏多样性,所以归一化流技术一度被边缘化。但苹果研究团队的最新两篇论文,让归一化流技术焕发第二春。首篇论文提出了TarFlow模型,即变换器自回归流(Transformer AutoRegressive Flow)模型。TarFlow采用变换器网络替代了传统手工设计的层结构,将图像分割成多个小块,按序生成,并且每一块的生成都会参考之前生成的图像块。这种自回归方式与当前主流的OpenAI图像生成技术类似,但TarFlow在核心上与其有本质区别:前者直接生成像素值,而非先将图像分割成离散的符号或令牌(token)再进行预测。这样的设计带来了显著优点:避免了图像令牌化过程中质量损失和固定词汇限制带来的局限,使生成图像更加细腻和真实。
然而,TarFlow在处理高分辨率图像时仍存在一定挑战,难以做到大尺寸图像的生成优化。针对这一瓶颈,苹果研究团队推出了第二个进化版本——STARFlow(可扩展变换器自回归流)。STARFlow并非直接在像素空间生成图像,而是先在一个压缩的潜在空间(latent space)中生成更简洁的图像结构,最后通过解码器进行上采样,恢复到高分辨率。这种先在潜在空间中工作的方法,大大降低了计算复杂度,使得模型能够专注于大尺度图像结构的把控,而细节则由解码器负责填充。STARFlow同样改进了文本提示处理流程,摒弃了独立文本编码器,转而直接集成现有的小型语言模型,如谷歌的Gemma,实现了更自然高效的语言理解能力。该设计尤其适合部署在移动设备上,实现边缘计算的可能性大大增强。
相比之下,OpenAI的GPT-4o模型虽然同样脱离了传统的扩散路线,而采用令牌序列对图像进行分步生成,但这种“令牌逐步生成”的方法效率较低,且计算资源消耗巨大,仅能借助数据中心的强大算力运行。苹果的创新更多强调适配个人用户设备,在能耗与计算效率间实现平衡,推动生成式AI技术离开云端,走进日常生活。归一化流结合变换器架构的复兴,预示着生成式AI技术的多元化未来。苹果工作展现出其强大的研发实力与对细节的执着追求,同时也回应了用户对隐私保护与实时体验的需求。随着5G与移动计算能力的提升,基于归一化流和变换器的图像生成技术,无疑将在游戏、内容创作、虚拟现实等多个领域带来深远影响。未来,归一化流技术有望进一步优化生成速度和图像质量,结合更高级的语言模型,支持跨模态、多任务生成。
此外,苹果的开创性工作也激励了整个AI社区重新审视那些曾被忽略的模型架构,探索更多潜藏的可能性。总结来看,苹果研究团队重新发掘的归一化流技术结合变换器结构,为图像生成带来了高效且富有潜力的新思路。这一技术突破不仅提升了生成图像的真实感和细节层次,也在保护用户隐私和提升设备端计算能力方面展现巨大优势。随着更多优化和商业化应用的到来,未来基于归一化流的生成模型或将成为AI图像生成领域的重要分支,与现有扩散和自回归模型形成互补格局,推动数字创作迈向更高水平。苹果科研力量的持续投入,预示着人工智能应用将更贴近用户生活,为图像生成技术带来更多惊喜和可能。