挖矿与质押 行业领袖访谈

苹果研究揭秘遗忘的AI技术,用于生成高质量图像的突破性进展

挖矿与质押 行业领袖访谈
Apple Research unearthed forgotten AI technique and using it to generate images

苹果研究团队重新发掘了传统的归一化流技术,通过结合变换器架构,打造出先进的图像生成模型,为高分辨率图像生成和实时处理开辟新路径。本文深入分析这一创新方法的原理、优势及其在现代人工智能领域的应用前景。

随着人工智能技术的迅猛发展,生成图像的技术也在不断进化。近年来,扩散模型与自回归模型占据了主导地位,成为大多数生成式图像技术的核心。然而,苹果研究团队近日重新启用了一种曾被遗忘的人工智能技术——归一化流(normalizing flows),并结合变换器(transformers)架构打造出全新的图像生成模型,这一突破不仅让生成图像的质量大幅提升,也为移动设备上的高效图像生成树立了新的标杆。归一化流模型的独特之处在于,其能够通过数学变换将真实世界的数据转化为结构化噪声,随后通过反向过程生成新的样本。这种方法的显著优势是能够精确计算每一幅生成图像的概率,这一点是扩散模型难以实现的。在某些需要理解生成结果概率的重要任务中,归一化流模型的表现尤为突出。

尽管早期基于归一化流的模型在画质上不占优势,生成的图像往往模糊且缺乏多样性,所以归一化流技术一度被边缘化。但苹果研究团队的最新两篇论文,让归一化流技术焕发第二春。首篇论文提出了TarFlow模型,即变换器自回归流(Transformer AutoRegressive Flow)模型。TarFlow采用变换器网络替代了传统手工设计的层结构,将图像分割成多个小块,按序生成,并且每一块的生成都会参考之前生成的图像块。这种自回归方式与当前主流的OpenAI图像生成技术类似,但TarFlow在核心上与其有本质区别:前者直接生成像素值,而非先将图像分割成离散的符号或令牌(token)再进行预测。这样的设计带来了显著优点:避免了图像令牌化过程中质量损失和固定词汇限制带来的局限,使生成图像更加细腻和真实。

然而,TarFlow在处理高分辨率图像时仍存在一定挑战,难以做到大尺寸图像的生成优化。针对这一瓶颈,苹果研究团队推出了第二个进化版本——STARFlow(可扩展变换器自回归流)。STARFlow并非直接在像素空间生成图像,而是先在一个压缩的潜在空间(latent space)中生成更简洁的图像结构,最后通过解码器进行上采样,恢复到高分辨率。这种先在潜在空间中工作的方法,大大降低了计算复杂度,使得模型能够专注于大尺度图像结构的把控,而细节则由解码器负责填充。STARFlow同样改进了文本提示处理流程,摒弃了独立文本编码器,转而直接集成现有的小型语言模型,如谷歌的Gemma,实现了更自然高效的语言理解能力。该设计尤其适合部署在移动设备上,实现边缘计算的可能性大大增强。

相比之下,OpenAI的GPT-4o模型虽然同样脱离了传统的扩散路线,而采用令牌序列对图像进行分步生成,但这种“令牌逐步生成”的方法效率较低,且计算资源消耗巨大,仅能借助数据中心的强大算力运行。苹果的创新更多强调适配个人用户设备,在能耗与计算效率间实现平衡,推动生成式AI技术离开云端,走进日常生活。归一化流结合变换器架构的复兴,预示着生成式AI技术的多元化未来。苹果工作展现出其强大的研发实力与对细节的执着追求,同时也回应了用户对隐私保护与实时体验的需求。随着5G与移动计算能力的提升,基于归一化流和变换器的图像生成技术,无疑将在游戏、内容创作、虚拟现实等多个领域带来深远影响。未来,归一化流技术有望进一步优化生成速度和图像质量,结合更高级的语言模型,支持跨模态、多任务生成。

此外,苹果的开创性工作也激励了整个AI社区重新审视那些曾被忽略的模型架构,探索更多潜藏的可能性。总结来看,苹果研究团队重新发掘的归一化流技术结合变换器结构,为图像生成带来了高效且富有潜力的新思路。这一技术突破不仅提升了生成图像的真实感和细节层次,也在保护用户隐私和提升设备端计算能力方面展现巨大优势。随着更多优化和商业化应用的到来,未来基于归一化流的生成模型或将成为AI图像生成领域的重要分支,与现有扩散和自回归模型形成互补格局,推动数字创作迈向更高水平。苹果科研力量的持续投入,预示着人工智能应用将更贴近用户生活,为图像生成技术带来更多惊喜和可能。

加密货币交易所的自动交易 以最优惠的价格买卖您的加密货币 Privatejetfinder.com

下一步
Why do animals have such different lifespans? [video]
2025年09月18号 08点07分49秒 揭秘动物寿命差异的奥秘:为什么它们的生命长短迥异?

探索动物寿命差异背后的科学原理,了解影响生命长度的多种因素,从基因到环境,揭示为何不同动物拥有截然不同的生命期。

Into the Unwritten Dawn
2025年09月18号 08点08分53秒 走进未书写的黎明:科技、伦理与未来的光明前景

探讨科技进步与伦理挑战如何塑造未来,展示乐观与实际并存的未来观,强调人类在塑造智能时代中的主动角色及未来愿景的现实意义。

True Costs of Misinformation – The Global Spread of Misinformation Laws
2025年09月18号 08点09分51秒 虚假信息的真实代价:全球误导信息法律的传播与影响

随着数字时代的发展,误导信息的传播成为全球性挑战。各国纷纷出台法律应对这一现象,这些法律的出台背景、推动因素及其引发的问题值得深入探讨。本文深入剖析全球误导信息立法的现状及其背后的复杂动因。

Brazil and China megarailway raises deforestation warnings in the Amazon
2025年09月18号 08点10分41秒 巴西与中国联手打造巨型铁路,亚马逊雨林面临严峻砍伐警号

巴西和中国合作拟建横跨南美大陆的生物海洋走廊铁路项目,该项目旨在连接巴西大西洋海岸与秘鲁新建设的太平洋港口,促进农矿产品出口。然而,这条铁路穿越亚马逊森林的“砍伐弧”地区,引发环保人士对雨林持续破坏的忧虑。

Elon Musk's Lawyers Claim He 'Does Not Use a Computer'
2025年09月18号 08点12分01秒 埃隆·马斯克律师声称其“不使用电脑”,真相引发广泛关注

围绕埃隆·马斯克是否使用电脑的争议正在引发公众和法律界的热议,本文深入探讨律师声明与现实情况之间的矛盾,凭借大量细节和背景资料,全面剖析这位科技巨头的数字生活状态及其对法律诉讼的影响。

Bootstrapping Remote MCP: Discover New AI apps using Remote MCP
2025年09月18号 08点13分14秒 从零到一引爆远程MCP:探索全新AI应用的未来之路

远程MCP作为连接AI应用与工具的重要桥梁,正引领智能化协作进入新纪元。本文将深入探讨远程MCP的启动机制及其发现新AI应用的创新方式,助力开发者和用户充分利用远程MCP服务器,实现高效自动化和智能工作流。

Show HN: I made an open-source alternative of computer-use for windows
2025年09月18号 08点14分04秒 开源工具Windows-Use:用人工智能简化Windows桌面自动化的新突破

介绍Windows-Use这款开源工具,如何通过自然语言让人工智能直接执行Windows桌面任务,实现高效精准的桌面自动化,极大降低技术门槛,提升工作效率。