人工智能作为当今科技领域最具革命性的技术之一,其发展速度令人瞩目。而通过精心选择的“32只水獭”这一独特视觉符号,我们可以直观地回顾过去三年内人工智能特别是在图像生成和视频合成领域的显著进步。这些水獭形象不仅反映了AI模型从粗糙到逼真的转变,更折射出底层技术的演进和应用范围的不断拓展。最初,这一系列水獭图像诞生于一次飞机旅程中,当时因网络断连而尝试使用AI图像生成工具,输入“在飞机上用WiFi的水獭”,无意中创造了一个成为检验AI进展的标杆场景。早期的AI图像生成采用的是扩散模型,这种模型通过从一张几乎全是噪声的图像开始,不断迭代优化,最终形成清晰的图像。扩散模型的工作原理与大语言模型截然不同,后者是通过逐字预测文本,而扩散模型则是逐步雕刻图像的整体结构。
使用Midjourney这类扩散模型制作的水獭图像,可以清晰地看到从2022年起图像质量的明显改善。那时的水獭形象模糊且细节缺失,甚至出现了过多手指和怪异的键盘。到2023年,这些生成图像已趋于逼真,但仍存在不协调元素。2024年以后,光线处理和构图技巧显著提升,到2025年,生成的水獭达到了几乎真实的照片水平。除了逼真效果,扩散模型最具争议的点在于它们能模仿各种艺术风格,包括网络上大量受版权保护的艺术家作品。通过插入特定的风格编码,用户能令AI生成带有巴约挂毯、埃贡·席勒、街头涂鸦以及日本浮世绘等艺术特色的水獭图像,显示出强大的创意加工能力。
然而,现今相当先进的AI图像生成不仅是复制风格,而且允许用户用风格代码开创独特风格的艺术创作,这些风格代码能被社区分享,极大丰富了用户的创作空间。有趣的是,除了依赖巨型服务器的商业模型,越来越多高质量的开源扩散模型可以在个人电脑上运行,这表明人工智能不仅是大公司专利,广大开发者和艺术爱好者都能轻松使用并参与其中。这样的去中心化趋势对AI的发展和监管都会带来深远影响。随着时间推进,AI图像生成不再仅限扩散模型。多模态图像生成技术的出现标志着AI进入了一个新阶段,这种技术赋予了AI直接逐像素绘制图像的能力,就像它生成文本时逐词预测类似。此举大幅提高了图像生成的可控度,使得具体细节调整成为可能,也带来了更为准确符合用户要求的结果。
作者用多模态模型成功地将原本常见的河水獭替换成了女儿喜爱的海獭,并添加了莫霍克发型以及雷蛇品牌的游戏笔记本电脑等个性化细节,充分演示了多模态生成对个性定制的强大支持。现阶段高质量的多模态模型尚缺少开源版本,但随着技术开放程度的提升和社区力量的推动,未来不久也许会出现可供公众操作的版本。针对AI图像理解的深入探讨,引出了利用代码来绘画这种“无视觉反馈”的挑战性测试方式。TikZ这门用于学术论文科学图表绘制的数学语言,被用作考察AI空间推理能力的工具。AI不得不在缺乏类似训练数据的情况下,凭借内部算法创作图像,这被称为AI是否具有“火花”——接近通用人工智能的一个标志。曾经,一只用TikZ绘制的粉红色独角兽图形被誉为AI创造力的闪光点。
尽管早期版本在绘制“飞机上使用WiFi的水獭”时效果欠佳,后来的模型如Gemini 2.5 Pro则显著改善,虽然仍未完美,但已经展现出更强的空间理解与生成能力。开源模型如DeepSeek r1紧随其后,虽然稍显落后于闭源顶尖模型,但更新速度快,表现也在快速提升。视频生成领域更是AI进步的集中展示。2024年,使用Runway Gen-3 alpha生成的“水獭在飞机上用WiFi”的视频已具备初步流畅画面和动作表现。短短不到一年,2025年的Google Veo 3进一步完善,画质和声音均由AI全自动生成,极具感染力。基于开放权重的模型如腾讯的HunyuanVideo虽然画质尚显粗糙甚至令人诧异,但功能的本地实现彰显了技术的普及和去中心化潜力。
结合图像、视频和代码绘制的多方向进步,我们能够清晰看见AI几乎涵盖所有视觉生成媒介的成熟脚步,也发现其能力在不断缩短从实验室到用户的时间间隔。整体而言,32只水獭的逐年形象变迁不仅是AI从抽象到逼真、从无序到精准的缩影,更是全社会不可忽视的转折点。随着AI生成的内容越来越难以辨别真假,我们正步入一个视觉真实性受到挑战的时代。娱乐产业、新闻媒体乃至社交平台,都将面对如何区分真实和AI生成内容的艰难课题。尤其是开放权重模型的兴起,使得管控难度大幅提升,未来图像和视频的伪造门槛将大幅降低。面对这场视觉革命,社会各界必须做好充分准备,建立新的信任机制和技术标准。
在这一过程中,AI不仅仅是工具,更是文化与伦理的挑战者。回望2022年那些模糊的水獭照片,到2025年近乎真实的视频短片,不到三年的时间就是这一飞速进步的有力见证。未来,随着技术不断演变,将有更多充满创造力和想象力的图像与视频走入人们生活,也将引发关于艺术、版权、真实性和社会价值的新一轮思考。通过小小的水獭形象,我们得以窥见人工智能的历史轨迹和未来展望,理解技术变革如何深刻影响我们的世界。