NFT 和数字艺术

从32只水獭看人工智能的快速演进之路

NFT 和数字艺术
The recent history of AI in 32 otters

通过32只水獭的形象变化,深入解析人工智能过去三年间的发展历程,涵盖扩散模型、多模态生成、代码绘图及视频合成,展现AI技术在图像和视频生成领域的突破及未来趋势。

人工智能作为当今科技领域最具革命性的技术之一,其发展速度令人瞩目。而通过精心选择的“32只水獭”这一独特视觉符号,我们可以直观地回顾过去三年内人工智能特别是在图像生成和视频合成领域的显著进步。这些水獭形象不仅反映了AI模型从粗糙到逼真的转变,更折射出底层技术的演进和应用范围的不断拓展。最初,这一系列水獭图像诞生于一次飞机旅程中,当时因网络断连而尝试使用AI图像生成工具,输入“在飞机上用WiFi的水獭”,无意中创造了一个成为检验AI进展的标杆场景。早期的AI图像生成采用的是扩散模型,这种模型通过从一张几乎全是噪声的图像开始,不断迭代优化,最终形成清晰的图像。扩散模型的工作原理与大语言模型截然不同,后者是通过逐字预测文本,而扩散模型则是逐步雕刻图像的整体结构。

使用Midjourney这类扩散模型制作的水獭图像,可以清晰地看到从2022年起图像质量的明显改善。那时的水獭形象模糊且细节缺失,甚至出现了过多手指和怪异的键盘。到2023年,这些生成图像已趋于逼真,但仍存在不协调元素。2024年以后,光线处理和构图技巧显著提升,到2025年,生成的水獭达到了几乎真实的照片水平。除了逼真效果,扩散模型最具争议的点在于它们能模仿各种艺术风格,包括网络上大量受版权保护的艺术家作品。通过插入特定的风格编码,用户能令AI生成带有巴约挂毯、埃贡·席勒、街头涂鸦以及日本浮世绘等艺术特色的水獭图像,显示出强大的创意加工能力。

然而,现今相当先进的AI图像生成不仅是复制风格,而且允许用户用风格代码开创独特风格的艺术创作,这些风格代码能被社区分享,极大丰富了用户的创作空间。有趣的是,除了依赖巨型服务器的商业模型,越来越多高质量的开源扩散模型可以在个人电脑上运行,这表明人工智能不仅是大公司专利,广大开发者和艺术爱好者都能轻松使用并参与其中。这样的去中心化趋势对AI的发展和监管都会带来深远影响。随着时间推进,AI图像生成不再仅限扩散模型。多模态图像生成技术的出现标志着AI进入了一个新阶段,这种技术赋予了AI直接逐像素绘制图像的能力,就像它生成文本时逐词预测类似。此举大幅提高了图像生成的可控度,使得具体细节调整成为可能,也带来了更为准确符合用户要求的结果。

作者用多模态模型成功地将原本常见的河水獭替换成了女儿喜爱的海獭,并添加了莫霍克发型以及雷蛇品牌的游戏笔记本电脑等个性化细节,充分演示了多模态生成对个性定制的强大支持。现阶段高质量的多模态模型尚缺少开源版本,但随着技术开放程度的提升和社区力量的推动,未来不久也许会出现可供公众操作的版本。针对AI图像理解的深入探讨,引出了利用代码来绘画这种“无视觉反馈”的挑战性测试方式。TikZ这门用于学术论文科学图表绘制的数学语言,被用作考察AI空间推理能力的工具。AI不得不在缺乏类似训练数据的情况下,凭借内部算法创作图像,这被称为AI是否具有“火花”——接近通用人工智能的一个标志。曾经,一只用TikZ绘制的粉红色独角兽图形被誉为AI创造力的闪光点。

尽管早期版本在绘制“飞机上使用WiFi的水獭”时效果欠佳,后来的模型如Gemini 2.5 Pro则显著改善,虽然仍未完美,但已经展现出更强的空间理解与生成能力。开源模型如DeepSeek r1紧随其后,虽然稍显落后于闭源顶尖模型,但更新速度快,表现也在快速提升。视频生成领域更是AI进步的集中展示。2024年,使用Runway Gen-3 alpha生成的“水獭在飞机上用WiFi”的视频已具备初步流畅画面和动作表现。短短不到一年,2025年的Google Veo 3进一步完善,画质和声音均由AI全自动生成,极具感染力。基于开放权重的模型如腾讯的HunyuanVideo虽然画质尚显粗糙甚至令人诧异,但功能的本地实现彰显了技术的普及和去中心化潜力。

结合图像、视频和代码绘制的多方向进步,我们能够清晰看见AI几乎涵盖所有视觉生成媒介的成熟脚步,也发现其能力在不断缩短从实验室到用户的时间间隔。整体而言,32只水獭的逐年形象变迁不仅是AI从抽象到逼真、从无序到精准的缩影,更是全社会不可忽视的转折点。随着AI生成的内容越来越难以辨别真假,我们正步入一个视觉真实性受到挑战的时代。娱乐产业、新闻媒体乃至社交平台,都将面对如何区分真实和AI生成内容的艰难课题。尤其是开放权重模型的兴起,使得管控难度大幅提升,未来图像和视频的伪造门槛将大幅降低。面对这场视觉革命,社会各界必须做好充分准备,建立新的信任机制和技术标准。

在这一过程中,AI不仅仅是工具,更是文化与伦理的挑战者。回望2022年那些模糊的水獭照片,到2025年近乎真实的视频短片,不到三年的时间就是这一飞速进步的有力见证。未来,随着技术不断演变,将有更多充满创造力和想象力的图像与视频走入人们生活,也将引发关于艺术、版权、真实性和社会价值的新一轮思考。通过小小的水獭形象,我们得以窥见人工智能的历史轨迹和未来展望,理解技术变革如何深刻影响我们的世界。

加密货币交易所的自动交易 以最优惠的价格买卖您的加密货币 Privatejetfinder.com

下一步
3 Tech Stocks You Can Buy and Hold for the Next Decade
2025年07月16号 07点41分19秒 未来十年值得持有的三大科技股票深度解析

本文深入分析了未来十年具有巨大成长潜力的三大科技股票,分别是英伟达、Meta平台和Palo Alto Networks,揭示它们在人工智能、社交媒体及网络安全领域的领先优势及未来发展前景,帮助投资者把握长期投资机遇。

 Singapore orders local crypto firms to cease overseas activity by June 30
2025年07月16号 07点42分08秒 新加坡监管升级:本地加密公司被要求6月30日前停止海外业务运营

新加坡金融管理局(MAS)出台严格新规,要求本地数字代币服务提供商(DTSPs)在6月30日前停止对海外市场的加密服务,旨在强化反洗钱和反恐怖融资监管,防范跨境风险。本文深入解析新规背景、影响及业内反应,为加密行业从业者提供全方位的合规指引和行业趋势分析。

 Crypto exchange BitoPro hit by $11.5M in suspicious outflows
2025年07月16号 07点42分51秒 台湾加密货币交易所BitoPro遭遇1150万美元可疑资金外流事件深度解析

本文详细分析了台湾知名加密货币交易所BitoPro在近期遭受的1150万美元热钱包被盗事件,探讨了事件背景、黑客手法、对用户的影响以及行业应对措施,为读者提供全面的安全风险认知和未来防范建议。

Mitsubishi’s global output rises 1% in April
2025年07月16号 07点43分34秒 三菱汽车四月全球产量微增背后的深度解析

深入探讨三菱汽车在2025年四月份全球产量实现1.2%增长的现象,分析其产量地域分布的变化以及未来发展趋势,帮助读者全面理解这家日本汽车制造商的市场表现和战略调整。

1 Top Dividend Growth Stock to Buy Right Now
2025年07月16号 07点44分23秒 当前最佳成长型股息股票推荐:房地产投资信托基金Realty Income深度解析

本文深入解析了房地产投资信托基金Realty Income作为优质成长型股息股票的投资价值,探讨其稳定的现金流、持续增长的股息以及在不确定经济环境中的优越表现,为投资者提供重要参考和深度见解。

German financial watchdog: AI is helping to catch market abuse
2025年07月16号 07点45分01秒 德国金融监管机构借助人工智能打击市场违规行为的创新之路

随着人工智能技术的迅猛发展,德国金融监管机构巴芬(BaFin)不断提升市场监管能力,利用AI精准识别市场违规行为,防范金融风险,维护市场公平,推动金融市场健康稳定发展。本文详细解析了巴芬如何运用人工智能技术改进监管机制,其背后的背景原因及对未来金融市场监管的深远影响。

 Crypto funds post $286M inflows as Ether tops buying: CoinShares
2025年07月16号 07点45分41秒 CoinShares报告:以太坊领涨,数字货币基金吸金2.86亿美元

随着以太坊投资热度上升,数字货币基金迎来2.86亿美元资金流入,尽管比特币略显疲软,行业资金流向呈现显著转变和结构调整。