在数字艺术与人工智能交汇的时代,一项看似简单的实验提出了耐人寻味的问题:当大型语言模型被要求仅凭"记忆"描绘一幅名画,并把结果输出为SVG代码时,会发生什么?Pelican Art Gallery由Koen van Gilst发起,灵感来自Simon Willison的pelican benchmark,展示了从GPT-3.5到GPT-5等多代模型在相同提示下用纯文本生成可视化矢量图的结果。参与观察的作品包括《星夜》《呐喊》《蒙娜丽莎》《夜巡》《胜利布吉伍吉》等,这些作品在艺术史上具有高度辨识度,因而成为检验语言模型"记忆"和"视觉表征能力"的天然样本。 为什么选择SVG作为输出格式并非偶然。相比位图,SVG是一种以文本形式描述几何形状、路径、颜色与层级的可缩放矢量图形格式。它天然契合语言模型的输出能力,因为模型擅长生成结构化文本:标签、属性、路径指令和色彩值都可以用纯文本表达。更重要的是,SVG允许对图像的每一个图形元素进行语义化的拆解,使我们能够追踪模型如何把语言知识映射为几何与色彩决策。
例如,在重构《星夜》时,一个模型可能用同心圆、曲线路径和渐变来表达画中的漩涡云和星光;而另一个模型则可能选择大量不规则贝塞尔曲线路径来模仿笔触的动感。 从技术层面看,这项工作揭示了几个关键维度。首先是细节还原能力:早期模型如GPT-3.5在捕捉整体构图方面通常可以表现出色,比如能识别出天穹、中央村庄或主要人物的轮廓,但在微观细节如笔触方向、复杂透视或独特配色上常常粗糙或符号化。到了GPT-5等更新代模型,改进不仅体现在更复杂的路径指令生成,还体现在对颜色渐变、透明度与图层叠加关系的理解上,输出的SVG更接近原作的视觉张力。第二是风格化倾向:不同模型在没有参考图像的情况下,会基于训练语料中对艺术史和风格的描述做出"诠释"。某些模型倾向于抽象化处理,把画面元素简化为几何符号,而另一些则尝试通过复杂路径模拟笔触感,这反映出模型对"绘画"概念的不同学习路径。
色彩重构是另一个显著挑战。语言对颜色的描述常常模糊且依赖于比喻(例如"深邃的靛蓝"或"温暖的金黄"),模型需把这些语言符号翻译为具体的十六进制色码或CSS色名。较新的模型通常会生成更精确的色码,并在同一幅作品内部保持一致的调色板。但即使是高阶模型,也可能因训练偏差或缺乏精确校准而将近似色替代为不同饱和度或亮度的配色,导致整体氛围偏离原作。对于像《胜利布吉伍吉》这样以严格几何与高度约束的配色著称的作品,任何细微的色差都会显著影响观感,这让SVG生成的检验标准变得更敏感。 从构图和空间关系角度分析,模型的"记忆"表现出有趣的层次性。
对于强烈标志性的元素 - - 例如《蒙娜丽莎》的微笑、《夜巡》中的卫队排列或《星夜》中的大漩涡 - - 大多数模型都能在某种程度上再现这些元素的存在,但不一定能精确重构它们之间的比例与相对位置。模型有时会遵循"语义近似"原则:把重要对象置于画面中心或采用通用的构图范式,而不是重现原作中微妙的视觉平衡。这揭示了一个本质问题:语言模型并非真正具备视觉记忆,而是将视觉信息通过语言中介再编码并生成形式上可视的描述。 在比较不同模型的输出时,时间维度尤为关键。模型更新往往意味着训练数据量、训练架构与指令学习能力的提升。GPT-3.5发布于2022年,广泛依赖于大量标注和非标注文本以及部分代码样本;GPT-5等2025年后发布的模型则可能包含更多针对结构化输出、SVG等代码形式的微调数据。
因此,同一提示在不同模型上的差异并不仅仅是艺术风格的不同,而反映了模型在结构化文本生成、代码语义理解与长距离依赖捕捉方面的进化。这种演进也体现在错误类型上:早期模型常出现语法或闭合标签错误,而新模型更可能在设计决策上犯错,例如过度拟合某种"通用的美学"而忽视原作细节。 实验还带来了关于创作意图与版权伦理的思考。尽管很多历史名作已进入公共领域,仍有争议围绕用训练数据"记忆"或重建艺术家风格的合法性与伦理性。将这些作品以代码形式再现并公开展示可能引起艺术家后裔或博物馆的关切,特别是当输出极其接近原作时。项目发起者通常会在展示中注释模型来源、训练时间范围与生成方法,保持透明度与可追溯性,这对建立公信力与负责的研究实践至关重要。
此外,生成者应注意区分"致敬"与"仿制",并在作品说明中清晰标注作品的原作者与版权状态。 对开发者与研究者而言,这种以SVG为桥梁的实验提供了可操作的洞察。首先,提示设计需要兼顾语义描述与技术细节。简单地要求"画出《星夜》"往往只能得到符号化的结果;相反,分层提示 - - 先要求构图元素,然后细化颜色、路径类型与图层关系 - - 能引导模型生成更结构化、可编辑的SVG代码。其次,后处理策略同样重要:对模型输出进行语法校验、颜色空间统一与路径简化可以显著提升可视化质量。对于有兴趣将模型生成艺术转为可交互网页内容的开发者,自动化工具链(代码解析、SVG优化、差异可视化)能把生成流程从探索性实验转化为可复现的产品化流程。
这项实践也促进了关于评估指标的讨论。传统的图像相似度度量如SSIM或PSNR并不直接适用于矢量化生成,因为SVG的语义性高于像素布局。更合适的评估方法应结合几何相似性、层级和色彩一致性,以及人类感知评估。实验通常采用可视化比对面板,让人类观察者判断哪一版更接近记忆中的原作或更具艺术感染力。通过多模型、多作品的横向对比,可以梳理出模型在不同艺术风格(印象派、表现主义、古典写实、抽象几何)上的强项与短板。 面向未来,几个方向值得关注。
首先是跨模态训练的深化:将图像与对应的SVG注释联合用于训练,可以让模型更直接理解从像素到路径的转换关系,从而在不依赖外部参考的情况下生成更精确的矢量重构。其次是交互式生成:结合人类反馈与实时编辑功能,可以让模型生成初稿,随后由人类调整参数(例如笔触密度、曲率阈值),形成协同创造流程。最后是开放基准与可复现性:像Pelican Art Gallery这样的项目若能公开所有提示、模型版本与评估结果,将大幅推动学术与工程社区在这一领域的积累和进步。 总结来看,用LLM生成SVG来重绘名画既是一次技术展示,也是对模型"视觉化记忆"能力的深刻拷问。实验表明,随着模型迭代,生成的结构化艺术作品在细节、色彩和层级关系上呈现出显著改善,但模型仍受限于语言描述的抽象性与训练语料的偏差。将来通过更紧密的跨模态训练、改进的评估体系和负责任的展示实践,这一领域既有可能推动新型数字艺术创作,也能为我们理解AI如何把语言知识转化为视觉表达提供新的视角。
对于热衷于代码艺术、数字保存与AI艺术史研究的人群而言,这样的实验既是灵感来源,也是方法论上的重要参考。 。