从画笔到像素：一文读懂AI绘画的前世与今生-今日必看

从画笔到像素：一文读懂AI绘画的前世与今生

来源：不爱尖叫的鸡发布时间：2023-03-22 16:31

上周，备受期待的 Midjourney V5 AI 艺术生成器正式发布，再次改变了 AI 驱动的艺术创作世界。它拥有明显增强的图像质量、更多样化的输出、更广泛的风格范围，以及对无缝纹理的支持、更宽的宽高比、改进的图像提示、扩展的动态范围等。

下图是以“埃隆·马斯克先容特斯拉，90 年代的商业广告”为 prompt（提示），分别用 Midjourney V4 和 Midjourney V5 天生的图像。

此次满意人们期待的是，Midjourney V5 带来了更逼真的图片天生效果，更有表现力的角度或场景概述，以及终于画对的“手”。曾经在 AI 绘画界广泛流传的一个笑话是，“永远不要问一个女人的春秋或一个 AI 模型为什么要把手藏起来。”

这是因为，AI 艺术生成器是“画手困难户”，尽管它们可以把握视觉模式，但不能把握潜伏的生物逻辑。换句话说，AI 艺术生成器可以计算出手有手指，但很难知道一个人的一只手正常应该只有 5 个手指，或者这些手指之间应该具有固定关系的设定长度。

在过去的一年里，AI 艺术生成器无法准确渲染手的 “缺陷” 已经成为一种文化修辞。手部题目在一定程度上与 AI 艺术生成器从它们接受练习的大量图像数据集中推断信息的能力有关。

值得注意的是，Midjourney V5 可以很好地天生逼真的人手。大多时，手是准确的，一只手有 5 个手指，而不是 7-10 个。

Midjourney V5 的发布，引起了全球用户更广泛的爱好激增，巨大流量的涌入使得 Midjourney 服务器短时间崩溃，进而导致众多用户无法访问。除此之外，OpenAI 的 DALL·E 2、Stability AI 的 Stable Diffusion 等 “文生图” 模型此前也是业内讨论的热点对象。

当人们向这些 “文生图” 模型中输入任何文本后，它们就可以天生与该描述相匹配的、较为正确的图片，天生的图片可以被设定为任意风格，如油画、CGI 渲染、照片等，在许多情况下，独一的限制来自人类的想象力。

前世：一场从DeepDream开始的梦

2018 年，第一幅由 AI 天生的肖像《Edmond de Belamy》问世，它由天生对抗网络（GAN）创建，是 Obvious Art 的 “La Famille de Belamy” 系列的一部分，终极在佳士得艺术品拍卖会上以 432500 美元成交。

2022 年，Jason Allen 的 AI 创作作品《Théâtre D’opéra Spatial》在科罗拉多州展览会的年度艺术竞赛中获得了第一名。

近些年，各类 “文生图” 模型也在人们的期待中纷纷登场。当神经网络在图像处理方面取得了一定的成果后，研究职员们便开始开发一些可视化技术，以更好地了解这些神经网络是如何看待世界并进行分类的，由此塑造了一个又一个 “文生图” 模型。

DeepDream 根据神经网络学到的表征来天生图像，在获取输入图像后，通过反向运行经过训练的卷积神经网络（CNN），并试图通过应用梯度上升来最大化整个层的激活。下图（左）显示了原始输入图像及其 DeepDream 输出。

令人惊奇的是，输出图像中包含了很多动物的面部和眼睛，这是因为 DeepDream 使用了 ImageNet 数据库（不同犬种和鸟类的例子）来练习。对于一些人来说，DeepDream 天生的图像类似于梦境般的迷幻体验。但即便如此，DeepDream 加速了人们将 AI 作为艺术图像创作的工具的工作。

Neural Style Transfer 是一种基于深度学习的技术，能够将一张图像的内容与另一图像的风格相结合，如上图（右），将梵高的《星夜》应用于目标图像。Neural Style Transfer 重新定义了 CNN 中的损失函数来实现——通过 CNN 的高层激活保存目标图像，以及多层激活来捕获其他图像的风格。由此，输出的图像将保存输入图像的风格与内容。

2017 年，Wei Ren Tan 等人提出了模型 “ArtGAN”，尽管其输出的图像看起来完全不像是画家的作品，但仍然捕捉到了艺术品的低阶特征。由此，ArtGAN 激发了更多研究者使用 GAN 天生艺术图像的爱好。

不久之后，Ahmed Elgammal 等人提出创造性对抗性神经网络 “CAN”，以练习 GAN 天生被鉴别者视为艺术但不符合任何现有艺术风格的图像。由 CAN 产生的图像看起来大多像一幅抽象画，给人一种独特的感觉。

2017 年，Phillip Isola 等人创建了前提型 GAN，即 pix2pix，接收输入图像后天生一个转换版本。例如，在现实生活中，假设有一个 RGB 图像，我们可以轻松将其转换为 BW （黑白二值图像）版本。但若想要把 BW 图像变成彩色图像，依赖手动上色就很耗时。pix2pix 则可以自动完成这一过程，并应用于任何图像对的数据集，而不需要调整练习过程或损失函数。

上一篇：美团能靠“特... 下一篇：股票质押违约...