被ChatGPT带飞的AIGC,能为垂直产业做些什么?

首页 > 科技

被ChatGPT带飞的AIGC,能为垂直产业做些什么?

来源:电视剧杂谈 发布时间:2023-02-16 16:02

机器之心编辑部

本文从 AIGC 技术 -> 产品 -> 业务应用和价值实现环节探讨其发展路径,并以工业实例探讨 AIGC 如何才能在工业领域实现闭环和价值落地。

去年以来泛起了 AIGC 高潮,引发了 AIGC 及其应用话题的爆发性增长,不少人感触强人工智能的时代已经离我们不那么遥远了。但是在高潮的另一面,我们看到真正能落地的场景依然是凤毛麟角,目前比较成功的应用主要集中在个人消费领域,而 AIGC 在工业中的应用大多仍旧处于探索阶段。

红杉资本在 22 年 9 月就对 AIGC 做出了以下预判:文字类 AI 天生将在 2023 年进入黄金时期,图片类 AI 天生黄金时期将在 2025 年左右抵达,3D 和视频类 AI 天生在 2023 年可能正处于草稿阶段,进入黄金时期或许在 2030 年。不可否认,文字与图片的 AI 天生确实走在了前面,而 3D 模型、视频和游戏天生仍在研发阶段。

红杉资本针对 AIGC 相关产品成熟猜测

若考虑到 AIGC 工业应用,如在制造业、建筑业等巨型垂直实体领域中,AIGC 的 C/Content 内容将不能仅停留在图片和文字的领域,而是需要进入信息更为丰硕的三维领域。接下来,我们将从 AIGC 技术 -> 产品 -> 业务应用和价值实现环节探讨其发展路径,并以工业实例探讨 AIGC 如何才能在工业领域实现闭环和价值落地。

1.AIGC 技术:从文字到图片

从大家对 ChatGPT 越来越多的测试中可以看到,ChatGPT 不仅能对语义进行解析和结构化,还能在此基础上用 NLP 自然语言处理做数据分析。

ChatGPT 对内容进行结构化处理和数据分析 - 佳格数据提供

事实上,以 Stable Diffusion 为首的一众 AI 画图框架或者平台,在去年更早的时候已经引起了轰动。固然图片相对文字来说看上去信息含量要更为复杂,但是其技术成熟却要比以 GPT 为首的文字天生来的更早一些,我们有必要从主流的开源框架 Stable Diffusion 为例,回顾一下这些图片 AIGC 框架是如何工作的。

Stable Diffusion 天生的图片, 已经有了相比人类画家的能力

Stable Diffusion 主要有三个组成部分,每一个部门都有自己的神经网络。

1、CLIP 用于文字编码器:以文字作为输出的语义信息组成一个 77*768 的矩阵,CLIP 练习 AI 同时进行自然语言理解和计算机视觉分析。CLIP 可以决定图像和文字提示的对应程度,好比逐步把建筑的图像和 “建筑” 这个词完全匹配起来,而其能力练习是通过全球 40 多亿张带文字描述的图片实现的。

CLIP 的练习集

2、UNET 及调度程序:这就是大名鼎鼎的扩散模型主程序(来自 CompVis 和 Runway 团队于 2021 年 12 月提出的 “潜伏扩散模型”(LDM / Latent Diffusion Model)),用于对噪声进行猜测实现反向去噪的过程,进而实现图片在信息空间中的天生。如图片所示,染料扩散的过程就像从图片逐渐变成噪点的过程,而当研究职员对图片增加随机噪点让 AI 反向学习整体过程,而后就拥有了一套从信息空间噪点图反向天生图片的模型。

Diffusion 模型反向去噪过程

用通俗的例子解释,假如在净水里随机滴入一些染料,跟着时间推移会得到如下图一样绚丽的外形。那么有没有一种方法,能够根据某一个特定时间特定的状态,反向推出初始的染料用量、顺序、滴入水缸的初始状态等信息呢?显然,假如不借用 AI 的方式几乎无法实现。

上一篇:谷歌企业文化... 下一篇:退休以档案还...
猜你喜欢
热门阅读
同类推荐