欢迎您进入某某电器有限公司

开丰注册登录站

造洁净厨房 做健康美食

油烟净化一体机批发定制首选服务商

全国免费咨询热线400-123-4567

当前位置: 主页 » 开丰动态 » 行业动态

三个鼻子两张嘴?产品经理视角下的AI绘画全解析

文章出处:网络 人气:发表时间:2023-10-30 08:13
GPT负责文本领域的狂飙,Diffusion负责图像领域的狂飙,两者合起来才是对内容生产领域完整的冲击。

我从1月30日写系列第一篇的时候就提过,这一波AIGC浪潮本质来源两项技术:一个是ChatGPT所代表的GPT、RLHF、Prompt等技术点,另一个则是AI绘画背后的Diffusion技术。

2023年,只看这两项技术的影响力(除非有新的技术突破发生),其中GPT负责文本领域的狂飙,Diffusion负责图像领域的狂飙,两者合起来才是对内容生产领域完整的冲击。

那我们接下来我们正式开始,本篇文章讲述以下内容:

  • 1 Diffusion的技术原理科普(照旧通俗易懂)
  • 2 Diffusion演进方向(潜力在哪里)
  • 3 Diffusion商业落地分析(附带分析框架)
  • 4 Diffusion对相关职业的影响(附带分析框架)

全文共计10458字,阅读大约27分钟。

Diffusion的技术原理科普

DIffusion(扩散算法),这是一种相对简单的自回归模型。如果说ChatGPT背后代表的LLM大语言模型的技术惊艳度是10,那么他可能只有5。

但他目前在图像领域,是当之无愧的王者,与文本领域的GPT隔江而治,二分天下。

接下来,我们用一种新的科普方法,请大家跟随我的思路,去看看这个令人赞美的系统级产品是怎么一步步产生,我会在中间穿插讲解每个技术概念。

旅程开始之前,我们敲下一个问题:“如果我要让AI根据文字,给我输出图片”,都需要什么技术?

第一步,计算机要能够处理图像

虽然我们天天在手机和电脑上看图片/视频,但计算机的理解和我们可不一样。他们的理解和人类在不同层次:

第一层,真实世界,专业点叫模拟图片,就是人类看到,观察到的图片。

第二层,数字世界,即图片的数字化。我们经常听到的分辨率400*400,就是数字世界的表达。这意味着这是一张由1600个像素构成的图片,每个像素点用0~255的数值来表示他的颜色。当图片被数字化后,计算机才能储存、编辑、理解、计算它。

例如下面这张图,右侧的每个数字空格,与左侧的每个像素点对应,空格里的数字则代表那个像素点的亮度,通过这样的转换,图片就被数字化了。

第二步,计算机能够画画

记住这句话:对计算机而言,画画是个数学问题,而非艺术问题。

我们人类画画大概的顺序是:我有个初步想法,然后开始勾勒线条,然后填充色彩。也就是画家先有个模糊想法,然后在绘画过程中,逐步逼近心中的作品。

而计算机的绘画逻辑则不同:他基于人类的命令,进行数学上的计算,遵从概率最高的选择,画出作品(是的!和GPT一样,又是在猜概率)。

在AI的眼中,猫不是猫,而是一个有椭圆轮廓,颜色上黄色、白色、黑色,中间有个两个褐色圆形(眼睛)的东西,就好比下面这些图。

但事实上这些图片是我为了方便你们理解放的,他其实并不严谨。在计算机里,他学习到的东西连上面这些黏糊糊一大坨的图像都还不是,他学到的就是一串数字的分布规律。

就像下面这张图一样,你相信下面这张图中,绿色点其实是一张“手绘数字8”的数学表达吗?所以我们大概有一种模糊的概念即可,不要强求去想象计算机画画的过程,那是很难理解的。

第三步,找到一个合适的算法模型来画画

Diffusion的前浪们

在整个AI技术的发展过程中,针对“学习图像规律分布然后生成图像”这件事情上,涌现出了许多模型,例如GAN,VAE,normalizing flow等,但他们都有着这样那样的缺点,最终被Diffusion打败。

以GAN为例子,这是Diffusion技术出现前,图像领域最火热的模型选择。

GAN(Generative adversarial network,生成对抗网络),他的逻辑很简单:我训练两个模型,一个叫生成器(打工仔),专门负责画图,一个叫判别器(老板),专门负责评审生成器画的图到底好不好。

如果生成器画得好呢,判别器就给他发奖金,如果画得不好,判别器就给他一巴掌。

于是生成器为了赚奖金,少挨巴掌,他就会努力画得更好(努力工作),但同时还会努力尝试骗过判别器,让他以为自己画得好(摸鱼)。

而判别器则反过来,他会不断提高自己对生产器产出的判断能力,只奖励真正好的,强烈打击不好的(老板的KPI审核)。

他们之间的关系就像银行制造真币的和犯罪团伙制造假币一样,相爱相杀,共同推动印钞防伪技术提升。

但是GAN存在着若干问题:

首先,这种双核成长不是那么稳定的,有时候甲方压倒乙方,有时候乙方压倒甲方,一旦发生这种情况,整个模型就会崩溃。

其次,他的判别器负责教育生成器好好作画,那么对使用的图片质量要求就很高,不然老师自己都错了,对学生的教育就更加无从说起。

最后,生成器也有问题,他特别怕挨打,所以生成图片是极其保守的,遵循的就是少做少错原则。所以你永远无法期待他画出一个戴着鲜花组成的眼睛的小女孩(只要你的训练集中没有类似图片)。

而VAE和normalizing flow也一样存在问题。

VAE的核心机制中,需要定义一个真实后验的值,但偏偏这个值是不可达的,只能用变分后验来逼近他。重点就是这个变分后验非常麻烦。

normalizing flow 的核心机制则要求模型是可逆函数(例如y=x+1可逆,因为y=2,那么x一定是1,而y=x2不可逆,因为y=4的时候,x可能是-2/+2)。

这让他在选择模型的时候往往不能用最好的模型,因为一些好的图像神经网络是不可逆的。这就让他在画画的时候,在图像的表达上存在弱点。

好吧,方法很多,但好像都有些毛病,怎么办法呢?

新生代力量Diffusion闪亮登场

Diffusion的原理表面上理解很简单(数学推导则非常复杂,我也看不懂):

1. 前向扩散(Forward Diffusion Process),就是下图中的上半截,我们将用于训练的数据,随机添加噪点,一遍遍地添加,直到他变成一张全是噪点的图片。

2. 反向扩散(Reverse Diffusion Process),就是下图中的下半截,我们让模型将这张全是噪点的图片,给我还原成一张清晰的图。

AI模型需要在这个加噪点去噪点的过程中,学习到绘画的方法。哈哈哈是不是非常不可思议,没关系,往下看详细介绍。

在这个过程中,AI模型的训练原理如下,我标了一二三四步,大家跟随我的一起看下方的详细解释

第一步,我们随机挑选一个噪点程度,顺便把这个程度数字化(向量化)

第二步,随机到的结果是噪点程度T=14。我们就给这张照片加上对应程度的噪点,让他糊掉(必须糊成14的程度)。

第三步,把噪点程度的向量+模糊的图片一起放进神经网络,这个神经网络的学习过程和上面相反,上面是我怎么加噪点让他变成糊图,而他学习我怎么去除噪点才能让他变成美图。

第四步,学习的过程中会让模型预测出我要去除的噪点(noise)是多少的。与此同时我们是知道真正要去除的噪点值是多少(毕竟是第一步,第二步中这个噪点是我们自己添加的)。所以AI的预测噪点值就可以去和真实噪点值比较,这个差值就是loss了,你可以理解为模型预测的偏差。

循环训练,在刚开始训练的时候,loss是非常大的,但是我们的训练目标就是让loss变小,无限逼近于0。当loss成功变得非常小时,我们就成功了,模型后面每一次去做预测,都能非常准确。

当模型训练完成后,你下命令让他画画的时候,他就只会执行反向扩散过程了,即找出一张全是噪点的画,然后一步步去除噪点,直到生成作品。整个过程就像下面这张图一样。

From《Denoising Diffusion Probabilistic Model》

p.s 使用过AI绘画工具的朋友可能对里面的“步长”选项有印象,这个步长其实就是到底要求AI绘画预测多少次再出图。

理论上步长越长,图像就越不糊(去的噪点多了),质量也会越好(预测很多次,更准了)。

第四步,让计算机可以根据文字画画

在前面的步骤中,我们解决的只是“让计算机画画”,我们现在进一步解决“让计算机根据文字画画”。

我们首先面临的第一个问题是,计算机怎么知道文字和图片之间的关系呢?

比如下面这张图,我们一看就知道是牛油果,但计算机怎么知道这堆绿中带黄的东西是牛油果呢?

在这里我们再次遇到我们的老朋友OpenAI同学。他在2021年1月开源了CLIP(Contrastive Language-Image Pre-Training)。这个模型用了40亿的“文本-图像”数据来训练,确保计算机在文字描述和图像之间形成互通。

大家如果好奇这些训练数据长啥样,不妨稍微往上拖一拖看看牛油果。每张图片下会有这张图片的描述,这就是文本-图像对数据。

他的训练过程我就不多说了,和前面Diffusion的训练过程很像,AI的核心原理都是这样——你预测一个结果,我手里握着真实结果,那么这之间就会产生一个loss(偏差)。训练的过程就是让这个偏差不断变小,到最后AI每次预测结果就与真实结果几乎一致。

话归正题,OpenAI的这次开源,提供了一条多模态通道,让“以文生图”的效果得到进一步提升(以前不是没有类似的模型,但没有这个效果好)。

现在,当我们说“画一个牛油果椅子”,计算机就会将这句话通过CLIP转换成向量。并且,这个向量同时也是图像的向量,因为CLIP模型已经把图文拉到同一个维度上来理解了。

这就是让计算机根据文字画画的关键模块CLIP,他把文字表达与图片表达拉到一个维度上,使得文字Prompt能够进入Diffusion模型中,去约束图片的生成过程。

另外科普一个小知识点,当AI自己乱画,叫做“无条件图片生成任务”,当AI遵循我们的命令画画,叫“有条件图片生成任务”。文字是其中一种条件,除此以外还有音频(看音乐画图),图像(看图画图),姿势,结构等等。

第五步,计算机根据文字“快速地”画画

但这些还不够,否则AI绘画的爆火就不会从22年年初拖到22年7月了。

这是因为Diffusion虽然解决了GAN、VAE等其他图像模型的缺点,但他在诞生之初,其实也存在一个缺点:他的计算速度非常慢,出一次图动不动就是一个小时以上,很难全面推广。

这是Diffusion的工作原理造成的,因为他出图的时候,其实就是对着一张充满噪点的图反复去噪,这个过程不是一步到位的,可能要执行成千上万次,这就导致出图速度非常慢。

为此学术界做了非常多的努力,但最爆炸的成果来自EleutherAI团队所开源的Stable Diffusion。

他的解决点非常巧妙。大家还记得我们在第一步提到的真实世界数字世界吗?事实上还有更深一层的世界——隐空间(latent space)。

这个概念在AI中非常重要,因为他能进一步压缩数据量级,让机器的训练、预测速度提升。比如有一张图片他的像素是512*512=262144个像素点。现在我在不丢失重要信息的前提下,把他拉到64*64的隐空间,那么复杂度仅有64*64=4096,是原来的1.5%!

那这个隐空间的原理是什么呢?请看下图的例子

左右两张图片明明信息量差异巨大,但是我们看到右图却立马明白是什么意思(如果你不明白可以百度一下“我全都要是什么梗”)。

而隐空间(latent space)也是同样的思想,他会通过一些工具,对像素世界中的信息进行选择,只留下高质量、有价值的信息,而其余信息全部丢弃。在这种思想下,因为信息量级降低了,所以计算效率大大提升,但又不会丢失重要信息。

到了这里,我们终于凑齐了七龙珠,可以召唤神龙了!

大家结合我的步骤解释和下面这张图,一起来感受一下完整版Diffusion的工作原理:

第一步,把像素级别的图片拉到隐空间(减少计算量)

第二步,进行正向扩散,给图像加噪声(搞一张糊图出来)

第三步,把Prompt"一个牛油果椅子"转换成向量,一起参与到这个过程中

第四步,进行反向扩散,让U-net神经网络学习如何正确预测要去除的噪点,这一步会持续反复,直到U-net训练成功

第五步,预测结束后,把图片从隐空间拉回像素空间,成为人类所能理解的图片

整个过程一环扣一环,所以我们可以发现,虽然核心是Diffusion技术,但CLIP、隐空间的应用也都非常重要,所有加起来才推动了AI绘画的爆火出圈。

Diffusion的的演进方向和潜力

这一部分我会列举目前比较主流的方向,作为技术篇的补充,但不会有太多的技术解释。

大家在理解基本原理的前提下,大概了解一下技术的变化趋势,避免将思维局限在当前的AI绘画形态上,影响对行业的商业判断。

p.s 我并未每个方向都非常仔细的去搜集数据,部分方向可能存在偏差,仅供参考

可控生成

这是目前学术界发力最多的方向。

有体验过AI绘画的同学应该能理解这种烦恼:这张图还不错,但是偏偏某个细节差了点,我又没能力弄下来重新画,只能不停刷新,期望撞大运遇到完美的。

怎么解决呢?我们可以只替换出错的部分吗?当然没问题!

例如下面这张图,我对猫咪骑的单车不满意,我想换成小车,行不行呢?可以的,Prompt的过程中锁定原图,替换一下这个单词就行——这就是语义替换。

From《Prompt-to-Prompt Image Editing with Cross Attention Control》

这是怎么做到的呢?大家稍微往前回忆一点,我们说到让计算机根据文字生成图片,很关键的一个模块是CLIP来实现这种文本-图像的跨模态转化。并且文字Prompt还会持续约束着Diffusion的去噪过程。而这种可控生成其实就是在这里进行微操,从而实现类似的效果。

大家要特别关注下图中的右侧的Condition模块,他就是我们给Diffusion输入的条件,这里的条件可以是文字,图片、音频、空间结构等等,只是我们目前比较熟悉的应用是文字而已。

除此以外,你甚至可以文字+图两种条件一起上,一起来看看有趣的例子:

文字+参考图,按照线框布局生成图片

文字+参考图,限定边界生成

文字+参考图,模仿人物姿势生成

加速采样(降低成本)

这方面非常好理解,不管是Diffusion的模型训练过程,还是上线后的预测(出图)过程,反向去除噪点都是一步步去除的。

这种逐步去噪是保证效果稳定的原因之一,但也制约Diffusion的性能成本。

而加速采用就是能够解决这个问题的方法之一,他大概做的事情就是——你要去除1000步才有好效果?我给你直接干到50步!

所以大家会发现,在去年底还有Stock AI倒闭的新闻,到今年就没有任何一家AI绘画公司出问题了。像意间、PAI这样的公司,靠广告收益+订阅其实也活下来了(至少不会盈亏失衡)。

更高的图片质量

如果读者中有从去年7月以来一直持续使用的朋友,会发现AI的产出质量越来越高。

抛开模型升级的原因不提,很大一部分提升来自更优质的训练数据。

这里面一方面来自用户的作品产出,当AI作品被下载,甚至上传到作品集市,那么相当于制作了一个正样本——这是好图,AI你快拿去学习。

此外,一些二维码验证,也在做这方面的数据积累。例如下图,模模糊糊,很明显是Diffusion去噪过程的中间产物。

来自Discord的验证码

最后,一些公司已经在做专门的定向微调优化了。目前大家感受到的可能是AI绘画工具上多出了不同绘画风格可选,例如蒸汽朋克、中国画、水墨、动漫等等。

但我更期待的是是否有一些正在进行的垂直商用的图集训练。例如给他灌入海量LOGO数据,他在LOGO设计方面就会显著提升,这将有助于AI绘画真正踏入商用领域。

更强的语义理解(文本-图像)

目前体验上另一个卡点是,有时候AI不是画不出来,他是不知道我要什么。我明明说要一只粉红色的老虎,但他可能以为是粉红色背景+老虎。这方面的难题就需要靠语义理解去处理。

比如前面提到的CLIP,用40亿文本-图像数据训练出来的。如果我们用一个更强大的模型去替代它,就能够提升绘画过程中的语义准确性(其实我之前看到新闻有一个比CLIP更强的跨模态模型出现了,但是很抱歉没找到当初的资料,所以这里列不出例子)。

又比如你干脆用ChatGPT来桥接到AI绘画上,这也是一种加强语义理解的方式。当然这需要ChatGPT一起配合,目前ChatGPT的知识中应该还没有Prompt怎么写更合适的知识。

多模态的发展

Diffusion的应用正在扩展到音频、视频、3D领域,但暂时只是一种趋势,落地商用的demo比较少。我这里放几个图和链接给大家参考一下:

视频通过这个链接前往查看(需梯子)https://video-diffusion.github.io/。毕竟视频类的demo,不亲自去看,只看我这里贴图是感受不到的。

3D建模(点云图)的效果可以看看下面这张图

From 《Diffusion Probabilistic Models for 3D Point Cloud Generation》

读到这里,我们技术篇的科普+潜力介绍就结束了。

不知道你看到这里是否会认同我一直说的话——真正的AIGC浪潮,就从GPT和Diffusion两条技术栈开始,其他挂羊排卖狗肉的暂时得靠边站。

ChatGPT的魅力我已经带大家领略过了,相信Diffusion的魅力尽管弱一些,但也不会差到哪里去。

并且不管GPT 大语言模型的威力如何强大,他未来是否真的可以跨越多模态降临到图像、音频等多模态(我在前文提过这种发展方向)。

但至少在2023年这个节点,图像领域的王仍然是Diffusion。毕竟提前半年启动的数据飞轮和学术界数以百计的paper努力不是白费的。

Diffusion的商业分析

如果想看具体的场景、项目盘点,可以follow这个商业项目库,本文中不会有针对具体项目的分析。

本文中尝试的是,我日常维护更新项目时,所用的分析框架和方法,详情如下:

1. 需求明确性,需求越明确越无法忍受AI的自由创作,也越需要人类介入校正

2. 市场规模,由作品价值X需求规模影响。

3. 分析框架,将需求明确性、市场规模组成二维矩阵

4. 限制因素,补充法律版权、敏感审核这两个限制因素作为参考

5. 一点浅薄的判断,关于这个市场会往哪个方向发展

需求明确性

需求的明确性受到两方面影响:

是否能够想清楚要什么

多少人/多少场景在创作之前就已经明确知道最后落地作品的样子?

事实上甲方提需求的时候,通常都是朦胧不定的,因为她们心中只有一个概念。并不是所有人都能做到文与可的“胸有成竹”。

是否能够说清楚要什么

一方面因为图像需求的朦胧性,他的表达本身就很有困难。例如“我要一个奢华、有格调、符合品牌调性的海报”,这其实就是朦胧需求带来的表达模糊。

而另一方面是需求方能力限制下的表达模糊。比如梦到了一副作品,那个蓝色是天青蓝还是蝴蝶兰呢?那个画风是印象派还是后现代呢?饱和度是高,还是低呢?

很难,非常难,这也是画师朋友在以前最核心的技能之一。他们在内心通过自己的审美水平建立起了感性-现实之间的通道,并最终通过自己的技艺实现作品的落地。

基于上述两个因素组合起来的需求明确性从低到高是这样子的:

无条件创作

这就是Diffusion不加入CLIP的样子,即你给我生成一张作品,但我毫无要求,只要是作品就行。在现实中,这场场景的例子非常少,NFT可能算一个(只要漂亮、有艺术感就可以卖钱,不用你命题作文)。

方向条件创作

给你一个方向,例如画一张类似莫奈的画,画一只可爱的猫。这个场景就是现在AI绘画目前所完美匹配的场景。他适用于低要求的创作,例如社交货币获取,AI绘画平台作品填充,文章插图等。

限制条件创作

商业上的例子会特别常见:帮我画一个LOGO,科技风,里面一定要有潮汕牛肉丸几个字,整体色调蓝色。

这个例子中限定了LOGO,科技风,包含文字,色调等好几个条件,远高于上个层次的要求。

目前技术正在逐渐、部分地满足这个层次的需求。

完全条件创作

上个层次中条件完全穷举后即到达这个层次,例如潮汕牛肉丸要在上面,要用衬体字,必须象形写意等等,甲方爸爸想要怎么调整就怎么调整。

目前来看,短期内AI不可能是不可能实现完全条件下的创作实现,一定需要靠人类画师借助工具进行二次修改实现。

市场规模

单个作品的价值

这里的价值不是使用价值,就是交换价值,你可以用“价格”来替代理解。在AI技术的低成本碾压下,作品的价值肯定会产生断崖式下跌,但需求明确性更高的作品,会具备更高的抗贬值属性。

作品的需求规模

即这种类别的商品,有多大的需求空间。例如插画,原本用在故事绘本、日系轻小说等地方。而现在因为技术门槛降低,作品价值下跌,国内的网文,人物立绘,同人作品等场景也会产生需求,推动整体需求规模的爆发。

上述两者综合起来就是市场规模,目前来看基本的方向是价值下跌,但规模扩张,从而迎来整体市场规模的扩展。

分析框架组装

通过这两个维度的理解,我们可以在脑中建立如下图所示的模型,对每个接触到的商业机会进行判断。

大家可以发现整个图向着右上角蔓延,需求明确性和市场规模在这个框架分析下呈现正比例关系。

但这种关系可能是一种错判,因为其中的市场规模未客观测算,收集的方向也不足够。

因此本图仅供参考,无法作为知识输入,更好的用法是套用这个框架看看各类投研公司出具的分析报告。

限制因素

Diffusion的限制因素会比ChatGPT简单很多,主要围绕法律版权和敏感审核两方面

法律版权

概念上可以分为训练所用图集版权+用户生成图片版权两大类。目前存在大量的争议,没有明确结论。

模型的输入:训练图集版权

目前Diffusion原始的训练图集来自Laion(一家非营利性机构)在22年3月开源的Laion-5B(包含58.3亿文本-图像对)。其中最关键的是这个数据集中的一个子集,LAION-Aesthetics。他按照艺术性美感,对图片进行打分,其中8分以上800万张,7分以上1.2亿张。

但可想而知,这么大规模的一个数据集,肯定不全都是具备商用版权的。但目前几乎难以对这方面进行追溯定义,相关的讨论非常混乱。

他面临的本质问题是:对图像的版权定义过时了。AI模型的做法并非像素级复制,甚至非局部复制,而是复制风格、手法、要素等。这种手法有点像媒体界中流行的“洗稿”,几乎无法被追溯版权问题。

所以虽然画家中的抗议声音非常大,在这方面却无法产生太大的影响。

日本画家对mimic的抗议

模型的输出:生成作品的版权

目前有一些平台采用附加NFT的做法来保障用户生成作品的版权。但同样的,在法律层面目前没有明确的定义。

如英国,尽管是少数支持AI生成作品版权的国家之一,他对AI生成作品也有着模糊的前置限定——“完成作品创作所需安排的人”。这个所需的人,就很有意思了,写几句Prompt算所需的人吗?好像可以算也可以不算。

再例如国内,相关的著作权法中描述,“著作权法所称作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果”。因此AI肯定不拥有作品的著作权。

再看这条:“我国著作权法第十一条规定,著作权属于作者,受到著作权保护的作者只有两种:“自然人和法人或非法人组织”。那么这个作者是Prompt输入者还是开发AI模型的公司呢?

我能找到唯一相关的判例来自2020年,腾讯的dreamwriter写作的财经新闻被复制转载,腾讯提起诉讼并胜诉,获赔1500元。但这则判例中没有用户+公司这种复杂情况,只有一点点参考意义。

敏感审核

审核主要来自输入端(Prompt)和输出端(出图前审核)

Prompt部分比较简单,上个词库+小模型就能解决,比较成熟了。

输出端则会比较承压,毕竟色情和性感,调侃和涉政,其实边界还挺模糊的。常规平台做法一般都是模型+人工双保障。但AI绘画平台目前的收益很难承受得起这种人工审核的成本,所以输出端的控制会松一些。

目前比较主流的方式是通过用户协议进行责任约定,如下图

返回顶部

平台注册入口