做 个收废品网站,漫威网页制作教程,怎么建设国外网站,百度产品推广人工智能生成文字、图片、声音的方法 生成的本质生成的策略文字AR (Autoregressive Generation)图像和视频 NAR(Non-Autoregressive Generation)解决NAR生成品质低的问题 AR NAR 生成的本质
文字、图像、声音的生成的本质#xff0c;就是给模型一个输入#xff0c;模型把基… 人工智能生成文字、图片、声音的方法 生成的本质生成的策略文字AR (Autoregressive Generation)图像和视频 NAR(Non-Autoregressive Generation)解决NAR生成品质低的问题 AR NAR 生成的本质
文字、图像、声音的生成的本质就是给模型一个输入模型把基本的单位token pixel sample排列好
文字。这部分之前的文章讲过很多次了生成文字的时候是把输入切分成token作为模型的输入然后输出然后把输入又作为图片。图片是由像素构成的每个像素可以有多少个颜色是由每个像素由多少bit 决定。比如 8位色表示一个像素由256个颜色构成16位色表示一个像素由65536个颜色组成。声音。它是由取样点组成的。一秒取样16000个点就表示取样率为16kHZ听起来正常的声音取样点都要超过24kHZ以上
生成的策略
文字AR (Autoregressive Generation)
我们讲过很多次了每次生成输出会作为下一次的输入然后继续输出这种方式就是 Autoregressive Generation
图像和视频 NAR(Non-Autoregressive Generation)
图像和视频当然也可用AR的方式生成出来只不过产生的是像素和采样点每次接龙的也是像素和采样点但是当今很少的模型会用AR的方式生成为什么呢比如1024*1024的图片这是100万的像素这意味着要接龙100万次而且每次都要顺序的生成。所以图像和视频都是采用NAR(Non-Autoregressive Generation)的方式 模型虽然运算的总量不会减少但是它可以平行的计算出所有的基本单位这样可以大幅加速图像的生成的速度。 你可能会说那既然NAR这么好为社么文字生成不用这个呢因为它也有弊端因为NAR的生成缺失了输出某部分的关联它不是基于上一部分的输出做的输出所以就很有可能出现位置一和位置二生成的信息完全不想关生成的效果并不好。 同样图像和视频的生成也存在效果不佳的问题因为你告诉模型画一只狗也许位置一和位置二都在画狗但是一个想的哈士奇一个想的是田园犬画出来就是四不像了。
解决NAR生成品质低的问题
从上面的论述我们不难发现它只所以两次生成的可能不一致因为两次位置的生成完全没关联我们可以设置一种关联用这种关联控制这两次 生成的方向得是一致的比如这个向量里边告诉这些位置我要画的是田园犬在公园奔跑这样要画的方向就是一致的了。这种关联在模型就是一个向量VAE GAN等都是这种做法每次除了输入以外还要单独生成一个向量来控制所有位置的输出。
AR NAR
还有一种生成方法就是先用Autoregressive Generation的方法生成一个精简的版本再用NAR生成精细的版本这样就解决了关联和速度的问题。 那怎么生成这个精简版本呢 第一步就是使用Encoder和Decoder先是压缩输入图片生成向量然后这个向量输入Decoder再生成输入的这个图片这两个压缩前和解压缩后图片生成的越像越好
第二步 Autoregressive只需要产生压缩的版本就好Decoder还原成解压缩的版本 视频也是同样的方法但是这个压缩并没有压缩很大曾经有人写过论文1616的图片可以压缩到11依然可以还原到原图片。但是视频依然很大于是产生了另外一种方法那就是多次的生成