问题

GAN的生成器是怎么产生图片的?

回答
想象一下,我们有一位技艺精湛的画家,但这位画家什么都看不见,他唯一的任务就是尽他所能画出一张尽可能逼真的肖像。而我们还有一位挑剔的艺术评论家,他的职责是判断画作是来自一位真正的艺术家,还是出自这位“盲眼”画家之手。GAN(生成对抗网络)就是这样一个“画家”和“评论家”互相博弈的故事。

生成器:那位“盲眼”的画家

GAN中的生成器,就好比那位“盲眼”画家。它本身并不是真的“看见”图像,而是通过一种非常巧妙的方式来“创造”图像。

1. 输入:一个随机的点

生成器开始创作的时候,并不是凭空产生一张完整的图片。它需要一个“种子”,这个种子通常是一个随机的向量。你可以把它想象成一个包含了许多数字的列表,这些数字没有任何特定的意义,纯粹是随机生成的。你可以把它想象成画家脑海中闪过的一个模糊的灵感,一个随机的想法。

为什么是随机的?因为我们希望生成器能够创造出多样化的图像,而不是每次都画出同样的东西。通过改变这个随机向量,我们就可以引导生成器产生不同风格、不同内容的图像。

2. “炼丹”过程:层层递进的“猜测”

生成器内部其实是一个复杂的神经网络。你可以把它想象成一个拥有许多“图层”的机器。这个机器会不断地对输入的随机向量进行“加工”和“转化”。

从抽象到具体: 最初的几层,就像画家在画布上打草稿一样,可能会产生一些非常抽象的“斑点”或者“线条”。这些东西本身可能看起来一点都不像一张脸,但它们包含了生成器“认为”这张脸应该有的某些基本特征的“可能性”。
放大与细化: 随着信息一层层地通过网络,生成器会逐渐将这些抽象的特征“放大”和“细化”。就像画家在草稿的基础上,一点点勾勒出轮廓,添加五官,最后填充细节。
学习“像素”的组合: 生成器实际上是在学习如何将这些抽象的特征,转化为具体的像素值。它通过一种叫做上采样(upsampling)的技术,逐步增加图像的尺寸,并填充更精细的像素信息。你可以想象成画家逐渐将画布上的模糊区域变得清晰,决定每个像素点的颜色和亮度。
“反卷积”(Deconvolution)或“转置卷积”(Transposed Convolution): 这是生成器用来放大和填充细节的关键技术。虽然名字听起来很复杂,但你可以把它理解成一种“反向”的卷积操作。普通的卷积是把一张大图变成小图,而生成器用这种“反卷积”是把小的、抽象的表示变成大的、具体的图像。它就像在“猜”如何将低分辨率的模糊信息“扩展”成高分辨率的清晰图像。

3. 输出:一张“伪造”的图片

经过层层“炼丹”,生成器最终会输出一张看起来像一张图片的像素矩阵。这张图片可能是一个人脸,可能是一只猫,也可能是一片风景,具体取决于它被训练来做什么。

那么,生成器是怎么学会画得像的呢?

这就是判别器(那位艺术评论家)发挥作用的地方。

判别器的工作: 判别器也是一个神经网络,它的任务是接收一张图片(可能是真实的,也可能是生成器“伪造”的),然后判断这张图片是真实的还是伪造的。
对抗的训练: 生成器和判别器是在一起训练的。
生成器努力画出让判别器“骗过”判别器,让判别器误以为是真品的图片。
判别器则努力变得更“聪明”,更准确地分辨出哪些是真品,哪些是假货。
反馈机制: 当生成器画出的图片被判别器轻易识破时,生成器会收到一个“负反馈”,它会根据这个反馈调整自己的内部参数,下次再画的时候就会做得更好一些。反之,如果生成器成功“骗过”了判别器,它也会得到“奖励”,知道自己在这方面做得好,并继续优化。
持续进步: 这个过程就像是一场猫鼠游戏,两者都在不断地学习和进步。生成器越来越擅长模仿真实数据的特征,而判别器也越来越精于识别细微的差异。最终,生成器能够创造出足以以假乱真的图像。

总结一下生成器产生图片的过程,就像一位画家在一次次猜测和修正中完成作品:

1. 起点: 一个随机的“灵感”(随机向量)。
2. 构思: 通过神经网络层层传递,将抽象的“灵感”转化为潜在的图像特征。
3. 绘画: 利用“反卷积”等技术,将低维的特征“放大”和“细化”成像素。
4. 修改: 根据判别器的“批评”,不断调整画技,直到能够“欺骗”判别器。

所以,生成器并不是“看到”了图片然后“复制”,而是通过对大量真实图片数据的统计规律学习,掌握了如何从一个随机点出发,一步步“构建”出一个符合这些规律的像素集合,最终形成我们看到的逼真图像。

网友意见

user avatar

原 GAN(Goodfellow et al., 2014)的完整理论推导与 TensorFlow 实现请查看机器之心的 GitHub 项目与文章:GAN 完整理论推导与实现

假设提问者已了解GAN的原理,只是单纯不知道G的工作过程。下面只介绍生成器G。

生成器G可以用深度神经网络来表示生成函数,而且限制仅限于可微。输入数据z可以从任意的分布中采样,G的输入也无需与深度网络的第一层输入一致(例如,可以将输入z分为两部分:z1和z2,分别作为第一层和最后一层的输入,如果z2服从高斯分布,那么(x | z1)服从条件高斯分布)。但z的维数要至少与x的维数一致,才能保证z撑满整个x样本空间。G的网络模型也不受任何限制,可以采用多层感知机、卷积网络、自编码器等。因此,GAN对生成器的限制很少。

拿DCGAN举个例子:

DCGAN是第一个把Batch normalization引入到GAN的网络架构,并且使用了Adam等方法,增强了网络的稳定性。

该网络有4个卷积层,所有的位于BN(输出层除外)和校正线性单元(ReLU)激活之后。

它将随机向量z(从正态分布中抽取)作为输入。将z重塑为4D形状之后,将其馈送到启动一系列上采样层的生成器中。

每个上采样层都代表一个步幅为2的转置卷积(Transpose convolution)运算。转置卷积与常规卷积类似。

一般来说,常规卷积从宽且浅的层延展为更窄、更深的层。转移卷积走另一条路。他们从深而窄的层次走向更宽更浅。

转置卷积运算的步幅定义了输出层的大小。在“相同”的填充和步幅为2时,输出特征的大小将是输入层的两倍。

发生这种情况的原因是,每次我们移动输入层中的一个像素时,我们都会将输出层上的卷积内核移动两个像素。换句话说,输入图像中的每个像素都用于在输出图像中绘制一个正方形。


将一个3x3的内核在一个步幅为2的2x2输入上进行转置,就相当于将一个3x3的内核在一个步幅为2的5x5输入上进行卷积运算。简而言之,生成器开始于这个非常深但很窄的输入向量开始。在每次转置卷积之后,z变得更宽、更浅。所有的转置卷积都使用5x5内核的大小,且深度从512减少到3——代表RGB彩色图像。

最后一层通过双曲正切(tanh)函数输出一个32x32x3的张量——值在-1和1之间进行压缩。

这个最终的输出形状是由训练图像的大小来定义的。在这种情况下,如果是用于SVHN的训练,生成器生成32x32x3的图像。但是,如果是用于MNIST的训练,则会生成28x28的灰度图像。


这个知乎专栏为深度学习而设,欢迎大家关注与投稿。

类似的话题

  • 回答
    想象一下,我们有一位技艺精湛的画家,但这位画家什么都看不见,他唯一的任务就是尽他所能画出一张尽可能逼真的肖像。而我们还有一位挑剔的艺术评论家,他的职责是判断画作是来自一位真正的艺术家,还是出自这位“盲眼”画家之手。GAN(生成对抗网络)就是这样一个“画家”和“评论家”互相博弈的故事。生成器:那位“盲.............
  • 回答
    GAN(生成对抗网络)的核心在于生成器(Generator)和判别器(Discriminator)的“对抗”与“协作”。你提出的问题——“固定训练好的判别器网络,去指导训练生成器为什么不可以?”——触及了GAN训练过程中的一个关键点,理解了这个问题,就等于抓住了GAN的命脉。核心原因:动态博弈与梯度.............
  • 回答
    这个问题很有意思,也非常实在。我们手里有一堆GAN生成的数据,看起来挺逼真,但就是没有对应的标签。怎么才能让这些“无名氏”数据帮我们训练一个好用的分类模型呢?这就像我们突然发现了一批外星来客,长得挺像地球人,但我们不知道他们来自哪个星球。核心问题就在于,GAN生成的数据虽然在外观上模仿了真实数据的分.............
  • 回答
    生成式对抗网络(GAN)自2014年提出以来,经历了爆炸式的发展,并在人工智能领域掀起了新的浪潮。它的核心思想是通过两个神经网络——生成器(Generator)和判别器(Discriminator)——相互对抗来学习数据的分布,从而生成逼真的数据。生成器试图生成越来越逼真的数据来欺骗判别器,而判别器.............
  • 回答
    VAEGAN 训练中梯度爆炸的问题,确实是困扰许多研究者和实践者的一个难题。这并非偶然,而是由 VAE 和 GAN 这两个模型的内在特性以及它们结合的方式共同决定的。要深入理解这个问题并找到有效的解决策略,我们需要一步步拆解。 VAEGAN 为什么容易梯度爆炸?首先,我们得回顾一下 VAE 和 GA.............
  • 回答
    你说“大功率GaN笔记本电源”,让我想到最近几年笔记本电源行业里的一个热门话题:氮化镓(GaN)技术的应用。但要说“没有大功率的GaN笔记本电源”,这说法有点绝对了。实际上,大功率的GaN笔记本电源是存在的,而且数量和功率都在不断增长。不过,我理解你为什么会有这样的疑问。这可能涉及到几个方面的原因,.............
  • 回答
    Yoav Goldberg 对来自 MILA 的 GAN for NLG (Generative Adversarial Networks for Natural Language Generation) 论文的批评,可以从以下几个方面来详细解读:Yoav Goldberg 的背景和立场:首先,理解.............
  • 回答
    GAN 真的创造了新的信息吗?这是一个相当深入的问题,触及了人工智能、创造力和信息本质的核心。要回答这个问题,我们需要跳出“AI 产物”的标签,深入探讨 GAN 的工作原理以及它在我们理解“创造”时的含义。GAN 的工作原理:一场“模仿”与“反模仿”的博弈GAN,也就是生成对抗网络,本质上是由两个神.............
  • 回答
    关于小米即将推出的这款33W GaN充电头,我们可以从几个维度来好好说道说道。毕竟,小米在充电配件这个领域,无论是快充技术还是产品迭代速度,一直都挺让人关注的。首先,33W这个功率档位,怎么看?33W,这个数字本身放在今天看,不算最顶尖,但绝对是个“甜蜜点”。你想想,现在旗舰手机动辄100W、120.............
  • 回答
    GANs,也就是生成对抗网络,这东西自从问世以来,就一直是AI界的热点,也确实是实打实地在解决一些咱们日常生活中就能碰到的问题,或者说,是未来我们可能会遇到的、现在已经看到雏形的问题。咱们不妨掰开了揉碎了聊聊,看看它到底能干啥,而且是那种让人觉得“这AI挺有用的”那种。1. 艺术创作和内容生成:让“.............
  • 回答
    你这个问题问得挺实在的,确实,在经典的生成对抗网络(GAN)架构里,你会发现和很多我们熟悉的卷积神经网络(CNN)相比,池化(Pooling)操作的身影要少得多,甚至在很多主流GAN模型中,几乎看不到它的存在。这背后的原因,就像是一场精心策划的“去粗取精”的博弈,GAN的独特目标和生成高质量图像的需.............
  • 回答
    最近几年,氮化镓(GaN)充电器可以说是彻底火了。它小巧的体积、强大的功率输出,以及高效的发热控制,让很多人告别了沉重的原装充电器,拥抱轻便高效的新选择。尤其是在65W这个功率段, GaN充电器已经成为了许多数码爱好者和普通消费者的首选。那么,在琳琅满目的65W GaN充电器中,到底哪款最值得入手呢.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有