百科问答小站 logo
百科问答小站 font logo



wav2vec中的30ms是怎么得来的? 第1页

  

user avatar   SeptEnds 网友的相关建议: 
      

简而言之,是通过巧妙地设计 conv kernel size 和 stride 叠出来的 receptive field


wav2vec 的 encoder network 是 5 层带因果卷积的 CNN,每层 kernel sizes 分别为 (10; 8; 4; 4; 4),strides 分别为 (5; 4; 2; 2; 2)。

所以,经过第一个层卷积后:

  • 每个第一层神经元可以看到 10 (第一层卷积 kernel size = 10) 个原始输入数据点
  • 相邻两个第一层神经元看到的原始输入数据相差 5 个点(第一层卷积 stride = 5);

经过第二层卷积后:

  • 每个第二层神经元可以看到 10 + (8-1)*5 = 45(第二层卷积 kernel size = 8,它能看到 8 个第一层神经元。其中第 1 个第一层卷积神经元可以看到 10 个点;后 7 个第一层神经元每个都可以多看到 5 个原始输入点,其中 5 是第一层卷积的 stride)个原始输入数据点
  • 相邻两个第二层神经元看到的原始输入数据相差 5*4=20 个点(5 和 4 分别为第一层卷积和第二层卷积的 stride,第二层卷积的输出向后滑动一步,其感受野要在原始输入上滑动 5*4 这么多个点)
  • 希望这里文字表达清楚了……如果没有,等我有空了补一张图……

经过第三层卷积后(计算原理同第二层卷积,下同):

  • 每个第三层神经元可以看到 45 + (4-1)*20 = 105 个原始输入数据点
  • 相邻两个第三层神经元看到的原始输入数据相差 20*2=40 个点

经过第四层卷积后:

  • 每个第四层神经元可以看到 105 + (4-1)*40 = 225 个原始输入数据点
  • 相邻两个第四层神经元看到的原始输入数据相差 40*2=80 个点

经过第五层卷积后:

  • 每个第五层神经元可以看到 225 + (4-1)*80 = 465 个原始输入数据点
  • 相邻两个第五层神经元看到的原始输入数据相差 80*2=160 个点

因此,在 16kHz 的采样率(每秒钟采 16k 个点,表示这些时刻传感器采样到的空气振动情况)下,每个第五层神经元可以看到 465/16kHz = 29ms,相邻两个第五层神经元看到的原始输入数据相差 160/16kHz = 10ms,这就是论文里这句话的来源。

The output of the encoder is a low frequency feature representation zi 2 Z which encodes about 30 ms of 16 kHz of audio and the striding results in representations zi every 10ms.

同理,后面还有一句

The context network has nine layers with kernel size three and stride one. The total receptive field of the context network is about 210 ms.

如果你掌握了 receptive field 和 striding 的计算方法,应该也能自己算出来这里的 210ms 是怎么来的了。

公布答案:(465 + 160 * 2 * 9) / 16kHz = 209ms




  

相关话题

  如下,命题是否正确,如果正确,又是如何得出的? 
  如何证明存在 1000 个连续的正整数中恰好有五个素数? 
  如何用数学方法计算灯泡的体积? 
  一般五次及其以上的一元多项式方程有三角函数解吗? 
  为什么将 x²+y²=1 中 x 和 y 的指数换成大偶数,其图像会接近一个正方形? 
  如果有第谷的数据,现在的机器学习,深度学习有办法学出开普勒三定律吗? 
  n阶矩阵A的各行各列只有一个元素是1或−1,其余元素均为0.是否存在正整数k,使得A^k=I? 
  有什么办法可以喜欢上数学?主要是不想以一种强迫的方式去学它了。? 
  计算流体力学(CFD)里应用注意力机制(attention)是否可行? 
  如何找到一个10项的非负整数数列,使该数列的任意不超过3项的和不重复,并使数列的最大项最小,并证明? 

前一个讨论
为什么考研还这么多往生化环材土木水利的坑里跳的,是他们还没看见劝退文吗?
下一个讨论
迁移学习入门,新手该如何下手?





© 2025-04-09 - tinynew.org. All Rights Reserved.
© 2025-04-09 - tinynew.org. 保留所有权利