学习用于音频分类的可分离时频滤波器组外文翻译资料-综述翻译网

英语原文共 16 页，剩余内容已隐藏，支付完成后下载完整资料

附录A 外文译文

学习用于音频分类的可分离时频滤波器组

Jie Pu¹, Yannis Panagakis²,and Maja Pantic^1,3

¹英国伦敦帝国理工学院计算机系

²希腊雅典大学信息与电信系

³Facebook人工智能和研究，伦敦，英国

摘要

最新水平的音频分类系统通常将深度神经网络应用于手工制作的特征（例如基于频谱图的表示），而不是直接从原始音频中学习特征。此外，这些音频网络有数百万个未知参数需要学习，这对计算资源和训练数据造成了巨大的需求。在本文中，我们的目标是直接从原始音频中学习音频表示，同时通过采用一种轻量级的体系结构来减轻其训练负担。我们特别建议学习可分离滤波器，它仅仅只有几个参数化的变量，即中心频率和带宽，便于训练并提供学习表示的可解释性。通过将该方法应用于两个应用中，即1）说话人识别和2）声学事件识别，验证了所提出方法的普遍性。实验结果表明，该方法在这些应用中是有效的，尤其是在训练数据数量较少的情况下。

关键字：深度学习；音频分类；可分离；滤波器组

引言

机器学习算法的成功在很大程度上取决于数据表示的选择（即特征）。实际上，合适的表示能够捕捉当前手中任务数据的潜在的解释因素。因此，学习合适的特征表示已经越来越受到机器学习、计算机视觉和信号处理社区的关注。在最近的深度学习热潮中，深度神经网络（DNNs）已经证明了其与分类器联合从原始数据中高效学习表示的卓越能力。特别是，基于卷积的神经网络（CNNs）在图像分类[1]、目标检测[2]、语音识别[3]、声音事件定位[4]仅举几例等广泛应用中显示出最先进的性能。

在音频分析任务中，以前的工作[3] [4]经常将标准CNNs应用于音频的二维表示,例如频谱图。尽管这种方法很受欢迎，但直接将标准CNNs应用在音频频谱图上存在一些缺点。首先，CNNs的二维滤波器（内核）等效地处理它们的水平（时间）和垂直（频率）轴。这是为图像像素量身定制的，但不适用于音频频谱图，因为频谱图的水平轴和垂直轴代表不同的量，即时间和频率。其次，标准CNNs在训练过程中需要学习每个滤波器的所有元素，因此需要大量的训练数据。当只有少量数据可用时，CNNs[5]学习的过滤器通常会采用不协调的形状，导致难以解释特征表示。

考虑到上面所提到的挑战，我们需要设计轻量级（即要学习的参数更少）神经网络，这种神经网络专为音频信号量身定制，并且在少量训练数据下也能很好的工作。针对计算机视觉应用第一次提出了设计轻量化网络架构方向的尝试。例如，许多研究人员考虑将大型卷积核分解为一系列较小的卷积核 [6] [7] [8]，从而大大减少CNNs中的参数数量。这些类型的结构被证明在获得的性能和它们产生的计算成本之间可以达到一个良好的平衡。在音频分析任务中，我们可以进一步减少参数。最近的一种趋势是从原始音频[9]中学习参数化的滤波器组，其中只需要学习用于音频滤波器的高级参数。具体来说，Ravanelli和Bengio [10] 提出从原始音频中学习 sinc 滤波器，只需学习两个高级参数，即低截止频率和高截止频率。 [11] 提出学习小波变换的样条滤波器组来用于大规模鸟类检测任务。张等人 [12] 提出从音频频谱图中学习长期滤波器，应用于声学场景分类和音频声源分离。

图1. 所示提出的可分离时频滤波器组概述。音频原始波形直接输入滤波器组。

第一层应用一维 Morlet 滤波器，将声学信号转换为时频来表示。

第二层使用一组二维可分离的 Morlet 滤波器来执行光谱时间分析。然后从滤波器组获得的表示输入标准 CNN 或 DNN 层以完成监督学习任务。

与上述方法不同，我们提出了一种学习可分离时频滤波器组的新方法，该方法直接将原始音频作为输入并具有轻量级网络结构。特别是，我们使用可分离滤波器，分别学习音频时频分布的频率和时间信息。这里的每个滤波器仅使用两个可学习的参数进行参数化：中心频率和带宽。这极大地促进了它的训练过程，也提高了学习表征的可解释性。

提出的方法

该方法的灵感来自于联合时频散射 [13] ，由于它可以通过二维可分离小波分解，在音频表示中提取时间和对数频率的变形不变，在音频分类上表现良好。然而，联合时频散射仅使用了固定和预定义的小波滤波器。鉴于音频分析任务的多样性和多样性，使用预定义的过滤器可能不会导致所有任务都能以最佳音频表示。实际上，有证据表明，音频滤波器的选择性调谐对于辨别听觉系统中的自然声音是很重要的[14]。换句话说，最好使用能够适应手头特定数据和应用的定制滤波器组。因此，我们提出了可分离的时频滤波器组，它可以从数据中自动学习最优的小波滤波器。

与联合时频散射类似，所提出的这一模型包含两层。第一层通过一组一维小波滤波器将声学信号转换为时频表示。在第二层，我们将一组二维可分离 Morlet 小波滤波器应用于第一层获得的时频表示。所有这些滤波器都使用两个可学习的参数进行参数化：中心频率和带宽。所提出模型的概述如图 1 所示。

数学背景和符号：如[13]，我们将一维Morlet小波表示为，将二维时频小波表示为。1 阶张量（即向量）表示为 w ，2阶张量（即矩阵）表示为 W，张量的阶数大于或等于3的表示为。我们将与 W的常规卷积表示为。

2.1 所提出滤波器组的第一层

在数学上，我们将滤波器组的第一层表示为，它由一维 Morlet 小波psi;组成，每个小波作为一维滤波器。换句话说，，其中

(1)

和，。因此。是中心频率，是控制带宽。不同于和作为固定和预定义的散射变换，我们在这里将和设置为可学习的参数，并通过训练对其进行优化。设为输入原始音频，即令第一层之后得到的结果特征图，捕获音频信号的时频内容。

2.2 提出的滤波器组的第二层

在第二层，滤波器组表示为，并且是由二维时频小波所组成的，表示为。

二维小波是时间和对数频率的两个一维 Morlets 小波的乘积

(2)

其中表示外积。，和。是中心频率，而可以控制带宽。这个定义的有两个可分离的小波和，这两个小波独立的沿时间和对数频率进行标度缩放，并分别学习声音频谱图的频率和时间信息。这一能力对于音频分类任务至关重要，因为它对时间和对数频率 [13] 的变形都提供了恒定不变性。每个一维 Morlet 小波都有两个可学习参数，因此可分离时频小波将有四个可学习参数，即这四个参数。

每个时频小波在第二层用来作为二维可分离滤波器，并且构成滤波器组张量的一个正面切片。因此，被理所当然的认为是一个维度为的三阶张量，其中 M 是第二层的时间频率小波的总和。设为输入的原始音频，那么第二层在之后生成得到结果特征图。

2.3 实现细节

在数值实验中，我们通过训练数据学习了第一层的一维小波和第二层的二维小波和将它们初始化为联合时频散射中的小波。由于这些滤波器的解析表达式在关于其参数（即 lambda;、alpha;、beta; 和 sigma;）方面是可微的，因此可以通过梯度下降等一阶的方法对它们进行优化。因此，它们可以用作 DNNs 的前端特征提取器（即前两层），并通过使用反向传播来进行学习。

音频分类任务中的标准设置是从以 16kHz采样的波形开始，并使用W=400个样本（25ms）的窗口来获取 STFT。类似地，我们模型的第一层被实现为一个卷积层，以宽度的原始波形作为输入。音频信号的最大频率（即奈奎斯特频率）为8kHz，将最小频率假设为 32Hz，所以对于，我们在第一层需要滤波器来作为扩张小波的中心频率和。这一层的卷积是零填充的，以产生相同的输出大小。为了确保可学习的参数是非负的，我们将在构造小波之前取它们的绝对值。

在我们模型的第二层，二维小波由时间小波和频率小波构造而成。通过定义和，扩张时间小波的中心频率跨越1Hz到64Hz 的范围。另一方面，通过定义和，扩张频率小波的中心频率 beta; 跨越 0.125Hz到 4Hz 的范围。给这个自旋 s = plusmn;1 指定的振荡方向（向上或向下），我们在上频率小波的数量是，最后在这一层产生的小波滤波器数量是。

2.4 所提出的滤波器组的特性

所提出的可分离时频滤波器组具有三个显著的特性：1）可分离性：这一提出的滤波器组在第二个且具有可分离滤波器，它分别处理音频的时频表示的两个轴。2）轻量级结构，即参数少：与需要学习滤波器所有元素的标准CNN层相比，所提出的滤波器只有两个参数（即中心频率和带宽）。这提供了种可能性是从最少的训练数据中导出非常有选择性的过滤器的。 3）可解释性：所提出的过滤器只有高级参数，这些参数具有明确的物理意义，因此在训练后提供可解释的表示。

实验

本节对所提出的滤波器组在实际应用中进行了全面的实验评估。进行了两组实验，总结如下：

说话人识别。首先在说话人识别任务中对所提出模型的性能进行评估，该任务旨在正确分类给定语音的说话人。把分类结果与其他最先进的方法进行了彻底的比较：具有 MFCCs 的 DNNs、具有 FBANKs 特征的 DNNs [15]、具有联合时频散射的 DNNs [13]、具有原始波形的 CNNs 和 SincNet [ 10]。这一所提出的模型被证明比所有这些比较的方法都有更大的改进。
声学事件识别。 为了评估所提出的模型捕获大规模时频结构的能力，我们进行了声学事件识别实验。分类结果与基线和其他最先进的方法：Delta-MFCCs [16]、RG [17]、LTT [18]、RNH [19]、Ensemble [20]、SoundNet [21] 和 -Net [22] 进行了彻底的比较。

3.1 说话人识别

首先，所提出的模型在说话人识别任务中进行估计，数据来自于 TIMIT 数据集 [23]。数据集的预处理来自于SincNet [10]。

我们直接将原始波形输入到所提出的模型中，其中每个语音句子被分成 200毫秒的片段（帧），进行10毫秒重叠。网络首先通过应用softmax分类器执行帧级的说话人分类，并且提供一组目标说话人的后验概率。然后通过对帧的结果进行平均来得到句子级别的分类。

对于网络架构，前两层应用采用第 2、3 节所建议的可分离时频滤波器组，在第一层使用 65 位滤波器，在第二层使用 84 位滤波器。网络架构的其余部分保持与 SincNet [10] 相同。所提出的滤波器组的参数使用联合时频散射进行初始化，而网络的其余部分使用广泛使用的“Glorot”初始化方案[23]进行初始化。

表 1. 说话人识别任务的分类错误率 (CER%)。最佳性能以粗体显示。

Model	CER (%)
Raw Waveforms-CNN	1.65
MFCC-DNN	0.99
FBANK-DNN [15]	0.86
Time-frequency Scattering-DNN [13]	0.86
SincNet [10]	0.85
Proposed Model	0.79

所提出的模型与基线和其他最先进的方法进行了彻底的比较。特别是，使用 Kaldi 工具包 [15] 计算了39 次MFCCs 和40次FBANKs。然后使用 DNN 对这些特征进行说话人识别。此外，我们考虑了一个由原始波形反馈输送的标准 CNN，它简单地用两个标准卷积层替换了提议的滤波器组。通过对联合时频散射 [13]其特征的提取和进行比较，然后反馈输送到 DNN 中。

表 1 报告了所提出模型的分类结果及其比较。我们使用分类错误率 (CER%) 作为评估标准，其中的值越低代表有着更好的结果。正如我们从表中看到的，所提出的模型优于其他所有方法，具有最佳的CER值为0.79%。所提出的模型和由原始波形馈送的标准 CNN 之间的差距特别大，这证实了可分离时频滤波器组的有效性。与 SincNet 相比，我们所提出模型的优势得到了进一步的证明，因为我们所提出的两层滤波器组能够捕获 SincNet 无法捕获的联合时频结构。

3.2 声学事件识别

在本节中，我们评估了在声学事件

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[603957]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

学习用于音频分类的可分离时频滤波器组外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章