基于音色和调制特征的音乐情绪自动分类外文翻译资料

 2023-07-12 10:07

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


附录A 译文

基于音色和调制特征的音乐情绪自动分类

摘 要

近年来,许多基于内容的音乐分类方法发展了短时音色和长期调制特征。然而,调制分析中的两个操作可能会平滑有用的调制信息,这可能会降低分类性能。为了解决这个问题,本文提出了使用声学频率和调制频率的二维表示来提取声学频率和调制频率的联合特征。然后,根据每个联合频率子带的频谱计算长期联合频率特征,如声调制谱对比度/波谷(AMSC/AMSV)、声调制谱平坦度测量(AMSFM)和声调制谱峰值测量(AMSCM)。通过结合所提出的特征,以及MFCC的调制谱分析和短期音色特征的统计描述符,这种新的特征集在统计意义上优于以前的方法

关键词:音乐情绪分类、调制谱图、基于倍频程的光谱对比度/波谷、光谱平坦度/波峰测量

介绍

随着网络(如7Digital)和个人设备上数字音乐的快速增长,管理大型音乐收藏已成为一个重要且具有挑战性的问题[1]。改善音乐收藏的组织和管理通常需要为每个音乐文件附加各种元数据。传统的元数据标签,如艺术家、专辑和标题,不足以满足某些应用[2],如音乐治疗。其他标签(如music mood)更有用,它描述了音乐片段固有的情感表达[3]。

1.1 情绪模型与识别

从不同的学科,包括心理学、心理学、音乐学和音乐信息检索,有大量的工作致力于音乐与情感之间的关系建模[4],[5]。大多数提出的情感模型属于范畴方法或维度方法[6]。分类方法将情绪表示为一组彼此明显不同的类别。例如,埃克曼[7]根据人类的面部表情,提出了六种基本情绪类别:愤怒、恐惧、快乐、悲伤、厌恶和惊讶。另一个著名的分类方法是赫夫纳的情感清单[8],其中发现了八组情感形容词,并将它们排列成一个圆圈如图1。每个簇都包含相似的形容词,“相邻簇的含义以累积的方式变化,直到在相反位置形成对比”。胡和唐尼[9]还通过对《全音乐指南》中音乐的情感标签进行聚类,得出了五种情感类别如表1。自2007年以来,这种情绪分类法已用于年度MIREX音频音乐情绪分类任务。(关于本次比赛的更多细节,请参见第4.1节。)

情绪

活泼、热情、自信、喧闹、吵闹

开朗、活泼、有趣、甜美、和蔼可亲/脾气好

辛酸的、有文化的、渴望的、苦乐参半的、秋天的、沉思的

愚蠢、幽默、活泼、古怪、异想天开、诙谐、讽刺

热情、好斗、紧张/焦虑、强烈、易变、发自内心

表1 MIREX音频情绪分类竞赛中使用的情绪类别。

图1 Hevner的八组情感术语

虽然分类方法主要侧重于区分不同的情绪和音乐,但维度方法在少数情绪维度(通常为2或3)上描述情绪,旨在代表人类的内部情绪。一个著名的情绪模型是Russell的环丛模型[10],该模型由价和觉醒两个维度内的圆形结构组成,如图2所示,其中反向相关的情绪被放置在一个圆圈中。通过对28个情感因素进行标度,获得了这种价唤醒、圆形结构安排的支持性证据[11],[12]。

图2 二维价唤醒情绪空间

由于一首音乐作品可能会引发不止一种情感,因此分类方法可以归结为一个单一的标签分类问题[14], [15]或多标签分类问题[16]。另一方面,量纲方法可以表述为一个回归问题[17]因为输出是一个可以在情感空间中持续移动的点。无论使用的是分类方法还是维度方法,都需要有效的特征集。因此,在本文中,我们致力于开发一个更好的特征集来提高单标签音乐情绪分类问题的性能。识别出的特征也可用于量纲方法。

1.2 音频功能

基于内容的音乐分类提出了许多音频特征。一般来说,我们可以大致将音频功能分为短期或长期[18]。短期特征(例如,捕获音频信号的音色特征)通常从短时间窗口(也称为帧)中提取。广泛使用的音色特征包括过零率、光谱质心、光谱通量、光谱衰减、光谱偏斜、光谱峰度、频率倒谱系数(MFCC)、基于倍频程的光谱对比度(OSC)[19],[20],频谱平坦度测量(SFM)[21]、频谱峰值测量(SCM)、MPEG7归一化音频频谱包络(NASE)[22]等。

另一方面,长期音频特征通常是通过聚合短期特征生成的,长期音频特征通常描述音乐片段的时间演变或捕捉人类感知的音乐的固有特性。人们提出了几种方法来聚集时间特征:统计矩[23],熵或相关性、调制频谱分析等。用于揭示人类对音频特性感知的长期特征包括节奏[24]、旋律和节奏。一旦从不同情绪的音乐片段中提取出音频特征,我们的下一个任务就是构建用于情绪分类的分类器。有几种监督学习方法被提出用于各种音乐分类,包括高斯混合模型(GMM)[25],隐马尔可夫模型(HMM)、Adaboost[26]、线性判别分析(LDA)、k-最近邻分类器(KNNC)和支持向量机(SVM)[27]。

1.3 基于长期调制的特征

虽然使用不同的分类器会影响音乐分类的准确性,但已证明特征集对准确性有更显著的影响。因此,最近关于音乐分类的一些工作集中于发现长期的辨别特征[28]-[30]一种代表性的方法是Lee等人的方法,用于分析从短时间帧中提取的音色特征的调制谱如图3。从音频帧中提取短时音色特征,如MFCC和OSC。这些基于帧的音色特征被分割成纹理窗口。为了捕捉这些音乐特征的时间变化,沿纹理窗口的每个特征维度应用快速傅立叶变换(FFT)以获得特征谱图。通过这种方式,频谱缓慢和快的音乐特征分别在低和高调制频率下表示为非零项。通过对所有纹理窗口获得的特征谱图进行平均,进一步建立了一个具有代表性的特征谱图。然后在每个调制子波段内计算调制光谱对比/谷(MSC/MSV),反映了音乐中节奏的强度。最后,计算MSC和MSV矩阵的每一行和每一列的均值和标准差。然后,我们可以将这些统计特征连接起来,为每个音乐剪辑形成一个紧凑的特征向量。

图3 从音乐剪辑中提取调制特征的流程图。

然而,在Lee等人的方法中,平均过程(计算具有代表性的特征谱图)和总结操作(计算MSC/MSV矩阵的平均值和标准差)很可能会平滑有用的调制信息,这可能会降低分类性能。为了解决这一问题,本文提出了利用联合频率表示计算的联合频率特征,该特征定义为声频率和调制频率的二维表示[31]。这些联合频率特征,包括声调制频谱对比度/谷(AMSC/AMSV)和声调制波谱平坦度/峰值测量(A MSFM/AMSCM),是根据每个联合频率子带的频谱计算出来的。在不计算特征谱图的平均值和MSC/MSV矩阵的统计描述符的情况下,所提出的特征保留了更多的调制信息,以便更好地分类。

1.4 贡献

本文的主要贡献可以总结如下。

  1. 我们提出了一个音乐情绪分类的特征集,它结合了MFCC、OSC和SFM/SCM的调制谱分析和短期音色特征的统计描述符。通过对支持向量机使用这些特性,我们提交给mirex2011音频情绪分类任务的文件排名第1。事实上,从2008年到2014年,提交的任务优于所有其他提交的任务,这表明拟议功能集的优越性。
  2. 此外,基于上述特征集的一部分,我们还提出了另一个新的特征集,该特征集结合了新提出的联合频率特征(包括AMSC/AMSV和AMSFM/AMSCM),以及MFCC的调制谱分析和短期音色特征的统计描述符。在三个情绪数据集上进行的实验表明,提出的特征集甚至比我们提交的MIREX 2011具有统计学意义

本文的其余部分组织如下。第2节概述了所提出的音乐情绪分类系统。使用的音频功能,详见第3节。我们提交给mirex 2011音频情绪分类比赛在第4节, 提交的是基于Lee等人的调制谱分析,以及支持向量机短期音色特征的统计描述符。在第5节中介绍了所提出的联合频率特征。所提出的联合频率特征和Lee等人的调制特征见第5.2节。第6节对上述特征的实验结果进行了讨论。最后,我们总结了这项工作,并在第7节中讨论了未来的工作。

系统概述

图4展示了对于短期音色特征的提取,从音频帧中计算了统计频谱描述符(SSD)、MFCC 、 OSC和SFM/SCM。然后,我们计算一个音乐剪辑的所有帧上沿每个特征维度的平均值和标准差,以获 得每个音乐剪辑的紧凑特征向量。为了提取基于长期调制的特征,我们要么对MFCC、OSC和SFM/SCM(在我们提交的MIREX 2011中使用)进行调制光谱分析,要么从联合频率表示(在扩展实验中使用,如第6节所述)计算联合频率特征。最后,我们将这些短期音色特征的统计描述符与基于长期调制的特征连接起来。在测试阶段,从一个测试音乐剪辑中提取出相同的特征集;然后,我们使用预先训练好的支持向量机来对测试音乐剪辑进行分类。

图4 音频情绪分类系统的流程图

音频特征提取

本节首先描述短期音色特征,然后是长期调制频谱分析。

3.1 短期音色特征

为了可靠地捕获音频信号的频谱特性,音乐剪辑通常被分为短时间帧,在这些帧内可以假定信号是静止的。在这项研究中,我们将音乐剪辑分割成46个ms帧(1024个样本,样本率为22,050Hz),重叠率为50%。每一帧都被预先强调,然后乘以一个汉明窗口来处理振铃效应。然后使用FFT进行光谱分析。为了测量音频信号的频谱分布,统计频谱描述符。本研究还使用了三种类型的音色特征(包括MFCC、OSC和SFM/SCM),这些特征已被证明在音乐分类中是有效的。

  • SSD(统计频谱描述符)

SSD由光谱质心(SC)、光谱通量(SF)、光谱滚动(SR)、光谱偏度(SS)和光谱峰度(SK)组成。这些特征通常用于测量音频信号的光谱形状、光谱变化和光谱分布。关于这些特性的更多细节可以在[1]和[20]中找到

  • MFCC(倒频谱系数)

MFCC最初被提出用于语音处理,由于其能够对音频信号[32]的主观频率内容进行建模,现在已成功地用于语音识别和音乐分类。计算MFCC的步骤可以在[28]中找到。注意,虽然在语音表示中通常使用13维的MFCC,在这里,我们使用20维MFCC来跟踪的工作[28]。我们还使用了每个帧的能量,因为发现它对音乐内容的分类很有用。

  • OSC(基于倍频程的光谱对比度)

提出了OSC来表示音乐信号的光谱特性。MFCC是通过平均每个mel尺度滤波器的光谱分布计算的,OSC考虑了每个八度尺度滤波器中的光谱峰(SP)、光谱谷(SV)及其差异。一般来说,SP表示谐波分量,SV对应于频谱中的非谐波分量或噪声。SP和SV之间的差异大致反映了音乐信号中的相对光谱分布。

为了计算OSC,我们使用基于倍频程的带通滤波器(如表2所列)将频谱划分为几个子带。假设第a个子带内的幅度谱为(,,...,)其中表示第a子带内FFT频率箱的数量,1le;ale;A(本研究中A为8)。在这里,不失一般性,我们可以假设这些光谱是按降序排列的。然后,为了确保这些提取的特征是稳定的,我们通过平均最大alpha;百分比光谱和最小alpha;百分比光谱中的值来估计光谱峰和光谱谷的强度,如下所示

(1)

(2)

过滤器编号

频率范围(Hz)

1

2

3

4

5

6

7

8

[0,100]

(100,200]

(200,400]

(400,800]

(800,1600]

(1600,3200]

(3200,6400]

(6400,11025]

表2 倍频程带通滤波器的频率范围(采样率22 050 Hz)

其中alpha;是一个邻域因子(本研究中为0.2,与[28]中使用的相同)。然后计算光谱对比度为光谱峰与光谱谷之间的差值:

(3)

在[18]和[28]之后,使用一个由所有子带的光谱谷和光谱对比度组成的特征向量来表示从音频帧中提取的OSC特征。

  • SFM/SCM(光谱平坦度测量/光谱波峰测量)

提出了SFM/SCM来测量光谱的噪声度(或平整度)和正弦度。与OSC类似,在本研究中,SFM/SCM也在每个八标度子波段内计算。SFM定义为幅度谱的几何 平均值与算术平均值之比

(4)

其中,i是第a个子波段的第i个星等谱。SFM接近1的音频信号表明在所有频谱波段的功率量相似。 白噪声就是一个例子。对于音调信号,作为一个正弦波的混合物,SFM将接近于0。同样,SCM被定义为第a子波段内的最大值与第a子波

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[604163],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。