摘要
我们的目标是能够从深层的神经网络架构中建立一个生成模型,试图创造出既和谐又有
旋律的音乐,并且可以作为人类作曲的音乐。以前在音乐创作方面的工作主要集中在创作一
首单一的曲子。最近围绕时间序列的概率密度的估计的复调音乐建模工作取得了一些成功。
特别是,已经有很多的工作,基于结合了受限玻尔兹曼机(RBM)的递归神经网络(RNN)
和其他类似的性能量模型。然而,我们的方法是仅用深层神经网络来完成端到端的学习和生
成。
介绍
音乐是终极语言。历史上许多令人惊叹的作曲家创作了既有创意又有刻意的作品。像巴
赫这样的作曲家以制作具有大量底层音乐结构的作品而著称。那么,计算机也有可能学会创
造这样的音乐结构吗?
灵感来自一篇博客,写到能够创作出似乎带有旋律并且相对和谐的复调音乐(和弦
乐?),我们决定处理同样的问题。我们试着回答两个主要问题:
1、有没有一种有意义的方法把音符作为矢量来表达?或者说,是否有一种方法来表达
单词的意思就像 word2vec
1
对音乐的翻译一样?
2、我们可以建立有趣的生成神经网络架构,有效地表达和谐和旋律的概念吗?大部分
的作品都有一段主旋律,它可以扩展,我们的神经网络也能做到吗?
背景及相关工作
Chen et al 写的最早的一部关于深度学习产生音乐的论文,产生了一首只有一个旋律却
没有和声的音乐。作者还省略了音符、休止符和所有和弦。他们提到的主要问题之一是音乐
缺乏总体结构。
这给我们提供了两个主要的方向去提高它:
1、使用音乐的节奏、更复杂的结构、并利用所有类型的音符:包括点音符、更长的和
弦、和休止符,来创造音乐。
2、创建一个学习长期结构的能力模型,并有能力建立一个旋律,并返回到整个作品。
Liu et al 处理同样的问题,但无法克服任何挑战。他们声明,他们的音乐表现没有正确
地区分(对应的)旋律和作品其他部分的旋律,此外也不能解决大多数经典作品中的全部复
杂性。他们引用了两篇论文,试图解决上述的问题。
eck et al 使用两种不同的 LSTM(Long-Short Term Memory,是一种时间递归神经网络)
网络:一个学习和弦结构和局部音符结构;另一个学习长期依赖,以此来尝试学习旋律并在
这个过程中保留它。这使作者可以产生的音乐,却不需要分离原和弦的旋律。然而,这种体
系结构训练了一组和弦,却不能创造出更加多样化(新的)的音符组合。
另一方面,Boulanger Lewandowski 等人,试图解决音乐中学习复杂复调结构的挑战。
他们使用一个“递归的时间限制 Boltzmann 机(RTRBM)”,以此建立一个不受现代复调音乐。
RTRBM 结构的使用使他们可以表现一个复杂的分配对每个时间步长,而不是大多数字符语
言模型中一个单一的符号。这使他们能够处理生成音乐中的复调问题。
在我们的项目中,我们将主要解决学习复杂的结构和节奏的问题,比较我们与 Boulanger
Lewandowski 等人的结果。
1
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、
高效,因此引起了很多人的关注(原文解释:向量空间中词语表示的有效估计)