「INFO」2018年度那些亮眼的音乐科技成就

无痛入门音乐科技

简单盘点一下，2018年音乐科技在算法层面令博主印象深刻的学术研究！个人眼界有限，如有勘误或遗漏，还请包涵！

过去的一年里，深度学习在音乐信息检索与音乐智能创作上的应用可谓层出不穷，同时成功吸引了工业界的注意力。本文将在以下几个方面做简要总结：

乐音估计：音高(pitch)，和弦(chord)
节奏追踪：重拍(downbeat)，节奏(tempo)
与人相关的识别：演奏技巧(playing technique)，人声(singing voice)，情绪(mood)
声源分离(source separation)
自动标注(auto-tagging)
智能生成(intelligent generation)
非西方音乐的研究(world music)
博主所在C4DM科研组的其他亮点

『乐音估计』

♬ 音高 ♬

☞ 博主一直崇拜的女神Rachel M. Bittner今年从纽约大学MARL科研组博士毕业了！她的课题就是从最底层的数字信号处理到目前最流行的深度卷积神经网络，全方位地研究基频估计，论文题目是Data-Driven Fundamental Frequency Estimation。

➥ https://drive.google.com/file/d/1Lf6G5yaqi-JwpwOFN99p6HMr4AvefSzc/view

☞ 另外MARL科研组在18年的一个颇有名气的成就，就是基于单旋律的音高识别，即Jong Wook Kim等人提出的CREPE: A Convolutional Representation for Pitch Estimation。除了论文，还有非常不错的网页应用小样！

➥ https://arxiv.org/pdf/1802.06182.pdf

➥ https://marl.github.io/crepe/

☞ 对于多旋律的音高估计，很大一部分的研究都是基于钢琴这个乐器的音频进行评价的，目前效果最好的就是由Google Magenta提出的Onsets and Frames: Dual-Objective Piano Transcription。又是一个自带网页应用小样的算法展示。

➥ https://magenta.tensorflow.org/onsets-frames

➥ https://piano-scribe.glitch.me/

♬ 和弦 ♬

☞ JKU的Filip Korzeniowski小哥通过将声学模型、语言模型和时长模型融合进RNN，进行大小和弦等25类和弦的识别，在今年的EUSIPCO、ICASSP和ISMIR会议上都能见到他展示成果时长发飘飘的身影。下方链接为ISMIR上的文章Improved Chord Recognition by Combining Duration and Harmonic Language Models。

➥ https://arxiv.org/pdf/1808.05335.pdf

『节奏追踪』

☞ 通过比较RNN和CRNN在重拍检测上的性能，分析针对于这类检测问题最佳的深度学习模型设置方案：Analysis of common design choices in deep learning systems for downbeat tracking。

➥ https://bmcfee.github.io/papers/ismir2018_downbeat.pdf

☞ 在全局层面衡量一首歌曲的节奏，可以通过用CNN估计局部的节奏后再推断全局节奏，这篇文章用更简单的模型实现了其他复杂模型的性能，数据库和代码的开源链接也都包含在文章里A single-step approach to musical tempo estimation using a convolutional neural network。

➥ https://www.researchgate.net/profile/Hendrik_Schreiber/publication/328028453

『与人相关的识别』

♬ 演奏技巧 ♬

☞ Vincent Lostanlen提出演奏技巧的识别是从乐器识别中衍生的下一个里程碑般的任务，对于如何理解“演奏技巧”以及都有哪些成果，可以参考他的文章Extended playing techniques: The next milestone in musical instrument recognition。

➥ https://arxiv.org/pdf/1808.09730.pdf

☞ 目前基于鼓的研究是相对完整的，佐治亚理工的Chih-Wei Wu今年成功拿到了关于鼓类音乐信息检索的博士学位，并发表了这篇高质量综述A Review of Automatic Drum Transcription。

➥ https://dl.acm.org/citation.cfm?id=3232299

☞ 针对于吉他，往年有一些论文，但在今年最醒目的还是Qingyang Xi等人公布的新数据库。

➥ https://github.com/marl/GuitarSet

☞ 这里插播一条广告，博主本人也是做这个方向的，不过是针对于钢琴演奏中的踏板技巧。既有设计硬件直接捕获，也有结合钢琴声学的信号处理，目前也走上了深度学习的道路。

➥ https://beiciliang.weebly.com/blog/deep-pedal

☞ 组里的其他同学也有在做基于其他乐器的演奏技巧识别，Changhong Wang的研究针对于中国竹笛，Yudong Zhao则是针对于小提琴。

♬ 人声 ♬

☞ 这里是指检测出一首歌中有哪些地方包含了人声，Kyungyun Lee比较分析了经典算法并提出了许多建设性意见：Revisiting Singing Voice Detection: A quantitative review and the future outlook。

➥ https://arxiv.org/pdf/1806.01180.pdf

☞ 一个新量级的数据库也在今年提出，DALI: a large Dataset of synchronized Audio, LyrIcs and notes, automatically created using teacher-student machine learning paradigm

➥ https://github.com/gabolsgabs/DALI

♬ 情绪 ♬

☞ 音乐中的情绪识别一直是个难点，但这篇文章里考虑了同时利用音频信号和歌词信息：Music Mood Detection Based On Audio And Lyrics With Deep Neural Net。

➥ https://arxiv.org/pdf/1809.07276.pdf

☞ 现有的音乐情绪研究大多基于MSD数据库，其中每个音频对应一种情绪标签。实际上人的情绪在一首歌里并不是一成不变的，我们组里的Simin Yang就在针对这种live情境下的音乐情绪进行研究。

『声源分离』

在以上任务中，一种常见的提升识别准确度的预处理办法就是声源分离，今年第14届LVA ICA会议召开后更是涌现了好多论文，在之后的论文SiSEC 2018: State of the art in musical audio source separation - subjective selection of the best algorithm中就召集了LVA ICA的参会人员，对6种性能较突出的算法分离出的音乐结果进行主观评价，看看大家目前对哪一种算法的效果更满意。

➥ https://hal.inria.fr/hal-01945362/document

☞ 不得不提其中一种算法是我们组Daniel Stoller的成果Wave-U-Net: A Multi-Scale Neural Network for End-to-End Audio Source Separation。

➥ https://github.com/f90/Wave-U-Net

『自动标注』

☞ 首先是这个领域的名人，也是我的亲师哥Keunwoo Choi博士毕业，毕业论文为Deep Neural Networks for Music Tagging。

➥ https://qmro.qmul.ac.uk/xmlui/bitstream/handle/123456789/46029/CHOI_Keunwoo_PhD_Final_190918.pdf

☞ 今年ISMIR上的最佳论文颁给了UPF大学MTG科研组Jordi Pons的End-to-end Learning for Music Audio Tagging at Scale。

➥ https://arxiv.org/pdf/1711.02520.pdf

☞ DCASE竞赛中任务2里的挑战也是用的MTG开发的freesound数据库，在该任务中韩国Young Jeong等人提出的算法取得了最高的性能。

➥ https://www.researchgate.net/profile/Hyungui_Lim/publication/328927908

☞ 值得注意的是萨利大学的Qiuqiang Kong和许多国内的学者们在DCASE此项任务中也是表现不凡。

➥ http://dcase.community/challenge2018/task-general-purpose-audio-tagging

『智能创新』

☞ 讲到这儿就不得不说智能作曲了，我一直自诩耳朵刁钻所以保持一个“怀疑者”的姿态，直到我最近看到Google Magenta里Cheng-Zhi Anna Huang等人做出的Music Transformer: Generating Music with Long-Term Structure。

➥ https://magenta.tensorflow.org/music-transformer

➥ https://arxiv.org/pdf/1809.04281.pdf

➥ 视频小样如下：

☞ 如果你也想训练一个基于钢琴音乐自动生成的深度学习模型，不妨用一用Magenta刚发布的MAESTRO数据库，包含大量MIDI与音频且相互时间轴同步的数据。

➥ https://magenta.tensorflow.org/datasets/maestro

☞ 除了智能作曲，另外可以利用机器展现创造力的例子是，基于文本内容智能生成电台广播或有声书。比如一段文字是“我正走在寂静的森林里，突然一大群蜜蜂从我脑顶上方飞过”，生成出的音频就需要有“森林”和“蜜蜂”这两个元素，同时要用音效表现“寂静”和“一大群”的环境以及“脑顶上方”的方位和“突然飞过”的动态。我们组的Emmanouil Theofanis Chourdakis就在论文From my pen to your ears: automatic production of radio plays from unstructured story text中做了这样的工作。

➥ https://qmro.qmul.ac.uk/xmlui/bitstream/handle/123456789/45984/Chourdakis%20From%20my%20pen%202018%20Published.pdf?sequence=1

☞ 说到音效，智能控制不同音效的参数也是C4DM的一大研究方向。比如Di Sheng就提出了Feature design using audio decomposition for intelligent control of the dynamic range compressor，Marco Martínez提出End-to-end equalization with convolutional neural networks等等。

➥ https://ieeexplore.ieee.org/document/8461513

➥ http://dafx2018.web.ua.pt/papers/DAFx2018_paper_27.pdf