← 返回 无痛入门音乐科技

「INFO」2019年度那些亮眼的音乐科技成就

2020年1月12日 08:13 · 无痛入门音乐科技

简单盘点一下,2019年音乐科技方面令博主印象深刻的学术研究!个人眼界有限,如有勘误或遗漏,还请包涵!

过去的一年里,深度学习继续在传统的音乐信息检索任务上做优化,并且开源了许多“已经训练好”的大模型,同时出现了更多高质量的新数据集。本文将在以下几个方面做简要总结:

P.S. 往期回顾 - 2018年的音乐科技年度总结


『传统任务』

♬ 音高判定 ♬ 

☞ 还记得18年总结里提到的由Jong Wook Kim等人提出的单旋律音高识别CREPE么?一作小哥在19年ISMIR会议上发表了一篇钢琴复音识别的文章,优化了18年总结中提到的Onsets and Frames模型。另外,他也从纽约大学MARL科研组博士毕业了,论文题目是Automatic Music Transcription in the Deep Learning Era。

http://archives.ismir.net/ismir2019/paper/000081.pdf

https://github.com/jongwook/dissertation

☞ Google Research团队在单旋律音高识别上又进一步,开发了比全监督式模型CREPE表现更好的自监督式模型SPICE。

https://arxiv.org/pdf/1910.11664.pdf

☞ 不管是单音还是复音,总归是有音高的,但是如何对打击乐这种类型的乐器进行自动扒谱呢?师哥Keunwoo Choi的这篇文章用非监督学习的方式给出一个答案。

https://github.com/keunwoochoi/DrummerNet

♬ 节拍追踪 ♬ 

维也纳OFAI的Sebastian Böck可以说是研究这个问题的资深专家了,他最新的工作是用多任务学习的方式,同时提升tempo estimation和beat tracking。

http://archives.ismir.net/ismir2019/paper/000058.pdf

➥ 训练好的模型开源在https://github.com/CPJKU/madmom

♬ 和弦识别 ♬ 

☞ 为了深度学习出输入数据中的时序信息,注意力模型(attention-based model)是最近比RNN和LSTM更流行的方法,台湾中央研究院的Tsung-Ping Chen和Li Su将其应用在和弦识别上,并获得了19年ISMIR的最佳论文之一。

https://github.com/Tsung-Ping/Harmony-Transformer

☞ 想详细了解近20年和弦识别的发展,不要错过这篇C4DM的同事们发表的综述。

http://archives.ismir.net/ismir2019/paper/000004.pdf

♬ 翻唱检测 ♬ 

除了直接训练端到端的模型去解决一个特定任务,也可以从任务A的模型中提取embedding,应用到任务B中。比如从“主旋律识别任务”的模型中提取embedding,能成功地被应用到翻唱检测的任务中,毕竟原歌曲和其翻唱版本之间的主旋律应该还挺相似的。法国的Guillaume Doras和Geoffroy Peeters就用这个方法实现了目前准确度最高的翻唱检测算法。

http://archives.ismir.net/ismir2019/paper/000010.pdf


『音乐其他方面的数据分析』

以上传统任务的亮眼成就列举,难免让其他领域的人觉得这不过又是CS大行业的一个音乐分支,其实音乐信息检索这一行充满了统计学家和音乐家。

☞ 比如说近20年来用户或算法创建的歌单,通过统计学的方法能反映出哪些信息和变化趋势?巴塞罗那MTG组的Lorenzo Porcaro和Emilia Gómez就发表了这么一篇文章。

https://github.com/MTG/playlists-stat-analysis

☞ 音乐除了基本的音高节奏等元素,更包含了器乐演奏家在表演时的各种“参数”。佐治亚理工的Alexander Lerch等人发表了关于音乐表演分析综述文章。

http://archives.ismir.net/ismir2019/paper/000002.pdf

☞ 除了音乐本乐,承载它的交互方式在“让用户发现好音乐”的过程中功不可没,Peter Knees、Markus Schedl和Masataka Goto三位大前辈发表的这篇综述里回顾了过去20年的技术历程。

http://archives.ismir.net/ismir2019/paper/000003.pdf


『声源分离』

19年的声源分离尤其是在“把输入音频里的人声与伴奏分离开”这项任务上,仿佛被开了光…这要部分归功于相关数据集和指导材料从18年开始被各种大公开,这里必须感谢法国INRIA的Antoine Liutkus和Fabian-Robert Stöter两位老师的无私贡献。

https://sigsep.github.io/

☞ Deezer公司开源的spleeter,目前在Github上已经9千多星,亲测好用。

https://github.com/deezer/spleeter

☞ Facebook Research紧随其后开源demucs,相比于以音频的时频谱做输入的spleeter,这个直接从音频波形下手。

https://github.com/facebookresearch/demucs


『自动标注』

☞ 18年总结中提到的Jordi Pons,从MTG顺利博士毕业了,他的毕业论文是Deep neural networks for music and audio tagging。

➥ PPT:http://www.jordipons.me/media/ThesisDefense_JordiPons.pdf

➥ 论文:http://jordipons.me/media/PhDThesisJordiPons.pdf

☞ 针对于更广义的音频事件检测,我的朋友孔秋强在萨利大学博士毕业了,他不仅论文发得多多多,代码写得也特别清晰明了。在毕业论文最终上线之前,可以先在他的个人主页浏览所有相关工作。

https://qiuqiangkong.github.io/


『智能生成』

其实博主对自动作曲算法本身的关注比较少,所以只对demo做得比较漂亮的两个自动伴奏项目印象深刻。

☞ The Bach Doodle,博主崇拜的Cheng-Zhi Anna Huang等人做出的工作,用户输入一段主旋律(下图黑色音符部分),系统可以自动编排巴赫风格的和声伴奏(下图其他颜色的音符),这项工作也发表在19年ISMIR上。

http://archives.ismir.net/ismir2019/paper/000097.pdf

Image

☞ DrumBot,这里自动伴奏的不再是旋律,而是鼓点。背后基于的GrooVAE算法已经发表在19年ICML上,嗯对,又是Magenta开发的。

https://arxiv.org/pdf/1905.06118.pdf

Image

☞ 对自动作曲算法本身感兴趣的,可以参考19年ISMIR上楊奕軒老师的Tutorial: Generating Music with GANs

https://salu133445.github.io/ismir2019tutorial/


『新数据集』

☞ The MTG-Jamendo Dataset for Automatic Music Tagging

https://mtg.github.io/mtg-jamendo-dataset/

☞ Da-TACOS: A Dataset for Cover Song Identification and Understanding

https://mtg.github.io/da-tacos/

☞ The AcousticBrainz Genre Dataset: Multi-Source, Multi-Level, Multi-Label, and Large-Scale

https://mtg.github.io/acousticbrainz-genre-dataset/

☞ The Harmonix Set: Beats, Downbeats, and Functional Segment Annotations of Western Popular Music

https://github.com/urinieto/harmonixset

☞ SUPRA: Digitizing the Stanford University Piano Roll Archive 数据集的建立过程发表在19年ISMIR上并荣获最佳论文,恭喜Zhengshan Shi学姐!

https://supra.stanford.edu/

☞ 古琴数据集,北邮学生吴雨松主导建立,相关技术已发表在19年全国声音与音乐技术会议上。

https://github.com/lukewys/Guqin-Dataset


『关于2019的一点题外话』

19年是ISMIR国际会议的20周年,除了上面提到的论文,还有许许多多有趣的工作,下方链接里汇总了大部分海报。

https://github.com/keunwoochoi/ismir-2019-posters

对博主来说,19年也是个丰收的喜悦年,起码叫我一声Dr. Liang我也敢答应了!周围的朋友们也都陆续提交了博士毕业论文,虽然我们大部分没有继续留在学术界,但完全不会停止对音乐科技项目的密切关注和开源支持。最后祝大家2020年一切顺利,抱拳!