「INFO」2020年度那些亮眼的音乐科技成就

2021年3月6日 09:11 · 无痛入门音乐科技

工作节奏太快了，已是2021年阳春三月才抽出些时间，简单盘点一下2020年音乐科技方面令博主印象深刻的学术研究和工业落地。个人眼界有限，如有勘误或遗漏，还请包涵！

过去的一年是博主成为“互联网打工人”、见证各种音乐信息检索算法从学术的理想状态中剥离出来、并真实落地到业务场景里的一年，所以主要关注音乐科技的实际应用、多模态数据共同做深度学习、以及Representation Learning这几个方面。因此本文将在以下几点做简要总结：

传统任务在业界：节奏识别/歌曲分段/自动扒谱/翻唱检测
多模态带来新花样：从文本与图像中获得启发
Representation Learning
更多造福大众的教程/数据集/开源工具

P.S. 内容较多且有链接，建议在电脑网页端浏览。往期回顾可查看2018年度总结 & 2019年度总结。

P.P.S. 本文出现的所有产品都是为了举例说明，都是个人观点，没有打广告。

『传统任务在业界』

♬ 节奏识别 ♬

☞ 首先还是要respect一下Sebastian Böck，这些年深耕关于节奏节拍的一切，在20年ISMIR会议上发表论文Deconstruct, Analyse, Reconstruct: How to Improve Tempo, Beat, and Downbeat Estimation。把state-of-the-art的模型都给扒出来看，在统一的数据集上挨个评估，当然也实至名归获得Best Evaluation Award。

➥ https://program.ismir2020.net/poster_4-14.html

☞ 那么在业界，这些节拍信息能辅助曲库区分快歌慢歌，但更直观的一个应用是Q音探歌的“卡点DJ电台”、QQ音乐的“4D震动”等效果的展现，根据beat或downbeat的时间点、或者不同鼓出现的时刻，来调动手机中闪光或马达的开闭（此处shoutout to 曹翔大前辈）。

☞ 说到这里就要提一下automatic drum transcription的研究了，以往的成果主要还是在非常有限的鼓种类中进行识别，对于更复杂的情况，Yu Wang等人训练Prototypical Network实现Few-shot Drum Transcription in Polyphonic Music。这种few-shot的思路，可应用到Adobe产品中，对音频实现“Ctrl+F”的功能，即给定一个音频小片段，将某个大段音频内出现该小片段的时间点通通找到。

➥ https://program.ismir2020.net/poster_1-14.html

♬ 歌曲分段 ♬

☞ 人见人爱的Oriol Nieto博士毕业三年后，在Pandora工作之余也再次回溯了他的毕业论文，并联合其他人发表了一篇非常棒的综述：如何基于音频做歌曲分段。

Nieto, O., Mysore, G.J., Wang, C.-. i ., Smith, J.B.L., Schlüter, J., Grill, T. and McFee, B., 2020. Audio-Based Music Structure Analysis: Current Trends, Open Challenges, and Applications. Transactions of the International Society for Music Information Retrieval, 3(1), pp.246–263.

➥ http://doi.org/10.5334/tismir.54

☞ 分段结果对于业界来讲，可以将“副歌”对应的片段挑出来，比如一些歌曲的副歌起始时刻在QQ音乐播放进度条中就用一个“小白点”来告知用户，再比如为了方便用户分享年终盘点的15秒视频到朋友圈，视频里的背景音乐就选取了歌曲的某个片段。

♬ 自动扒谱 ♬

☞ 这里的主要突破还是在“钢琴音频自动转谱”任务上，字节跳动的孔秋强等人不仅将钢琴按键的时间精确到1毫秒这个量级，还包含了对钢琴按键力度、钢琴踏板等等维度的检测，整体上更加精确（博主本人也感谢下各位对我以前踏板论文的引用哈）。更令人敬佩的是，相关论文、数据集、源代码都是开源，博主本身也在互联网公司，所以非常清楚这件事情有多不容易，salute！

➥ Qiuqiang Kong, Bochen Li, Jitong Chen, and Yuxuan Wang. "GiantMIDI-Piano: A large-scale MIDI dataset for classical piano music." arXiv preprint arXiv:2010.07061 (2020). https://arxiv.org/pdf/2010.07061

➥ Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, and Yuxuan Wang. "High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times." arXiv preprint arXiv:2010.01815 (2020). https://arxiv.org/pdf/2010.01815

➥ https://github.com/bytedance/GiantMIDI-Piano

☞ 也许大多数研究都没被落地到某个赚钱的业务中，但这完全不代表“这个研究没有用”，人们会被自己的学识局限在一个井里，评价其他项目难免坐井观天。说个题外话吧，1970年赞比亚修女Mary Jucunda给NASA的科学家Dr. Ernst Stuhlinger写过一封信，问他目前地球上还有这么多小孩子吃不上饭，他怎么能舍得为远在火星的项目花费数十亿美元，他的回信可以见链接。

➥ https://lettersofnote.com/2012/08/06/why-explore-space/

♬ 翻唱检测 ♬

☞ 同样是字节跳动的朋友，在MIREX2020的Cover Song Identification任务中取得最佳成绩。相关算法ByteCover不仅在特征学习上去“抵挡”不同版本的歌曲在节奏、调式、音色等方面的转变，而且同时去优化classification loss and triplet loss。

➥ Xingjian Du, Zhesong Yu, Bilei Zhu, Xiaoou Chen, and Zejun Ma. "ByteCover: Cover Song Identification via Multi-Loss Training." arXiv preprint arXiv:2010.14022 (2020). https://arxiv.org/pdf/2010.14022.pdf

☞ 翻唱识别也集成到了QQ音乐的听歌识曲功能中，并在音乐知识图谱的建设中发挥作用。

『多模态带来新花样』

☞ 在2020年的ISMIR上，第一次举办了Workshop on NLP for Music and Audio，建议大家直接去看论文原稿和录像回放。其中，关于歌词文本的运用给了我和现在的实习生杨泽堉同学很多启发，可以结合文本和音频，来大力提升上文提到的歌曲分段的精确度。再者，已有很多超厉害的开源NLP模型比如BERT和GPT等，也能拿来运用到蒸蒸日上的播客业务中。

➥ 论文：https://www.aclweb.org/anthology/volumes/2020.nlp4musa-1/

➥ 录像：https://www.youtube.com/channel/UCtWGAGz6I_1aRetS8U4rYcA/featured

☞ 对于图像或视频信息与音频的结合运用方面，有两位朋友在2020年都获得了博士学位，推荐阅读他们的毕业论文。

➥ Olga Slizovskaia. Audio-visual deep learning methods for musical instrument classification and separation. Universitat Pompeu Fabra, 2020.

➥ Bochen Li. Multi-Modal Analysis for Music Performances. University of Rochester, 2020.

『Representation Learning』

既然有那么多不同模态的信息，能不能都包进来变成一个难以解释但确实有用的特征矩阵呢？答案是可以。也正是这种“万物皆可Embedding”的思想，让推荐算法一直在迭代，做到更好的个性化推荐。

针对于音乐音频信息，Jongpil Lee等人比较了用深度分类方法或metric learning方法得出的不同representation的有效性。

➥ https://program.ismir2020.net/poster_3-15.html

受到音乐流媒体公司的支持，也开始有更多研究利用用户侧数据得出的Embedding，来助攻音乐信息检索的任务。比如以下三篇：

☞ Karim M. Ibrahim, Elena V. Epure, Geoffroy Peeters, and Gael Richard. "Should we consider the users in contextual music auto-tagging models?." In ISMIR, 2020.

➥ https://program.ismir2020.net/poster_2-17.html

☞ Ayush Patwari, Nicholas Kong, Jun Wang, Ullas Gargi, Michele Covell, and Aren Jansen. "Semantically Meaningful Attributes from Co-listen Embeddings for Playlist Exploration and Expansion." In ISMIR, 2020.

➥ https://program.ismir2020.net/poster_4-08.html

☞ Filip Korzeniowski, Oriol Nieto, Matthew McCallum, Minz Won, Sergio Oramas, and Erik Schmidt. "Mood Classification Using Listening Data." In ISMIR, 2020.

➥ https://program.ismir2020.net/poster_4-10.html

我和实习生陈轲同学参与的公司项目，为了解决QQ音乐推荐新歌面临的内容冷启动问题，也利用用户侧的数据，通过metric learning学习音频Embedding。虽然无法开源，但涉及的算法思想中稿了今年的ICASSP，欢迎浏览arxiv来与我们交流。

☞ Ke Chen, Beici Liang, Xiaoshuan Ma, and Minwei Gu. "Learning Audio Embeddings with User Listening Data for Content-based Music Recommendation." In ICASSP, 2021.

➥ https://arxiv.org/abs/2010.15389

『更多造福大众的资源』

首先安利以下两份tutorial资料，可以说是手把手教学的程度了。

☞ "Open-Source Tools & Data for Music Source Separation: A Pragmatic Guide for the MIR Practitioner" By Ethan Manilow, Prem Seetharaman, and Justin Salamon

➥ https://github.com/source-separation/tutorial

☞ "Metric Learning in MIR" By Brian McFee, Jongpil Lee and Juhan Nam

➥ https://github.com/bmcfee/ismir2020-metric-learning

工具类的资源也在2020年完成了不少迭代，比如Essentia集成了Musicnn等TensorFlow模型，使用户更方便的获取这些深度学习模型的embeddings；再比如Librosa发布了v0.8.0；但令我印象更深刻的还是Spotify开源其处理大批量音频任务的框架Klio。

➥ https://github.com/spotify/klio

数据集相关的新资源有以下：

☞ Eduardo Fonseca, Xavier Favory, Jordi Pons, Frederic Font, Xavier Serra. "FSD50K: an Open Dataset of Human-Labeled Sound Events", arXiv:2010.00475, 2020.

➥ https://zenodo.org/record/4060432#.YEMk4JMza_U

☞ The Freesound Loop Dataset and Annotation Tool

➥ https://github.com/aframires/freesound-loop-annotator

☞ Spotify重新开放Million Playlist Dataset

➥ https://research.atspotify.com/the-million-playlist-dataset-remastered/

另外还有些虽然不算是“资源”但依然能引发我们思考的调查报告，也借此机会分享给各位读者。

☞ Meijun Liu, Eva Zangerle, Xiao Hu, Alessandro Melchiorre, Markus Schedl. "Pandemics, Music, and Collective Sentiment: Evidence from the Outbreak of COVID-19." In ISMIR, 2020.

➥ https://program.ismir2020.net/poster_1-19.html

☞ Avriel C Epps-Darling, Henriette Cramer, Romain Takeo Bouyer. "Female Artist Representation in Music Streaming." In ISMIR, 2020.

➥ https://program.ismir2020.net/poster_2-11.html

☞ ‘Just The Way You Are’: Music Listening and Personality.

➥ https://research.atspotify.com/just-the-way-you-are-music-listening-and-personality/

『关于2020的一点题外话』

因为疫情的原因，感觉大家2020年过得都有点憋屈，博主也快变成了没有感情的工作机器（从我发文章的频率就能感觉到吧），但能把已有的MIR算法落地、新研发的算法发论文申专利，还是比较有成就感的。而且最近几个月陆续收到了很多学弟学妹发来的offer喜讯，感谢我和这个公众号对他们留学申请时的帮助，我能有实感地知道这个科普没白做，开心。

过去的一年还新兴了播客 (Podcast)，职业习惯又让我看到许多可以将音乐或泛音频技术落地的点。话说我的partner也成功拿到博士学位，并且他的毕业论文"Computational Methods for Assisting Radio Drama Production"，以及现在的工作也是紧贴播客产业（对我就是想炫耀一下我们是Dual-PhD Couple）。

这里可以插个广告：欢迎大家在各大音频平台订阅申申主播的《说得好听》！

不知道什么时候疫情能过去，许多公司比如Spotify都开始有Work From Anywhere的远程工作制度，这里也借机帮各位海内外朋友看机会，如果有这种接受远程的音频相关工作岗位，请联系我 (beici.liang@foxmail.com)。

同时后天就是国际妇女节了，MIR学界近五六年一直有Women in Music Information Retrieval (WiMIR) 项目来帮扶在此行业的女性，鼓励大家关注！同时若有女性朋友在学业或职业上有疑问，也欢迎直接给我来信交流。

再次感谢大家的订阅，拜个2021的晚年！

往期回顾：

「INFO」2019年度那些亮眼的音乐科技成就

「INFO」2018年度那些亮眼的音乐科技成就