「INFO」2020年度那些亮眼的音乐科技成就
工作节奏太快了,已是2021年阳春三月才抽出些时间,简单盘点一下2020年音乐科技方面令博主印象深刻的学术研究和工业落地。个人眼界有限,如有勘误或遗漏,还请包涵!
-
传统任务在业界:节奏识别/歌曲分段/自动扒谱/翻唱检测 -
多模态带来新花样:从文本与图像中获得启发 -
Representation Learning -
更多造福大众的教程/数据集/开源工具
『传统任务在业界』
♬ 节奏识别 ♬
☞ 首先还是要respect一下Sebastian Böck,这些年深耕关于节奏节拍的一切,在20年ISMIR会议上发表论文Deconstruct, Analyse, Reconstruct: How to Improve Tempo, Beat, and Downbeat Estimation。把state-of-the-art的模型都给扒出来看,在统一的数据集上挨个评估,当然也实至名归获得Best Evaluation Award。
➥ https://program.ismir2020.net/poster_4-14.html
☞ 那么在业界,这些节拍信息能辅助曲库区分快歌慢歌,但更直观的一个应用是Q音探歌的“卡点DJ电台”、QQ音乐的“4D震动”等效果的展现,根据beat或downbeat的时间点、或者不同鼓出现的时刻,来调动手机中闪光或马达的开闭(此处shoutout to 曹翔大前辈)。
☞ 说到这里就要提一下automatic drum transcription的研究了,以往的成果主要还是在非常有限的鼓种类中进行识别,对于更复杂的情况,Yu Wang等人训练Prototypical Network实现Few-shot Drum Transcription in Polyphonic Music。这种few-shot的思路,可应用到Adobe产品中,对音频实现“Ctrl+F”的功能,即给定一个音频小片段,将某个大段音频内出现该小片段的时间点通通找到。
➥ https://program.ismir2020.net/poster_1-14.html
♬ 歌曲分段 ♬
☞ 人见人爱的Oriol Nieto博士毕业三年后,在Pandora工作之余也再次回溯了他的毕业论文,并联合其他人发表了一篇非常棒的综述:如何基于音频做歌曲分段。
☞ 分段结果对于业界来讲,可以将“副歌”对应的片段挑出来,比如一些歌曲的副歌起始时刻在QQ音乐播放进度条中就用一个“小白点”来告知用户,再比如为了方便用户分享年终盘点的15秒视频到朋友圈,视频里的背景音乐就选取了歌曲的某个片段。
♬ 自动扒谱 ♬
☞ 这里的主要突破还是在“钢琴音频自动转谱”任务上,字节跳动的孔秋强等人不仅将钢琴按键的时间精确到1毫秒这个量级,还包含了对钢琴按键力度、钢琴踏板等等维度的检测,整体上更加精确(博主本人也感谢下各位对我以前踏板论文的引用哈)。更令人敬佩的是,相关论文、数据集、源代码都是开源,博主本身也在互联网公司,所以非常清楚这件事情有多不容易,salute!
☞ 也许大多数研究都没被落地到某个赚钱的业务中,但这完全不代表“这个研究没有用”,人们会被自己的学识局限在一个井里,评价其他项目难免坐井观天。说个题外话吧,1970年赞比亚修女Mary Jucunda给NASA的科学家Dr. Ernst Stuhlinger写过一封信,问他目前地球上还有这么多小孩子吃不上饭,他怎么能舍得为远在火星的项目花费数十亿美元,他的回信可以见链接。
➥ https://lettersofnote.com/2012/08/06/why-explore-space/
♬ 翻唱检测 ♬
☞ 同样是字节跳动的朋友,在MIREX2020的Cover Song Identification任务中取得最佳成绩。相关算法ByteCover不仅在特征学习上去“抵挡”不同版本的歌曲在节奏、调式、音色等方面的转变,而且同时去优化classification loss and triplet loss。
☞ 翻唱识别也集成到了QQ音乐的听歌识曲功能中,并在音乐知识图谱的建设中发挥作用。
『多模态带来新花样』
☞ 在2020年的ISMIR上,第一次举办了Workshop on NLP for Music and Audio,建议大家直接去看论文原稿和录像回放。其中,关于歌词文本的运用给了我和现在的实习生杨泽堉同学很多启发,可以结合文本和音频,来大力提升上文提到的歌曲分段的精确度。再者,已有很多超厉害的开源NLP模型比如BERT和GPT等,也能拿来运用到蒸蒸日上的播客业务中。
☞ 对于图像或视频信息与音频的结合运用方面,有两位朋友在2020年都获得了博士学位,推荐阅读他们的毕业论文。
『Representation Learning』
既然有那么多不同模态的信息,能不能都包进来变成一个难以解释但确实有用的特征矩阵呢?答案是可以。也正是这种“万物皆可Embedding”的思想,让推荐算法一直在迭代,做到更好的个性化推荐。
针对于音乐音频信息,Jongpil Lee等人比较了用深度分类方法或metric learning方法得出的不同representation的有效性。
➥ https://program.ismir2020.net/poster_3-15.html
受到音乐流媒体公司的支持,也开始有更多研究利用用户侧数据得出的Embedding,来助攻音乐信息检索的任务。比如以下三篇:
我和实习生陈轲同学参与的公司项目,为了解决QQ音乐推荐新歌面临的内容冷启动问题,也利用用户侧的数据,通过metric learning学习音频Embedding。虽然无法开源,但涉及的算法思想中稿了今年的ICASSP,欢迎浏览arxiv来与我们交流。
『更多造福大众的资源』
首先安利以下两份tutorial资料,可以说是手把手教学的程度了。
工具类的资源也在2020年完成了不少迭代,比如Essentia集成了Musicnn等TensorFlow模型,使用户更方便的获取这些深度学习模型的embeddings;再比如Librosa发布了v0.8.0;但令我印象更深刻的还是Spotify开源其处理大批量音频任务的框架Klio。
数据集相关的新资源有以下:
☞ Eduardo Fonseca, Xavier Favory, Jordi Pons, Frederic Font,
Xavier Serra. "FSD50K: an Open Dataset of Human-Labeled Sound
Events", arXiv:2010.00475, 2020.
另外还有些虽然不算是“资源”但依然能引发我们思考的调查报告,也借此机会分享给各位读者。
☞ Meijun Liu, Eva Zangerle, Xiao Hu, Alessandro Melchiorre, Markus Schedl. "Pandemics, Music, and Collective Sentiment: Evidence from the Outbreak of COVID-19." In ISMIR, 2020.
➥ https://program.ismir2020.net/poster_1-19.html
☞ Avriel C Epps-Darling, Henriette Cramer, Romain Takeo Bouyer. "Female Artist Representation in Music Streaming." In ISMIR, 2020.
➥ https://program.ismir2020.net/poster_2-11.html
☞ ‘Just The Way You Are’: Music Listening and Personality.
➥ https://research.atspotify.com/just-the-way-you-are-music-listening-and-personality/
『关于2020的一点题外话』
因为疫情的原因,感觉大家2020年过得都有点憋屈,博主也快变成了没有感情的工作机器(从我发文章的频率就能感觉到吧),但能把已有的MIR算法落地、新研发的算法发论文申专利,还是比较有成就感的。而且最近几个月陆续收到了很多学弟学妹发来的offer喜讯,感谢我和这个公众号对他们留学申请时的帮助,我能有实感地知道这个科普没白做,开心。
过去的一年还新兴了播客 (Podcast),职业习惯又让我看到许多可以将音乐或泛音频技术落地的点。话说我的partner也成功拿到博士学位,并且他的毕业论文"Computational Methods for Assisting Radio Drama Production",以及现在的工作也是紧贴播客产业(对我就是想炫耀一下我们是Dual-PhD Couple)。
这里可以插个广告:欢迎大家在各大音频平台订阅申申主播的《说得好听》!
不知道什么时候疫情能过去,许多公司比如Spotify都开始有Work From Anywhere的远程工作制度,这里也借机帮各位海内外朋友看机会,如果有这种接受远程的音频相关工作岗位,请联系我 (beici.liang@foxmail.com)。
同时后天就是国际妇女节了,MIR学界近五六年一直有Women in Music Information Retrieval (WiMIR) 项目来帮扶在此行业的女性,鼓励大家关注!同时若有女性朋友在学业或职业上有疑问,也欢迎直接给我来信交流。
再次感谢大家的订阅,拜个2021的晚年!