「README」无痛入门音乐科技门槛须知
音乐科技泛指当代计算机科学与硬件技术在音乐艺术上的开发与应用。本公众号将在后续文章中,重点介绍其在音乐信息检索与新型乐器/音乐交互上的入门知识。
♬ 博主强烈建议读者能大致了解本文涉及的所有概念,确保无痛跨个门槛先 ♬
『乐理』
无论是哪一种音乐的表征形式,都会尽量涵盖音乐中的所有元素。比较直观的当属五线谱,随便拿出拉赫玛尼诺夫前奏曲开头的两小节看一下:
但实际上,作曲家和演奏家可以在仅仅两小节内表达出更丰富的信息:

然而更多高层次的信息,很难仅由两小节获取,比如乐曲想表达的情绪、所属的音乐风格等等。五线谱属于一种适合我们人类去解读的一种表征形式,对于计算机来说,MusicXML和MIDI等类似“文本文件”的格式更有益于它对音乐信息的理解。
当然在音乐科技领域内,更多的是将音频即wav/mp3等文件作为输入,利用信号处理或当下最火的深度学习的方法,解读出该音频中音乐的“理”。比如用音高估计做听歌识曲、用声源分离做人声增强等等,甚至可以大量地对某一类型的音乐进行建模,从而实现智能自动伴奏或作曲。
对于博主个人来说,把乐理理解得越通透,才能更有针对性地对音乐中的不同元素进行分析建模,减轻后续任务的计算负担,这也是为什么会发明出常数Q变换(CQT)和色度特征(chroma feature)等算法背后的基石。
『信号处理DSP』
上文提到的常数Q变换与色度特征,以及音频信号在时域与频域间的其他变换,打回原形来讲,都算傅里叶变换的“变种”。拥有绝对音感的人,没准儿一听到音乐就会控制不住的做起傅里叶变换,从而知道这段在时域上的音乐波形变换到频域上就是440Hz即标准音A4。
计算机无法像人耳般感受音乐产生的空气振动,它只能读取某一采样率下某比特的音频文件做短时傅里叶变换(STFT),也就是将音频加窗分成若干帧,对每一帧进行离散傅里叶变换(DFT)才能得到当前帧下的频域信息。
音乐信息检索这门学科非常依赖信号处理的技术,博主会在以后介绍具体应用时详细介绍DSP,力争无痛!
『Python编程』
入门教程涉及的代码都将基于Python, 且GitHub上的课件大多数将用Jupyter
Notebook呈现。另外还会涉及一些命令行,比如用
pip安装Python的若干库,用 git下载或更新课件内容等等。
为确保所有代码能在读者的电脑上跑通,博主建议:
-
用anaconda安装Python 3
-
了解Python语言的基础知识
-
熟悉命令行的基本指令如
lscdpwd等等 -
注册GitHub账号,并了解
git指令
博主在以前做助教时写过一些教程,包含以上所有知识,不过是全英文的,感兴趣的话可以参考下方链接!
➥ https://github.com/beiciliang/ECS719-SoftwareCarpentry
『好奇心 & 好心情』
有人说音乐存在的意义是因为那些无法说出口的话,如果你有足够的好奇心,博主相信你可以用音乐科技多多少少估计出个大概意思!如果答案无法满足你的好奇心,好心情也能左右继续探索下去的动力。
也许就是这两好,博主在攻读博士学位的最后一年还能有闲情逸致开这个公众号……这也是一种回忆自己当初入门时的那些“痛”的过程,不过私心上,我更希望读者能无痛消化音乐科技的入门知识,这样等我博士论文写出来的时候,才能有更多人知道我到底做了什么吧!
『友情链接』
☞ 无痛入门音乐科技相关代码
➥ https://github.com/beiciliang/intro2musictech
☞ C4DM科研组官方主页
☞ MAT博士培养项目主页
☞ 音乐信息检索基础(英文)
➥ https://musicinformationretrieval.com
☞ 音乐信息检索国际协会
☞ 音乐表达新接口国际会议
☞ 全国声音与音乐技术会议