概述#
什么是音乐描述?为什么我们需要它?#
自动音乐描述(Automatic Music Description,AMU)的目标是分析音乐音频并将其”翻译”为人类可读的形式。 因此,AMU 是一个涵盖多种任务的总称。
能够自动生成音乐音频内容的描述在许多实际场景中都非常有用。例如,通过 AMU 我们可以:
为大型音乐库添加标注,便于搜索、浏览和管理
为听障人士或无法播放音频的场景生成人类可读的音乐内容摘要
自动为视频和电影中的音乐片段生成字幕
制作教育资源
利用自然语言查询实现个性化的音乐推荐系统
近年来,AMU 系统也越来越多地被用作合成数据生成的资源。在这种情况下,它们并非直接用于某一应用,而是用于为未标注或部分标注的音频生成合成文本数据,进而支持其他需要(音频,文本)配对的机器学习任务的训练,例如文本到音乐检索和文本到音乐生成。这也是一些最新的音频-文本音乐数据集的生成方式(参见数据集)。
音乐描述的维度#
我们可以沿两个维度区分不同类型的音乐描述:
抽象层次:描述所捕捉特征的抽象程度(”描述什么”)
复杂度:描述本身的复杂程度(”如何描述”)
在本教程中,我们特别关注自然语言描述——它在复杂度轴上的位置高于基于标签的描述,并且通常涵盖广泛的抽象层次。在接下来的章节中,我们将回顾这一向更复杂描述任务演进的趋势,追溯 AMU 从基于分类的形式到当今最常见变体的发展历程。
本教程章节概览#
本部分教程共分为 4 个章节: