概述#

什么是音乐描述?为什么我们需要它?#

自动音乐描述(Automatic Music Description,AMU)的目标是分析音乐音频并将其”翻译”为人类可读的形式。 因此,AMU 是一个涵盖多种任务的总称。

能够自动生成音乐音频内容的描述在许多实际场景中都非常有用。例如,通过 AMU 我们可以:

  • 为大型音乐库添加标注,便于搜索、浏览和管理

  • 为听障人士或无法播放音频的场景生成人类可读的音乐内容摘要

  • 自动为视频和电影中的音乐片段生成字幕

  • 制作教育资源

  • 利用自然语言查询实现个性化的音乐推荐系统

近年来,AMU 系统也越来越多地被用作合成数据生成的资源。在这种情况下,它们并非直接用于某一应用,而是用于为未标注或部分标注的音频生成合成文本数据,进而支持其他需要(音频,文本)配对的机器学习任务的训练,例如文本到音乐检索文本到音乐生成。这也是一些最新的音频-文本音乐数据集的生成方式(参见数据集)。

音乐描述的维度#

我们可以沿两个维度区分不同类型的音乐描述:

  • 抽象层次:描述所捕捉特征的抽象程度(”描述什么”)

  • 复杂度:描述本身的复杂程度(”如何描述”)

../_images/description.png

在本教程中,我们特别关注自然语言描述——它在复杂度轴上的位置高于基于标签的描述,并且通常涵盖广泛的抽象层次。在接下来的章节中,我们将回顾这一向更复杂描述任务演进的趋势,追溯 AMU 从基于分类的形式到当今最常见变体的发展历程。

本教程章节概览#

本部分教程共分为 4 个章节:

  • 任务章节中,我们介绍关键的音乐描述任务,重点说明基于分类的任务与基于语言的任务之间的区别,并介绍基于对话的任务的最新进展。

  • 模型章节中,我们探讨这一向自然语言转变的趋势如何与深度学习架构和建模范式的进步相辅相成。在这里,我们解释典型音乐描述模型的设计,涵盖架构、建模和训练范式,以及各自的优缺点。

  • 数据集章节中,我们提供支持音乐描述模型训练和评估的现有数据的相关资源。

  • 最后,在评估章节中,我们讨论目前通常如何评估音乐描述系统,并探讨我们面临的一些主要挑战。