您的位置:首页>互联网>内容

OpenAI的Jukebox AI从头开始制作任何风格的音乐

2021-11-18 17:00来源:
导读 OpenAI今天发布了Jukebox,这是一种机器学习框架,可以生成音乐(包括基本歌曲)作为各种类型和音乐风格的原始音频。通过提供流派,艺术家和歌词作为输入,Jukebox输出从头开始产生...

OpenAI今天发布了Jukebox,这是一种机器学习框架,可以生成音乐(包括基本歌曲)作为各种类型和音乐风格的原始音频。通过提供流派,艺术家和歌词作为输入,Jukebox输出从头开始产生的新音乐样本。GitHub上提供了代码和模型,以及用于探索生成的样本的工具。

Jukebox可能不是AI和机器学习的最实际应用,但是正如OpenAI所指出的那样,音乐的产生推??动了生成模型的发展。在音频级别上合成歌曲具有挑战性,因为序列很长-以CD质量(44 kHz,16位)播放的典型4分钟歌曲具有超过1000万个时间步长。结果,学习音乐的高级语义要求模型处理非常长的依赖关系。

Jukebox通过使用所谓的自动编码器来解决此问题,该自动编码器通过丢弃一些感知上不相关的信息位将原始音频压缩到较低维度的空间。然后可以训练模型以在该空间中生成音频,并向上采样回到原始音频空间。

Jukebox的自动编码器模型使用一种称为矢量量化变化自动编码器(VQ-VAE)的方法来处理音频。三级VQ-VAE将44kHz原始音频压缩8倍,32倍和128倍;最底层的编码(8倍)产生最高质量的重构(以“音乐代码”的形式),而最顶层的编码(128倍)仅保留基本的音乐信息,例如音高,音色和音量。

在Jukebox中训练了一系列先验模型-顶级先验算法,该先验算法生成由VQ-VAE编码的最多压缩的音乐代码,而两个先采样先验算法则合成较少的压缩代码-经过训练,可以学习代码的分布并在压缩后的音乐中生成音乐空间。顶级先验模型对音乐的远程结构进行了建模,因此从其解码的样本具有较低的音频质量,但捕获了高级语义(如唱歌和旋律),而中级和下采样先验则添加了本地音乐结构(如音色,大大改善了音频质量。

使用OpenAI的Sparse Transformers架构的简化变体对120万首歌曲(600,000英文)的语料库进行了模型训练,这些歌曲来自网络,并与歌词和元数据(例如,艺术家,专辑类型,年份,通用)配对心情和播放列表关键字)。每首歌曲都是44.1 kHz的32位,并且OpenAI通过随机混合左右声道以产生单声道音频来增强语料库。

为了让Jukebox适应特定的艺术家和流派,对顶级Transformer模型进行了预测压缩音频令牌的任务训练,这使Jukebox可以在任何音乐风格中获得更高的质量,并允许研究人员指导该模型以以下方式生成:他们的选择。为了向框架提供更具抒情性的上下文,OpenAI开发了一种编码器,该编码器增加了Jukebox音乐解码器中的查询使用层,以处理歌词编码器中的键和值,从而使Jukebox可以更精确地了解歌词和音乐的对齐方式。

Jukebox的模型需要大量的计算和时间来训练:

VQ-VAE包含超过200万个参数(变量),已在256个Nvidia V100图形卡上进行了三天的培训。

包含超过10亿个变量的上采样器在128个Nvidia V100图形卡上进行了为期两周的培训。

包含超过50亿个变量的高级先驱在512个Nvidia V100图形卡上进行了为期四个星期的培训。

在所有这些方面,Jukebox是OpenAI以前的工作MuseNet的重大飞跃,MuseNet探索了基于大量MIDI数据合成音乐的过程。通过原始音频,Jukebox模型学习如何处理多样性和远程结构,同时减少短期,中期或长期时序中的错误。结果还不错。

但是自动存储塔有其局限性。虽然它产生的歌曲在音乐上相当连贯,并具有传统的和弦模式(甚至是独奏),但它们却缺乏重复合唱之类的结构。而且,它们包含明显的噪声,并且从模型中采样的速度非常慢,渲染一分钟的音频需要9个小时。

幸运的是,OpenAI计划将Jukebox的模型提炼成并行采样器,以“显着”加快采样速度。它还打算对点唱机进行英语和西方以外其他语言和世界其他地区歌曲的培训。

“我们的音频团队将继续致力于根据不同类型的启动信息生成音频样本。特别是,我们已经看到在MIDI文件和词干文件上取得成功的前提条件,” OpenAI写道。“我们希望这将改善采样的音乐性(通过调节歌词来改善演唱),这也将是一种使音乐家对世代具有更多控制权的方式。我们希望人与模型的合作将成为一个越来越令人兴奋的创意空间。”

音乐AI正在快速发展。在2018年末,Google Brain的“ Magenta项目”致力于“探索机器学习在创作过程中的工具作用”,提出了Musical Transformer,该模型能够生成具有可识别重复性的歌曲。去年三月,谷歌发布了一种算法谷歌涂鸦,使用户可以向巴赫创作旋律。