谷歌AI练习生写了首歌,网友听完心率都低了

一整首歌写在一个段落里,甚至男女唱(跳)rap的时候。

男女说唱音频:00:0000:30

Google最新款MusicLM一经推出就惊艳全场,很多网友惊呼:这是我听过最好的音乐作曲。

谷歌AI练习生写了首歌,网友听完心率都低了

它可以根据文本生成任何一种音乐,无论是根据时间、地点、年代等各种因素进行调整,也可以为剧情、世界名画提供音乐,生成人声说唱口哨。

比如这个《呐喊》。

谷歌AI练习生写了首歌,网友听完心率都低了

它在一段取自百科全书的描述的提示下创作了这样一段音乐。

(蒙克在一次幻觉体验中感受到并听到了整个大自然的尖叫声,并以此为灵感,描绘了一个惊慌失措的生物,它既像尸体,又让人联想到精子或胎儿,其轮廓与血红色天空的螺旋线条相呼应空。)

ViT(视觉变形者)的作者说,听了一段关键词为“平静舒缓”“笛子吉他”的生成音乐后,他真的平静下来了。

谷歌AI练习生写了首歌,网友听完心率都低了

难免有同事说这比ChatGPT更值得我关注,Google也差不多解决了音乐生成的问题。

谷歌AI练习生写了首歌,网友听完心率都低了

毕竟MusicLM依靠的是28万小时音乐的训练数据库。其实从发布的Demo来看,MusicLM的能力不止于此。

你可以即兴表演五分钟。

可以看出,MusicLM最大的亮点是根据丰富的文本描述生成音乐,包括乐器、音乐风格、适用场景、节奏和音调,以及是否包含人声(哼唱、吹口哨、合唱),从而生成一段30秒的音乐。

哪怕只是那种暧昧的气氛,“迷失在too 空”和“轻松闲适”;或者可以直接用在一些实际场景中,比如“街机游戏评分”和绘画评分。

谷歌AI练习生写了首歌,网友听完心率都低了

此外,MusicLM还具有创作长篇音乐、故事模式和调整旋律的能力。

在长音乐方面,它可以即兴创作5分钟,哪怕提示只有一个字。

比如只有在Swing的提示下,听起来好像我真的很想立刻下班去跳舞。(布施)

在故事模式中,不同的情绪标记甚至可以在几秒钟内生成,即使情况之间没有联系…

谷歌AI练习生写了首歌,网友听完心率都低了

更神奇的是,它还有很强的实用功能。

一方面可以把旋律提示和文字提示结合起来,让音乐调整得更精细。有点像改变甲方爸爸的需求。

另一方面,也可以根据具体的乐器、场所、流派、年代,甚至音乐家的演奏水平来生成。

谷歌AI练习生写了首歌,网友听完心率都低了

幕后生成模型MusicLM

不过据说AI生成的音乐模型不在少数,谷歌自己之前也推出过类似的模型AudioLM。

这次的MusicLM有什么不同?

谷歌AI练习生写了首歌,网友听完心率都低了

据研究团队介绍,主要贡献有三点:

生成模型MusicLM。

将该方法推广到其他条件信号,如根据文字提示合成的旋律,生成5分钟的demo。

第一个专门为文本到音乐生成任务设计的评估数据集MusicCaps发布了。

首先,MusicLM是Google三个月前提出的AudioLM模型的扩展。

AudioLM不需要转录或标记。只需听音频,AudioLM就能生成与提示风格一致的连贯音乐,包括钢琴声或人声对话等复杂声音。

最新的MusicLM使用AudioLM的多阶段自回归建模作为生成条件,并在此基础上进行扩展,使其可以通过文本提示生成和修改音乐。

它是一个分层的序列对序列模型,可以通过文本描述产生频率为24kHz的音乐,并保持这个频率几分钟。

谷歌AI练习生写了首歌,网友听完心率都低了

具体来说,研究小组使用了三个模型进行预训练,包括自监督音频表示模型SoundStream,它可以在低比特率下压缩一般音频,同时保持高重建质量。

还有语义标记模型w2vBERT促进连贯的生成;音频文本嵌入模型木兰,可以将音乐及其对应的文本描述投射到嵌入空(消除训练时对文本的不同需求),允许在纯音频语料上训练,以应对训练数据有限的问题。

谷歌AI练习生写了首歌,网友听完心率都低了

在训练过程中,他们从纯音频训练集中提取了木兰音频标签、语义标签和声学标签。

在语义建模阶段,他们使用木兰音频标签作为条件来预测语义标签。然后,在声学建模阶段,基于木兰音频标记和语义标记来预测声学标记。

每个阶段都被建模为一个序列-序列任务,并使用一个单独的解码器转换器。

在推理过程中,他们使用从文本提示中计算出的木兰文本标记作为调整信号,并使用SoundStream解码器将生成的音频标记转换成波形。

经过28万小时的训练,MusicLM终于学会了以24kHz的频率生成音乐,即使用来生成音乐的文字非常迂回。

类似于“迷人的爵士歌曲和令人难忘的萨克斯独奏家和独奏者”或者“柏林90年代的低音和强劲的电子音乐”。

研究小组还引入了高质量的音乐数据集MusicCaps,以解决任务缺乏评估数据的问题。

MusicCaps由专业人士共同打造,涵盖5500个音乐-文字对。研究小组公布了这组数据,以供进一步研究。

经过这样的一套操作,通过量化指标和人工评测,MusicLM在音质和文字契合度上都优于上一代音乐AI。

谷歌AI练习生写了首歌,网友听完心率都低了

不过谷歌研究团队表示:目前没有发布MusicLM的计划。

原因很简单。除了训练过程中不可避免的样本质量失真,还有两个关键点。

第一,虽然MusicLM在技术上可以生成合唱、和声等声音,但是仔细听的话,生成音乐的歌词有些勉强算是音乐,有些根本就是没人听得懂的外星方言。

此外,研究团队发现,该系统生成的音乐中,约有1%是直接从训练集中的歌曲复制而来的——这足以阻止MusicLM的发布。

此外,一些批评者质疑在有版权的音乐材料上训练AI模型是否合理。

不过团队在论文中介绍了下一步的趋势,主要集中在歌词生成、提高提示文本的准确率和提高生成质量。

复杂音乐结构的建模也将成为团队的重点方向之一。

音频生成人工智能

这项研究背后的团队是谷歌研究院。

合著者Timo I. Denk是谷歌瑞士公司的一名软件工程师,他的日常工作就是使用ML来理解音乐。

谷歌AI练习生写了首歌,网友听完心率都低了

这里再多说两句,在MusicLM的论文中,研究小组提到MusicLM在质量和及时合规性方面都优于之前的系统。

有哪些「以前的系统」?

一个是Mubert,已经在Github中开放了一个API。它是一个文字转音乐的AI,其系列产品包括根据现有标签生成音乐的Mubert Render,Mubert Play等等。

还有Riffusion,基于AI画图,但是应用到声音上。

换句话说,Riffusion的工作原理是首先构建一个索引谱图集,其中包含代表谱图中捕获的音乐风格的关键字。

在声谱图主体上训练时,Riffusion使用了同样的稳定扩散的方法——干扰噪声,获得与文本提示相匹配的声波图像。

还有针对音乐制作人和音乐人的AI音频生成工具舞蹈扩散,可以自动生成音乐的ML框架点唱机…

比如说,不要整天盯着ChatGPT看。如果AIGC的下一个出路是音乐一代会怎样?

参考链接:

[1]https://Google-research . github . io/seanet/musiclm/examples/

[2]https://arxiv . org/pdf/2301.11325 . pdf

[3]https://TechCrunch . com/2023/01/27/Google-created-an-ai-can-generate-music-from-text-descriptions-but-wot-release-it/

本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系admin#jikehao.com删除。
(0)
极客号的头像极客号
上一篇 2023年 5月 1日
下一篇 2023年 5月 1日

相关推荐

合作联系:1152QQ041010