谷歌AI练习生写了首歌，网友听完心率都低了

极客号 • 2023年 5月 1日 12:25 • 业界 • 阅读 97

ChatGPT 国内免翻版！免费 AI写作! 史上最全 AI模型！ ECS服务器5折起！虚位以待

一整首歌写在一个段落里，甚至男女唱(跳)rap的时候。

男女说唱音频:00:0000:30

Google最新款MusicLM一经推出就惊艳全场，很多网友惊呼:这是我听过最好的音乐作曲。

它可以根据文本生成任何一种音乐，无论是根据时间、地点、年代等各种因素进行调整，也可以为剧情、世界名画提供音乐，生成人声说唱口哨。

比如这个《呐喊》。

它在一段取自百科全书的描述的提示下创作了这样一段音乐。

(蒙克在一次幻觉体验中感受到并听到了整个大自然的尖叫声，并以此为灵感，描绘了一个惊慌失措的生物，它既像尸体，又让人联想到精子或胎儿，其轮廓与血红色天空的螺旋线条相呼应空。)

ViT(视觉变形者)的作者说，听了一段关键词为“平静舒缓”“笛子吉他”的生成音乐后，他真的平静下来了。

难免有同事说这比ChatGPT更值得我关注，Google也差不多解决了音乐生成的问题。

毕竟MusicLM依靠的是28万小时音乐的训练数据库。其实从发布的Demo来看，MusicLM的能力不止于此。

你可以即兴表演五分钟。

可以看出，MusicLM最大的亮点是根据丰富的文本描述生成音乐，包括乐器、音乐风格、适用场景、节奏和音调，以及是否包含人声(哼唱、吹口哨、合唱)，从而生成一段30秒的音乐。

哪怕只是那种暧昧的气氛，“迷失在too 空”和“轻松闲适”；或者可以直接用在一些实际场景中，比如“街机游戏评分”和绘画评分。

此外，MusicLM还具有创作长篇音乐、故事模式和调整旋律的能力。

在长音乐方面，它可以即兴创作5分钟，哪怕提示只有一个字。

比如只有在Swing的提示下，听起来好像我真的很想立刻下班去跳舞。(布施)

在故事模式中，不同的情绪标记甚至可以在几秒钟内生成，即使情况之间没有联系…

更神奇的是，它还有很强的实用功能。

一方面可以把旋律提示和文字提示结合起来，让音乐调整得更精细。有点像改变甲方爸爸的需求。

另一方面，也可以根据具体的乐器、场所、流派、年代，甚至音乐家的演奏水平来生成。

幕后生成模型MusicLM

不过据说AI生成的音乐模型不在少数，谷歌自己之前也推出过类似的模型AudioLM。

这次的MusicLM有什么不同？

据研究团队介绍，主要贡献有三点:

生成模型MusicLM。

将该方法推广到其他条件信号，如根据文字提示合成的旋律，生成5分钟的demo。

第一个专门为文本到音乐生成任务设计的评估数据集MusicCaps发布了。

首先，MusicLM是Google三个月前提出的AudioLM模型的扩展。

AudioLM不需要转录或标记。只需听音频，AudioLM就能生成与提示风格一致的连贯音乐，包括钢琴声或人声对话等复杂声音。

最新的MusicLM使用AudioLM的多阶段自回归建模作为生成条件，并在此基础上进行扩展，使其可以通过文本提示生成和修改音乐。

它是一个分层的序列对序列模型，可以通过文本描述产生频率为24kHz的音乐，并保持这个频率几分钟。

具体来说，研究小组使用了三个模型进行预训练，包括自监督音频表示模型SoundStream，它可以在低比特率下压缩一般音频，同时保持高重建质量。

还有语义标记模型w2vBERT促进连贯的生成；音频文本嵌入模型木兰，可以将音乐及其对应的文本描述投射到嵌入空(消除训练时对文本的不同需求)，允许在纯音频语料上训练，以应对训练数据有限的问题。

在训练过程中，他们从纯音频训练集中提取了木兰音频标签、语义标签和声学标签。

在语义建模阶段，他们使用木兰音频标签作为条件来预测语义标签。然后，在声学建模阶段，基于木兰音频标记和语义标记来预测声学标记。

每个阶段都被建模为一个序列-序列任务，并使用一个单独的解码器转换器。

在推理过程中，他们使用从文本提示中计算出的木兰文本标记作为调整信号，并使用SoundStream解码器将生成的音频标记转换成波形。

经过28万小时的训练，MusicLM终于学会了以24kHz的频率生成音乐，即使用来生成音乐的文字非常迂回。

类似于“迷人的爵士歌曲和令人难忘的萨克斯独奏家和独奏者”或者“柏林90年代的低音和强劲的电子音乐”。

研究小组还引入了高质量的音乐数据集MusicCaps，以解决任务缺乏评估数据的问题。

MusicCaps由专业人士共同打造，涵盖5500个音乐-文字对。研究小组公布了这组数据，以供进一步研究。

经过这样的一套操作，通过量化指标和人工评测，MusicLM在音质和文字契合度上都优于上一代音乐AI。

不过谷歌研究团队表示:目前没有发布MusicLM的计划。

原因很简单。除了训练过程中不可避免的样本质量失真，还有两个关键点。

第一，虽然MusicLM在技术上可以生成合唱、和声等声音，但是仔细听的话，生成音乐的歌词有些勉强算是音乐，有些根本就是没人听得懂的外星方言。

此外，研究团队发现，该系统生成的音乐中，约有1%是直接从训练集中的歌曲复制而来的——这足以阻止MusicLM的发布。

此外，一些批评者质疑在有版权的音乐材料上训练AI模型是否合理。

不过团队在论文中介绍了下一步的趋势，主要集中在歌词生成、提高提示文本的准确率和提高生成质量。

复杂音乐结构的建模也将成为团队的重点方向之一。

音频生成人工智能

这项研究背后的团队是谷歌研究院。

合著者Timo I. Denk是谷歌瑞士公司的一名软件工程师，他的日常工作就是使用ML来理解音乐。

这里再多说两句，在MusicLM的论文中，研究小组提到MusicLM在质量和及时合规性方面都优于之前的系统。

有哪些「以前的系统」？

一个是Mubert，已经在Github中开放了一个API。它是一个文字转音乐的AI，其系列产品包括根据现有标签生成音乐的Mubert Render，Mubert Play等等。

还有Riffusion，基于AI画图，但是应用到声音上。

换句话说，Riffusion的工作原理是首先构建一个索引谱图集，其中包含代表谱图中捕获的音乐风格的关键字。

在声谱图主体上训练时，Riffusion使用了同样的稳定扩散的方法——干扰噪声，获得与文本提示相匹配的声波图像。

还有针对音乐制作人和音乐人的AI音频生成工具舞蹈扩散，可以自动生成音乐的ML框架点唱机…

比如说，不要整天盯着ChatGPT看。如果AIGC的下一个出路是音乐一代会怎样？

参考链接:

[1]https://Google-research . github . io/seanet/musiclm/examples/

[2]https://arxiv . org/pdf/2301.11325 . pdf

[3]https://TechCrunch . com/2023/01/27/Google-created-an-ai-can-generate-music-from-text-descriptions-but-wot-release-it/

本文内容及图片均整理自互联网，不代表本站立场，版权归原作者所有，如有侵权请联系admin#jikehao.com删除。

赞 (0)

马斯克详解“星舰”爆炸：“龙卷风”、飞偏、人为引爆延迟

上一篇 2023年 5月 1日

疯狂！淄博烧烤店主为劝退游客自己刷差评犄角旮旯里的烧烤店都能被发现

下一篇 2023年 5月 1日

Gurman：苹果正在开发多款新显示器包括新款Pro Display XDR
根据彭博马克·古尔曼分享的最新信息，苹果正在开发多种新的外部显示器，包括2019年12月与Mac Pro一起推出的高端Pro显示器XDR的更新版本。在今天的新闻简报中，古尔曼表示…
极客号
2022年 12月 19日
0
小米13预约量超60万：明晚发布 4299元起
明晚，小米13和小米13 Pro将作为小米年度新旗舰发布。小米13标准版JD.COM预约数量为34.1万，小米13 Pro为28万。虽然小米13手机的起售价已经涨到了4299元，但…
极客号
2022年 12月 10日
0
成立7年、三冲IPO，花椒直播终于上市，还有新故事吗？
12月12日，已经冲击三次IPO的方化集团终于成功在港交所主板上市。上市当天，花房集团开盘价为3.29港元，较发行价2.8港元上涨17.5%，当日最高涨幅为28.57%。方化集…
极客号
2022年 12月 13日
0
宁德时代回应投资者建议造车重申公司不会造车
据 7 月 4 日报道，宁德时代（300750）是全球领先的动力电池制造商，但该公司重申不会涉足造车领域，就像台积电是全球最大最先进的半导体制造商，不会自主研发芯片。宁德时代在互…
极客号
2023年 7月 4日
0
娱乐场所和景区不再查核酸健康码
随着国内疫情逐渐解封开放后，现在各地针对出行的需要出示的核酸健康码等政策也开始调整了。根据最新的疫情防控措施，娱乐场所和景区不再查核酸健康码，该措施也将会推动…
极客号
2022年 12月 10日
0
新人未出席婚礼父母致辞20秒开席网友：羡慕这种简单的婚礼
在最近的一场婚礼上，新娘的父母希望所有参与者都能享受美食和美酒。演讲只持续了20秒，然后他们就下台了。据摄影师介绍，新郎新娘在北京工作，不能参加自己的婚礼。据田女士介绍，当天她参…
极客号
2023年 4月 20日
0
微软扩大生成式AI版权保护范围，为更多客户提供支持
极客号(Xqh8.com) 11月16日消息:在最新的Ignite大会上，Microsoft宣布将扩展其生成式AI版权保护政策，为使用Azure OpenAI Service的商…
极客号
2023年 11月 16日
0
高达12种！小米13成为史上颜色最多的小米手机
快科技5月5日报道，今天早些时候，小米官方宣布小米13将推出小米13 Ultra定制的三款限定色:星空空蓝、赤霞橙、银杏黄。现在，雷军在微博中正式宣布，小米13的配色达到了12款…
极客号
2023年 5月 5日
0
如何降低二次感染的机率
最近一段时间新冠病毒相关问题都非常火爆，大家涮各大网页话题热搜榜基本上是和新冠有关的，目前国内各地社会面感染人数暴涨，还可能会二次感染，那么如何降低二次感染的机率呢？下面小编为大…
极客号
2022年 12月 18日
0
Redmi K60首款素皮机身揭秘：参照跑车内饰拟真缝线工艺
12月25日下午，Redmi K60首款素皮机身亮相，命名为素皮蓝”，蓝色素皮背壳，看起来高端。现在，官方已经透露了K60的第一个素面皮革车身是如何制作的。据介绍，Redmi设…
极客号
2022年 12月 25日
0

合作联系：1152QQ041010