AudioLM，谷歌的人工智能聆听歌曲的片段并完成它

十月8 2022

技术

一个新的人工智能系统能够在听了几秒钟的音频或歌曲后从声音中创建音乐（和单词）

音频LM谷歌研究人员开发的系统会生成各种声音，包括复杂的声音，如歌曲中的钢琴音乐或人们交谈，与提交给它的初始片段几乎无法区分。

这项技术确实很有前途，并且可以在很多方面发挥作用。例如，它将能够加快人工智能训练过程，或者自动生成音乐来伴随视频。但它的意义远不止于此。

我们已经习惯了听到人工智能生成的音频。那些每天与 Alexa 或 Google Nest 争论的人都清楚这一点：我们的语音助手处理自然语言。

当然，还有受过音乐训练的系统：记住 点唱机 通过 OpenAI？我在这里告诉过你。然而，所有这些系统都是基于长期而复杂的“训练”，其中涉及许多“线索”的编目和管理。我们的人工智能对数据贪婪，而且总是想要更多。

下一步是让人工智能能够“思考”，使其能够更快地处理听到的信息，而不需要长时间的训练。类似于我们尝试对自动驾驶系统所做的事情。

为了生成音频，需要将几秒钟的歌曲或声音输入 AudioLM，它会准确地预测接下来会发生什么。它不是 Shazam，它不会搜索整首歌曲并重播。他不会根据记忆中的声音进行拼贴。他建造了它们。该过程类似于我的方式语言模型像 GPT-3 一样，它们预测短语和单词。

谷歌团队发布的音频片段听起来非常自然。尤其是，AudioLM 生成的钢琴音乐似乎比当前人工智能生成的更流畅。换句话说，他更擅长捕捉我们制作歌曲或声音的方式。

“这确实令人印象深刻，还因为它表明这些系统正在学习某种多层结构，”他说 罗杰·丹南伯格，卡内基梅隆大学计算机生成音乐研究员。

想象一下与 AudioLM 交谈，两个词就够了。系统将通过学习你的节奏、你的口音、你的停顿，甚至你的呼吸来继续演讲。总而言之，正是你的说话方式。不需要特殊的训练：他几乎可以自己完成。

就像鹦鹉重复你听到的事情。只有这只鹦鹉能够接收和发出任何声音，并能自主完成中间剩下的那些。

总而言之？ 我们将很快（在这些情况下意味着很快）系统能够更自然地说话，并创作一首歌或听起来完全一样达尔-E 2，MidjourneyAI 和其他人创建图像，或制作一段视频根据我们的输入创建剪辑。

即使这些系统几乎能够自行创建内容，“几乎”仍然会带来世界上的所有差异，并且有必要考虑这项技术的伦理影响。

如果我说“Thing，为波西米亚狂想曲给我一个不同的结局”，而这件事按照这样的思路制作了一首歌，谁将获得这首歌的版权并收取版税？更不用说现在与人类无法区分的声音和言语变得更加令人信服，并引发了错误信息前所未有的传播。

在为介绍此 AI 而发布的文件中（我在这里链接)，研究人员写道，他们已经在考虑如何通过插入将自然声音与 AudioLM 产生的声音区分开来的方法来缓解这些问题。 我相信很少。创建此 AI 的许多目的都将丢失。

更一般地说，风险在于产生一种我称之为“不信任现实”的现象。如果一切都可以是真的，那么什么都不是。没有什么是有价值的。

詹卢卡·里乔（Gianluca Riccio）Melancia adv 创意总监、文案撰稿人和记者。它是意大利未来研究所、世界未来协会和 H+ 的一部分。自 2006 年以来，他负责指导意大利未来学资源 Futuroprossimo.it。

Fatto Quotidiano 上的 FP
阿尔贝托·罗比亚蒂 (Alberto Robiati) 和吉安卢卡·里奇奥 (Gianluca Riccio) 引导读者了解未来的情景：我们必须创造一个可能的明天的机会、风险和可能性。

关于同一主题：

最后