音频LM谷歌研究人员开发的系统会生成各种声音,包括复杂的声音,如歌曲中的钢琴音乐或人们交谈,与提交给它的初始片段几乎无法区分。
这项技术确实很有前途,并且可以在很多方面发挥作用。例如,它将能够加快人工智能训练过程,或者自动生成音乐来伴随视频。但它的意义远不止于此。
再玩一次,山姆
我们已经习惯了听到人工智能生成的音频。那些每天与 Alexa 或 Google Nest 争论的人都清楚这一点:我们的语音助手处理自然语言。
当然,还有受过音乐训练的系统:记住 点唱机 通过 OpenAI? 我在这里告诉过你。 然而,所有这些系统都是基于长期而复杂的“训练”,其中涉及许多“线索”的编目和管理。我们的人工智能对数据贪婪,而且总是想要更多。
下一步是让人工智能能够“思考”,使其能够更快地处理听到的信息,而不需要长时间的训练。类似于我们尝试对自动驾驶系统所做的事情。
AudioLM 的工作原理
为了生成音频,需要将几秒钟的歌曲或声音输入 AudioLM,它会准确地预测接下来会发生什么。它不是 Shazam,它不会搜索整首歌曲并重播。他不会根据记忆中的声音进行拼贴。他建造了它们。该过程类似于我的方式 语言模型 像 GPT-3 一样,它们预测短语和单词。
谷歌团队发布的音频片段听起来非常自然。 尤其是,AudioLM 生成的钢琴音乐似乎比当前人工智能生成的更流畅。 换句话说,他更擅长捕捉我们制作歌曲或声音的方式。
“这确实令人印象深刻,还因为它表明这些系统正在学习某种多层结构,”他说 罗杰·丹南伯格,卡内基梅隆大学计算机生成音乐研究员。
不仅仅是一首歌
想象一下与 AudioLM 交谈,两个词就够了。系统将通过学习你的节奏、你的口音、你的停顿,甚至你的呼吸来继续演讲。总而言之,正是你的说话方式。不需要特殊的训练:他几乎可以自己完成。
就像鹦鹉重复你听到的事情。 只有这只鹦鹉能够接收和发出任何声音,并能自主完成中间剩下的那些。
总而言之? 我们将很快(在这些情况下意味着很快)系统能够更自然地说话,并创作一首歌或听起来完全一样 达尔-E 2,MidjourneyAI 和其他人创建图像,或 制作一段视频 根据我们的输入创建剪辑。
谁拥有歌曲的版权?
即使这些系统几乎能够自行创建内容,“几乎”仍然会带来世界上的所有差异,并且有必要考虑这项技术的伦理影响。
如果我说“Thing,为波西米亚狂想曲给我一个不同的结局”,而这件事按照这样的思路制作了一首歌,谁将获得这首歌的版权并收取版税?更不用说现在与人类无法区分的声音和言语变得更加令人信服,并引发了错误信息前所未有的传播。
在为介绍此 AI 而发布的文件中(我在这里链接),研究人员写道,他们已经在考虑如何通过插入将自然声音与 AudioLM 产生的声音区分开来的方法来缓解这些问题。 我相信很少。 创建此 AI 的许多目的都将丢失。
更一般地说,风险在于产生一种我称之为“不信任现实”的现象。如果一切都可以是真的,那么什么都不是。没有什么是有价值的。