语音引擎，OpenAI 仅用 15 秒的音频克隆语音

三月30 2024

技术

翻译自己的声音、向患者反馈语音、创建具有表现力的声音的有声读物：这些是 OpenAI 语音引擎的一些承诺。但大规模采用的道路需要对合成声音进行道德和监管反思。

“这是我的声音。或者至少，确实如此。现在它也属于一种算法，它可以让我说出我从未说过的话。”。科幻小说的开头？不。随着合成谣言的传播而出现的情况。能够从一些音频样本开始克隆我们声音的技术，例如 语音引擎 由 OpenAI 提供。一个雄心勃勃的项目，刚刚介绍，它有望彻底改变娱乐、教育、医疗保健等领域。但这也引发了关于人工智能时代我们身份控制的令人不安的问题。

数字以太中被盗的声音

将来你的声音将不再属于你。这将是一个任何人只需点击几下就可以让你说出任何话的世界。从未说过的话语，从未表达过的观点，从未透露过的秘密。随着合成声音的进步，反乌托邦的噩梦出现在地平线上。

请注意，有可能生成人工声音这不是什么新鲜事。几十年来，已经出现了能够将文本转换为语音的软件，但或多或少会产生机械和令人不快的结果。但人工智能的新领域有望改变游戏规则。在庞大的数据集和神经网络的支持下，日益复杂的算法正在学习模仿人类语音的细微差别，并接近完美。音色、语调、节奏、停顿：使声音独特且可识别的所有元素现在都在机器的能力范围内。

语音引擎 OpenAI 是这一趋势的最新体现。一个模型 能够从仅 15 秒的非常短的音频样本开始生成逼真、自然的声音。 一个小奇迹（或者一个小恐怖，取决于你的观点），打开了直到最近才出现的科幻场景。

语音引擎：交响乐还是人造杂音？

潜在的应用领域是多种多样且令人着迷的。 想想娱乐圈： 借助合成声音，演员可以为动画电影或视频游戏中的角色配音，而无需在录音室花费数小时。配音演员可能会用他们不懂的语言工作，依靠机器翻译。有声读物可以用富有表现力和引人入胜的声音来叙述，代表各种口音和风格。

那么医疗保健呢？ 借助语音引擎等工具，患有言语或发声问题的患者可以找到自然且个性化的声音。那些盲人或有阅读困难的人可以更轻松地访问转换为音频的文本内容。语言障碍可以被打破，语音助手能够流利地讲任何语言。

更不用说教育潜力了： 通过用合成但真实的声音说话来学习外语，用自己的声音接收虚拟导师的纠正反馈，创建可定制的多语言教育内容。机会是无穷无尽且诱人的。

但每枚奖牌都有其缺点。

Deepfake时代的声音身份

第一个也是最明显的风险是错误信息和操纵。 使用 Voice Engine 等音频和索拉的视频，任何人都可以制作虚假但可信的公众人物或普通公民的剪辑。伪造的政治演讲、捏造的声明、逼供：假新闻会在合成声音中找到强大的盟友。在一个已经对媒体和机构不信任的时代，甚至不再能够相信我们亲耳听到的内容的前景是可怕的。

然后是隐私和对生物识别数据的控制问题。 我们的声音是我们身份的一个显着特征，就像指纹或视网膜一样。但与其他生物识别数据不同的是，它在我们不知情的情况下相对容易捕获和复制。被盗的几秒钟录音（可能来自电话或公共视频）足以为语音引擎等算法提供数据。瞧，我们的声音不再是我们自己的了。它可以被使用、滥用、脱离语境，而我们却无法采取很多措施来阻止它。

请注意，OpenAI 意识到这些风险，并试图以负责任的方式解决这些风险。测试语音引擎的合作伙伴必须遵守严格的道德准则：未经同意不得模仿真人，必须获得语音捐赠者的明确授权，对合成语音的人工性质保持最大程度的透明度。它们是朝着正确方向迈出的一步，但并没有解决问题的根源。

因为归根结底，这个问题在成为技术问题之前就已经是哲学问题了。它涉及我们与声音的关系，声音是自我的表达，是日益中介化和人工化的世界中真实性的标志。这是关于我们对个人独特性和自主性的重视，以及对看到它们消失在深度赝品和流动身份的模糊海洋中的恐惧。

语音引擎：未来（仍然）有声音吗？

面对这些问题，勒德分子可能会拒绝诱惑：使合成声音静音，将其视为一种“反常”技术，以“自然”声音的假定纯净为避难所。但这将是一种短视且适得其反的反应。与任何技术一样，合成声音本身并没有好坏之分：这取决于我们如何使用它们。

因此，面临的挑战是建立一个道德和监管框架，引导发展朝着共同利益的方向发展。定义用于获取和使用语音数据的共享标准和协议。提高公民对合成声音的风险和机遇的认识，为他们提供自我定位的重要工具。投资研究可靠的方法来验证声音并追踪音频内容的来源。促进所有利益相关者参与，就这些问题进行公开、知情的公开辩论。

这不会是一个轻松或短暂的旅程。这需要远见、决心和协作精神。但这是一条必经之路，因为这里的利害关系不仅仅是技术。这是存在主义的。它关系到我们个性在现实与虚拟、真实与人造之间的界限变得越来越模糊和渗透的世界中的意义。

在这个世界里，我们的声音，我们灵魂的声音镜子，有可能迷失在合成回声的漩涡中。

詹卢卡·里乔（Gianluca Riccio）Melancia adv 创意总监、文案撰稿人和记者。它是意大利未来研究所、世界未来协会和 H+ 的一部分。自 2006 年以来，他负责指导意大利未来学资源 Futuroprossimo.it。

报告研究、发现和发明， 联系编辑组！ 在 Whatsapp 上关注 Futuro Prossimo： 独家新闻和更新（免费）。

Fatto Quotidiano 上的 FP
阿尔贝托·罗比亚蒂 (Alberto Robiati) 和吉安卢卡·里奇奥 (Gianluca Riccio) 引导读者了解未来的情景：我们必须创造一个可能的明天的机会、风险和可能性。

关于同一主题：

最后

语音引擎，OpenAI 仅用 15 秒的音频克隆语音

技术

分享

数字以太中被盗的声音

语音引擎：交响乐还是人造杂音？

Deepfake时代的声音身份

语音引擎：未来（仍然）有声音吗？

骨关节炎，AI血液测试击败X射线并提前10年预测

我将带您进入“自动化”和人工智能生成的娱乐的未来

人工智能如何释放患有阅读障碍和多动症的学生的潜力

体育场大小的空间站：Max Space 的“充气”梦想

Z型箍缩反应堆开始显现成果：核聚变成本会降低吗？

发现改变献血者血型的酶

Ozempic、Wegovy 和 GLP-1 药物也会减少吸烟和加工食品吗？

“语音引擎，OpenAI 仅用 1 秒音频克隆语音”有 15 条评论