要知道,人工智能是这几个月的主题:它刚刚开始爆炸,只会在未来几年向我们展示它的所有影响。
微软也是这项技术的幕后推手:它最近使用人工智能来改进其应用程序的功能,现在它可以向创建 ChatGPT 的 OpenAI 公司投资高达 10 亿美元。然而今天,我听说了另一个微软项目, 瓦力,这是令人难以置信的。
这款尖端工具经过大量语音数据(超过 60.000 小时的英语口语训练)的训练。根据雷德蒙德公司的说法,该数据集“比现有系统大数百倍”。包括 更先进的.
VALL-E 学会了什么? 没什么,一点小事。 只需聆听三秒钟,它就能完美地再现和模仿任何人的声音。
语音复制器?
不仅仅是这个。 VALL-E 是语音人工智能领域的一场真正的革命。因为它能够以非凡的精度再现给定样本中存在的情感、声调和声学环境,与现有的文本转语音 (TTS) 系统相比,这是一个巨大的进步。换句话说,VALL-E 的声音听起来更像人类的声音,而不是人工智能的声音。
在他的 Linkedin 个人资料上 (参观), 数字策略师 阿尔贝托贾科博内 链接到由 VALL-E e 创建的小型人声样本库 放在网上 在 GitHub 平台上。结果令人惊讶:在许多剪辑中,说话者声音的语调和口音都被完美再现。
有些例子缺乏说服力,这表明VALL-E还不是成品。然而,整体的输出却如此令人信服,让我们无话可说。
大风险,大潜力
很明显,这项技术引起了人们对潜在滥用风险的担忧,例如身份盗用。 VALL-E 将能够创建与真人无法区分的语音深度伪造,可用于在许多情况下以多种方式欺骗人们。
为了应对这种威胁,在 VALL-E 介绍文件中(我在这里链接) 微软表示,它正在致力于开发一种可以区分真实语音和合成语音的检测模型。
然而,尽管存在(巨大的)风险,像 VALL-E 这样的工具可能特别有用,可以帮助人们在事故后找到自己的声音,轻松创建更自然的播客和有声读物……一如既往,您的想象力是有限的。