改变视频变得非常容易(我认为这不仅仅是一件好事),人工智能的最新发展确实令人印象深刻。
巨头(斯坦福大学和普林斯顿大学以及马克斯普朗克信息学研究所和 Adobe)之间的合作使得只需修改文本转录即可改变视频中的演讲,而无需创建“配音”效果。
换句话说,在视频上讲话的人会从字面上改变讲话的语言,同时也会改变嘴唇的动作。
为了获得这个有点令人不安的结果,算法“学习”视频中主体的音素及其发音,并创建其面部的精确 3D 模型,能够复制所有声音和动作: 那时,编辑语音文本就足够了,算法将替换原始句子。
目前,该算法需要至少 40 分钟的镜头来“训练”复制电影中的人物。
这是演示系统工作方式的视频:
巨大的道德怀疑
显然,这种机制创造了一种可能性,即任何人都可以通过插入仇恨或虚假信息并将其传播为原始和自然的方式来修改话语(可能是政治人物或公众人物):这只会增加对基于系统的传播的担忧在deepfake上。
另一方面,也有一些积极的一面,那就是通过避免因微小的发音错误而重新拍摄整个场景,剪辑将获得巨大的节省。
除此之外,我确信还会为视频开发其他“防伪”方法:动态水印或使人工智能的工作变得更加复杂的水印,在现实与操纵之间的竞争中,这似乎已经注定了特征未来几年。