实际上,可以从视频中读取嘴唇的人工智能和机器学习算法并不是什么特别的。
2016 年,谷歌和牛津大学的研究人员详细介绍了一个可以唇读和注释镜头的系统,准确率达到 46,8%。这对你来说似乎微不足道吗?它已经超过了专业唇语识别者 12,4% 的准确率。 而且还没有LIBS。
然而,46,8% 的人还达不到人工智能今天所能展现的能力。 最先进的系统很难克服嘴唇运动的模糊性,这使得它们的性能无法超越基于音频的语音识别。
为了寻找性能更高的系统,研究人员从 阿里巴巴,浙江大学和史蒂文斯理工学院 他们设计了一种方法 言语交际(LIBS),它使用从语音识别中提取的特征作为补充线索。该系统将标准进一步提高了 8%,并且仍然可以改进。
LIBS和其他类似的解决方案可以帮助听障人士观看没有字幕的视频。 据估计,全球有 466 亿人患有听力损失,约占世界人口的 5%。 据世界卫生组织称,到 2050 年,这一数字可能会增加到 900 亿以上。
唇读的AI方法
LIBS 从几个因素中获取有用的音频信息:就像熟练的密码学家一样,人工智能会寻找可理解的单词。然后,他将它们与唇语对应进行比较,并搜索所有相似的唇语。但它并不止于此:它还比较了这些帧的视频频率和其他技术线索,将搜索细化到即使是我们耳朵无法理解的单词也能读懂嘴唇的程度。
如果看起来很复杂,我会再试一次,但是我不做任何保证。
我引用 技术演示文稿。 “LIBS 的语音识别和唇语阅读器组件都基于基于注意力的序列到序列架构,这是一种将输入映射到序列(音频或视频)的机器翻译方法。=
研究人员在包含 BBC 所说的 45.000 多个句子的初始数据库和 CMLR(最大的可用于普通话唇读的中文语料库,包含超过 100.000 个自然句子)上对人工智能进行了训练。
应用领域不仅限于援助聋人。将每项技术赋予“社会高贵”用途的习惯决不能让我们忘记这些技术的主要用途是在军事或安全领域。
没有人想到这个系统可以监视 令人惊叹的新型安全摄像头,还是新的卫星系统?
随着人工智能现在成为 无所不知的眼睛 听个笑话(或重建)甚至从轨道卫星传来的窃窃私语。