人工智能和机器学习算法正在更好地预测视频中的动作。
当前最好的算法可以非常精确地预测投掷棒球后将去哪儿,或者在随后的顺序中出现道路。 换一种说法? 预测电影的未来帧。
谷歌、密歇根大学和 Adobe 的研究人员提出的一种新方法通过大型模型提高了最先进的水平,只需几帧即可生成高质量视频。
“通过这个项目,我们的目标是获得精确的视频预测。我们将优化神经网络的功能,” 研究人员写道 一个文件 描述他们的工作。
团队模式
该团队的基本模型基于随机视频生成架构, 与一个组件,该组件管理所考虑帧的预测。
团队根据三个预测类别分别与自定义数据集训练和测试了模型的不同版本: 物体之间的相互作用,结构化运动和部分可观察性。
对于第一个任务 (与对象的交互) 研究人员从一段视频中选择了256个剪辑,这些剪辑显示了与毛巾互动时的机械手臂。
对于第二 (结构化运动) 他们编辑了Human 3.6M中的片段,其中包含一个片段,片段中的人类正在执行动作,例如坐在椅子上。
至于第三 (部分可观察性活动),使用了从安装在汽车仪表板上的摄像机镜头中收集的开源KITTI驾驶数据集。
经过这次“训练”后,AI 模型生成了最多 25 个未来帧。
研究人员报告称,在对象交互、结构化运动和部分可观察性任务这三种类型的视频中,评分者分别在 90,2%、98,7% 和 99,3% 的情况下更喜欢“预测”。
定性地,该团队指出,人工智能清晰地描绘了人类的手臂和腿,并完成了 “与视频中描绘的场景相比,非常精确的预测似乎很现实” .
“我们发现最大化此类模型的容量可以提高视频预测的质量,” 合着者写。 我们希望我们的工作能够鼓励该领域在未来朝着类似的方向发展。例如,看看我们能走多远。”