动作识别 计算机视觉技术深度解读之视频动作识别
视频理解和识别是计算机视觉的基本任务之一。随着视频设备和网络的普及,视频理解越来越受到研究者的关注。识别视频中的动作是具有很高实际应用价值的挑战性任务之一。与图像相比,视频内容和背景更加复杂多变,不同的动作类别相似,而同一类别在不同环境下具有不同的特征。此外,拍摄带来的遮挡、抖动、角度变化等也给运动识别带来了进一步的困难。在实际应用中,准确的运动识别有助于舆情监控、广告以及许多其他与视频理解相关的任务。
与图像识别相比,视频分析需要更多的数据。在早期的数据集KTH、魏茨曼等,只有演员表演固定的动作,如散步、慢跑等。之后,UCF101等大规模数据集由网络视频组成,具体动作类别由志愿者手工标注。目前,研究人员已经发布了更大的数据集,例如,动力学包含数百个动作和数十万个视频。虽然与实际情况相比仍不全面,但对运动识别的研究也有很大帮助。
图1。运动学数据集的示例视频帧
目前常用的视频运动识别技术大致可以分为以下几类:
1.基于人工特征的视频运动识别
早期的运动识别主要基于感兴趣点的检测和表示。梯度直方图、时间空感兴趣点检测和光流直方图都用于提取图像和时间序列的特征表示。与图像相比,视频包含了大量的运动信息。为了更好地利用运动信息,恒等人提出了密集跟踪的特征,对光流中每个像素的特征进行集中提取和跟踪,编码后进行分类。然而,当面对大规模数据集时,这些特性缺乏一定的灵活性和可扩展性。
2.基于双流的神经网络
近年来,神经网络在图像识别和目标检测等计算机视觉任务中取得了几乎优越的成绩,研究人员越来越多地将神经网络用于视频任务。然而,将用于图像分类的神经网络直接应用于视频分类会忽略视频的时间特性,这对于视频分类尤为重要。为此,研究者提出了一种基于双流的运动识别方法。Simonyan等人提出了一种融合网络。本文首次将视频分为空和时间,将RGB图像和光流图像送入两个神经网络融合最终的分类结果。如图2所示,利用双流神经网络可以同时获得视频中人或物体的外观和运动信息,这种方法在当时的每个参考数据集上都达到了领先的识别水平。
图2。双流神经网络结构图
此后,许多研究对双流网络的框架进行了改进。例如,时间分段网络提出了一种能够捕获更长时间序列的网络结构。徐提出了基于密集扩展网络的框架,并讨论了空与时间分支的不同融合方式。
3.基于三维卷积的神经网络
除了双流网络,一些研究人员还将神经网络优化为视频的三维卷积神经网络,以捕获更多的时间空信息。如图3所示,Tran等人首次提出在视频运动识别中使用三维神经网络代替二维神经网络。此后,由于ResNet在图像识别任务中的良好效果,Hara等人提出了基于3D网络的ResNet,邱等人也提出了用模拟3D神经网络的伪3D网络。
图3。神的三维网络示意图。
最近,深心团队提出了充气3D ConvNets。具体方法是使用2D网络权值展开作为三维网络的预训练权值。同时,借助大规模动力学数据集,对基准数据集的效果明显提高。
4.其他人
此外,还有很多研究者在探索其他更有效的视频动作识别方法,如基于长短记忆网络的识别框架、基于反神经网络的框架等。
运动识别虽然取得了快速的进步,但仍远未达到人类识别的水平,在实际应用中面临着各种复杂的问题。我们期待在未来的研究中出现更具可扩展性和鲁棒性的算法和框架。
参考文献:
。舒尔特、拉普捷夫和卡普托,“识别人类行为:一种局部支持向量机方法”,ICPR,2004年,第32-36页。
。布兰克、戈瑞克、谢奇曼、伊拉尼和巴斯里,“作为时空形状的行动”,载于《国际计算机视觉会议》,第2卷,2005年,第1395-1402页。
。K. Soomro,A. R. Zamir,M. Shah,“UCF101:来自野外视频的101个人类动作数据集”,arXiv:1212.0402,2012。
。凯、卡雷拉、西蒙尼扬、张、希利尔、维贾亚南、维奥拉、格林、巴克、纳采夫、苏莱曼和齐泽曼,“人类动作视频数据集的动力学”,arXiv: 1705.06950,2017。
。人类检测的方向梯度直方图,CVPR,2005年,第886-893页。
。I .拉普捷夫,“关于时空兴趣点”,《国际计算机视觉杂志》,第64卷,第2-3期,第107-123页,2005年。
拉普捷夫、马斯克、施密德和罗赞菲尔德,“从电影中学习真实的人类行为”,CVPR,2008。
。王、恒和科迪莉亚·施密德。"改进轨迹的动作识别."ICCV。2013.
。齐泽曼,“用于视频中动作识别的双流卷积网络”,NIPS,第568-576页,2014。
。王等,“时间片段网络:走向深度行动识别的良好做法”,,第20-36页,2016年。
。徐,,等:“视频动作识别的密集扩张网络”图像处理。
。“用3D卷积网络学习时空特征”,ICCV,第4489-4497页,2015年12月。
。Hara,k,Kataoka,h .,& Satoh,y .时空三维cnns能否追溯二维cnns和imagenet的历史?。CVPR,2018年,第6546-6555页。
。邱,姚,梅,“用伪三维残差网络学习时空表示”,,第5534-5542页,2017年10月。
。卡雷拉、若昂和安德鲁·齐泽曼。“现状瓦迪斯,行动认可吗?新模型和动力学数据集。”,CVPR,2017年。
。视觉识别和设计的长期递归卷积网络,CVPR。2015.
。于,,等,“利用分层生成对抗网络进行视频识别”,IJCAI。2018.