Java教程

人体动作识别、预测小结

本文主要是介绍人体动作识别、预测小结,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

动作预测论文总结

一、概述

人类动作预测主要分为两大领域:早期动作识别(Early action recognition或称为Early action prediction)和动作预期(Action anticipation)。早期动作识别的目标是通过观察动作的早期执行部分来识别该动作,相当于输入一段不完整的动作视频来预测该动作。而动作预期的目标主要是在一系列不同的动作之后预测下一个或是下几个动作,由预测动作的数量不同可以分为稀疏预测(Sparse Prediction)和密集预测(Dense Prediction)。稀疏预测在观察连续的多个动作后预测t秒之后的下一个动作,密集预测在观察连续的多个动作后连续预测之后的多个动作,并要求输出每个动作的执行时间。

二、具体情况

2.1 早期动作预测

在这里插入图片描述
早期动作预测由于输入是一段未执行完的动作视频,因此能捕捉到的信息较少。输入的部分视频占完整视频的比例被称作观察比(observation ratio),一般用r表示,也称为视频进度(vidio progress)。图1表示在观察比0.2的情况下,动作cheer up完整执行视频与部分执行视频的差异,可以看出对于早期动作预测而言,输入的信息缺失了很多重要的部分执行过程。仅靠这些有限的输入信息,很难判断出该动作是什么,因为有大量的动作前期的执行完全一致,使得一般的方法都会产生歧义,严重降低预测的性能。因此,如何从部分的视频中发倔不同于其他动作的重要信息,成为了早期动作预测的难点。早期动作预测也因此比普通的动作识别更有挑战性。在当前的文献中,主要的方法有:双流网络,知识蒸馏,对抗学习等。具体的文献方法如下:
[1]在未剪辑的动作视频上进行预测,即一个视频片段有多个动作。它使用了一个双流网络,同时关注上下文联系和具体动作的表示,并引入了一个新的损失函数,通过随时间推移不同程度地惩罚假阳性来鼓励预测。
[2]同样使用双流网络,让输入通过RGB流和光流后融合特征,最后使用一个存储键值对的存储器存储结果,并将预测结果与其他样本相比较后输出。
[3, 4]都使用了对抗学习的方法提高预测能力,都同时将完整视频与部分视频一起输入。但不同的是[3]旨在利用一个编码器和两个解码器将部分视频的特征映射到完整视频的特征空间中,并学习完整视频中丰富的连续上下文特征表示。[4]则是将完整视频和部分视频一起输入一个推断网络提取特征,然后送入一个判别器中判断该特征来源完整或者部分视频序列,推断网络通过干扰判别器的判别而让部分视频的特征提取过程学习到完整视频的潜在特征。
[5]提出了一个分两阶段的学习框架,第一个阶段先通过训练完整视频学习特征嵌入和标签分类,第二阶段将学习到的知识转移给部分视频。
[6]在未修剪的多动作骨架视频序列中提出了一种滑动窗口框架,模型不仅在每一帧分类预测当前的动作,还回归预测当前动作的开始时间,这就表示了当前动作执行的时间,用于确定滑动窗口的大小,通过分类与回归确定每一帧的动作预测。
[7]提出了教师-学生模型,用一个较复杂的双向LSTM网络表示教师模型,单向LSTM网络表示学生模型,首先使用完整视频训练好教师模型,随后使用部分视频训练学生模型,学生模型不仅学习教师模型的预测分布还学习教师模型的特征分布。
[8]提出通过在网络中传递残差来重建特征,并通过卡尔曼滤波器来避免累积误差。

2.2.1 数据集

NTU RGB+D 60:是一个基于骨架的动作数据集。它包含超过400万帧和56000个序列。每个骨骼包含25个关节。该数据集由放置在不同位置和视角(总共80个视点)的三个相机捕获。有40名实验者执行了60个动作。这些动作包括握手、拥抱等复杂的两人互动和看手机、喝酒等单人动作。由于大的组内多样性和视点的变化,这个数据集非常具有挑战性。并且该数据集的作者推荐了两个基准:(1)交叉主题(CS)包含40320个训练样本和16560个评估样本,将40个实验者分成两组;(2)交叉视图(CV)使用摄像机2和3 (37920个样本)进行训练,摄像机1 (18960个样本)进行评估。
NTU RGB+D 120:该数据集是目前最大的室内动作识别数据集,是NTU 60数据集的扩展版本。它包含114480个视频,由120个类别组成。作者同样建议两个基准:(1)交叉学科(CSub)包含630226个训练样本和50922个评价样本;(2)交叉设置(CSet)包含54471个培训视频和59477个视频用于评估,根据收集器的距离和高度进行分隔。
UCF-101:基于RGB视频的数据集,被广泛用于动作识别,它由101个动作类的13320个完整视频组成,大多数被考虑的动作包括人与物体的相互作用、身体运动、人与人的相互作用和运动。
SYSU 3DHOI dataset:由Kinect v1捕获的骨架数据集,共有12个动作类别的480个RGBD视频序列。每一个动作都涉及一种人与物的交互。与NTU RGB-D动作集相似,共有40名演员与六个不同的物体进行12个人物交互动作。

2.2.2评估方式

早期行为预测与动作识别的评估方式基本相同,都为分类的准确度,唯一不同的是早期行为识别需要使用一个超参数r来表示可观察视频序列占全部视频序列的比例,r越大,可观察的动作视频资料越多,准确率相应也应该提高。一般r从0.1到1.0每次递增0.1,共取10个数。如表1所示。
表 1 早期行为预测的评估方式举例,表中为[7]在NTU-RGB+D 60中不同观察比的分类准确率情况

为了展现不同的效果,还可以通过折线图来表示,如图所示。

在这里插入图片描述
在这里插入图片描述

2.2 动作识别

动作识别是早期动作预测的基础,旨在输入一段视频序列,由模型输出该视频中的动作类别。早期学者们研究RGB视频数据集的动作识别,近些年来,由于3D人体骨架能很好地避免周围物体和环境光照的影响,并且能展示2D视频不能体现的3D坐标而备受关注,强鲁棒性且不丧失动作精度的3D骨架数据集成为了动作识别的主要数据集。之前,学者们多使用手工制作特征来提取关键信息,随着深度学习的兴起,卷积神经网络(CNNs)、循环神经网络(RNNs)以及图卷积网络(GCNs)在人体骨架数据集上取得了极为优异的成果。特别是图卷积网络,由于人体骨架天然的图结构而得到了更好的效果。

[1] M. Sadegh Aliakbarian, F. Sadat Saleh, M. Salzmann, B. Fernando, L. Petersson, and L. Andersson, “Encouraging lstms to anticipate actions very early,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 280-289.
[2] Y. Kong, S. Gao, B. Sun, and Y. Fu, “Action prediction from videos via memorizing hard-to-predict samples,” in Proceedings of the AAAI Conference on Artificial Intelligence, 2018, vol. 32, no. 1.
[3] Y. Kong, Z. Tao, and Y. Fu, “Adversarial action prediction networks,” IEEE transactions on pattern analysis and machine intelligence, vol. 42, no. 3, pp. 539-553, 2018.
[4] Q. Ke, M. Bennamoun, H. Rahmani, S. An, F. Sohel, and F. Boussaid, “Learning latent global network for skeleton-based action prediction,” IEEE Transactions on Image Processing, vol. 29, pp. 959-970, 2019.
[5] Y. Cai, H. Li, J.-F. Hu, and W.-S. Zheng, “Action knowledge transfer for action prediction with partial videos,” in Proceedings of the AAAI Conference on Artificial Intelligence, 2019, vol. 33, no. 01, pp. 8118-8125.
[6] J. Liu, A. Shahroudy, G. Wang, L.-Y. Duan, and A. C. Kot, “Skeleton-based online action prediction using scale selection network,” IEEE transactions on pattern analysis and machine intelligence, vol. 42, no. 6, pp. 1453-1467, 2019.
[7] X. Wang, J. Hu, J. Lai, J. Zhang, and W. Zheng, “Progressive Teacher-Student Learning for Early Action Prediction,” in 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 15-20 June 2019 2019, pp. 3551-3560, doi: 10.1109/CVPR.2019.00367.
[8] H. Zhao and R. P. Wildes, “Spatiotemporal feature residual propagation for action prediction,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019, pp. 7003-7012.

这篇关于人体动作识别、预测小结的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!