C/C++教程

【ECCV 2020】论文阅读:Motion Guided 3D Pose Estimation from Videos

本文主要是介绍【ECCV 2020】论文阅读:Motion Guided 3D Pose Estimation from Videos,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

ECCV2020的一篇关于3D姿态视频评估的文章

论文地址:https://arxiv.org/abs/2004.13985

Github地址:好像没找到官方的,但已经有非官方的供参考:https://github.com/tamasino52/UGCN

单位:亚马逊、港中文

摘要

作者提出了一个新的损失函数,称之为motion loss,用于解决单目下从2D pose到3D HPE的问题。在计算motion loss时,一种简单却有效的关键点动作表示方法——paorwise motion被引入进来。作者设计了一个新的图卷积神经网络架构UGCN,这个架构同时捕获长短时动作信息以充分利用motion loss中额外的监督信息。作者在两个大型数据集Human3.6M 和 MPI-INF-3DHP.上进行了实验。该模型大大超过了其他最先进的模型,同时展示了产生平滑的3D序列和恢复关键动作的强大能力。

1&2. Introduction and related work

解释一下文中关于Minkowski Distance部分的描述,下图是定义,P=1时为曼哈顿距离,P=2时为欧几里得距离。通过Fig.1解释一下Minkowski Distance的局限性。通过图中可知,trace1基本和ground truth曲线形状相似,trace2趋势不同但还是比较丝滑的,trace3就随机摇摆并且不平滑了,三条曲线的L1 loss平均值相等,但是时序结构完全不同,因为Minkowski Distance只是独立计算每个瞬间的距离,而无法体现轨迹的内部依赖。因为人体关节点与单摆类似,这也是为什么作者要提出这个motion loss。

motion loss需要在重建三维关键点位置的基础上,额外重建关键的的轨迹。它通过计算特定表中空间(称为motion encoding)中预测关节点位置和真实值之间的差值来衡量动作重建质量。motion encoding以可微分算子的形式建立。首先将一个轨迹粗略的分解为一组成对的坐标向量,它们具有不同的时间间隔对应不同的时间尺度。一个可微分的二元向量算子,如减法,内积和向量积,应用在每一对上。然后将得到的结果串联起来构造完全的motion coding。这种表示方法如图1所示,运用的是减法,可以有效的评估时序结构的质量。

 

 

 

这篇关于【ECCV 2020】论文阅读:Motion Guided 3D Pose Estimation from Videos的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!