使用现成的网络摄像头跟踪3D人物
无论是用于计算机游戏,运动中的运动分析,还是医学检查,许多应用都要求人们及其动作以3D形式实时地以数字方式捕获。到目前为止,只有使用昂贵的几台摄像机系统或让人们穿着特殊的西装才能实现这一点。马克斯普朗克计算机科学研究所的计算机科学家现已开发出一种只需要一台摄像机的系统。它甚至可以估计在预先录制的视频中行动的人的3D姿势,例如YouTube视频。因此,它在角色控制,虚拟现实和智能手机无处不在的动作捕捉方面提供了新的应用。
“这可以让你用阿尔卑斯山的手机拍摄视频,并进行身体跟踪。用3D实时拍摄,只需用移动设备上的相机 - 这是一个很大的飞跃,” Dushyant Mehta,图形,视觉和视频组的博士生,由萨尔布吕肯马克斯普朗克信息学研究所(MPI)的Christian Theobalt教授领导。
他和他的同事们一起开发了一个软件系统,只需要一个传统的摄像头即可实时数字化地捕捉一个人及其动作。
“到目前为止,已经有几台摄像机,或像Kinect中所谓的深度摄像机,这项任务是必要的,”图形,视觉和视频组的研究员Srinath Sridhar解释道。
新系统基于神经网络,研究人员将其称为“卷积神经网络”,简称CNN,通常与“深度学习”一词相关。MPI研究人员开发了一种新方法,借助神经网络从视频流的二维信息中计算出人的三维姿态。
他们网站上的一个由科学家制作的短片展示了它的外观。研究人员在房间后面与俱乐部玩杂耍,而在前台,显示器会显示相应的录像。研究人员的图形在这里叠加了一个简化的红色棒图。另一个3D视图从侧面显示运动,显示第一次实时捕获完整的3D姿势。无论研究人员移动或延伸他或她的肢体有多快或多远,棒图都会在3D中进行相同的移动,就像虚拟空间中更加充实的虚拟角色版本一样,在左边的另一个监视器上显示。
研究人员将他们的系统称为“VNect”。该系统既预测图像中人物的3D姿势,又将人物定位在图像中。这允许系统避免在不包含人的图像区域上浪费计算。在机器学习过程中使用数万个带注释的图像训练系统的神经网络。该系统根据关节角度提供3D姿势信息,可以很容易地用于控制虚拟角色。
“VNect为更广泛的观众提供3D电脑游戏虚拟现实的身体姿势跟踪,因为他们不需要使用Kinect或其他相机,不需要佩戴特殊的坐姿,并且可以使用更容易使用的网络摄像头Mehta补充说:“它还可以实现第一人称虚拟现实的全新体验。” 除了这种交互式角色控制,VNect还是第一个用于估计社区视频中人物3D姿态的系统,例如在线平台YouTube上提供的那些。Christian Theobalt继续说道:“还有许多其他应用可能,从人机交互到人机交互到工业4.0,人和机器人在工厂里一起工作。还要考虑自动驾驶,
但VNect仍有其局限性。姿势估计的准确度略低于使用多相机或基于标记的姿势估计所获得的准确度。如果人的面部被遮挡,动作太快或者姿势离受过训练的姿势太远,则会遇到麻烦。多人闭塞也是一个问题。
尽管如此,斯里达尔确信该技术将进一步成熟并能够处理越来越复杂的场景,以便它可以在日常生活中使用。