第四章 新技术、新产品、新应用
多模态3D视觉身份识别技术简析

/ 陈智超 童静  北京的卢深视科技有限公司

 

  一、3D视觉人体识别及行为分析综述

  1.背景分析

  传统的人体重建方法对场景要求较高,一般需要复杂的标定,存在算法鲁棒性低、计算复杂度高、建模时间长、用户体验差等问题。目前安防行业的识别技术主要依靠二维图像,由于二维图像识别方法通过堆数据训练,因此无法突破准确性瓶颈,这将导致无法达到广泛化规模应用的门槛。本身光的信息里存在相位、偏正态的信息,三维数据中加入了形状信息,两者结合可进一步提升机器视觉应用的准确性和安全性,更重要的是,3D的精准动作捕捉为上层的行为语义分析的准确性提供重要基础。

  随着三维视觉技术的发展,人体的三维重建、人体体态识别、手势识别等技术都能融合到安防视频监控领域,多维度识别信息的加入将对生物识别技术起到至关重要的作用。三维视频流技术的实现可有效提取目标人物身高、体型、步态特征。充分利用彩色信息与深度数据之间的优势互补,突破当前二维视频结构化技术的局限,给用户提供更准确的视频结构化信息,为安防监控系统提供更准确的情报。同时,3D视觉人体识别重点在于进行步态、体态的学习识别,基于大数据的逻辑推理,结合人脸信息进行包括行动轨迹在内的融合分析,最终实现预测预警。近年来,三维视觉技术的发展突飞猛进,人体三维高精度还原、人体三维动作等技术将在安防、消费、娱乐等行业中应用落地。

  2.国内外相关研究及进展情况

  当前国内外相关的研究机构主要针对人脸及人体重建进行学术方面的研究积累,三维人体建模是指利用计算机图形学和视觉方法将现实中人体的三维信息数字化的过程,其在3D电影、3D动画制作、3D游戏、虚拟试衣和虚拟现实等应用中发挥着重要作用,也是当前计算机图形学领域的研究热点之一。对于人体三维重建领域,国外研究机构主要分布在德国布伦瑞克大学计算机图形学实验室和马克思普朗克信息学研究所,国内浙江大学、中国科技大学、清华大学等高校均设立了相关实验室研究所。

  当前商业化应用落地在人体三维重建及动作捕捉方向的需求较为明显,如iPhone手机内嵌的Animoji应用、Xsens MVN System动作捕捉设备、Mantis Vision 3D录音棚等。然而,现阶段的研究方向主要还是侧重于消费娱乐领域,或是依赖于大型的采集设备、穿戴设备等场景,造价高昂且可移植性较差。针对安防、测量等场景下要求的高精度、可移植性强、可便携式等需求,还未有成型的三维技术应用推出,相信在不远的将来会有可行性的解决方案。

  二、如何构建3D视觉人体识别及行为分析系统

  1. 系统组成及核心技术点

  人体识别系统主要由三个部分组成,包括:人体三维信息采集、人体检测和跟踪、人体属性识别。

  (1)人体三维信息采集

  不同形式的人体图像都能通过摄像镜头有效采集:

  ①静态图像、动态图像、不同位置、不同角度、不同姿态等都可以得到很好的采集。

  ②可以连续采集视频序列、抓拍最优帧。

  ③特殊场景可以采集多视角完整人体数据。

  人体多视角数据采集

  (2)人体检测和跟踪

  当行人进入拍摄范围内能够快速检测到人体,并在图像中准确标定出人体的位置和大小。在拍摄范围内能够准确跟踪人员行进路线,实时显示行进路径。对于其他一些应用需求,可以实时将人体与背景分割,并对不同人的进行路径区分标注。

  目前有许多优秀的研究机构推出了各种人体检测算法,支持大场景、多人实时的人体检测,例如:SSD、yolo、Faster R-CNN等。的卢目前基于yoloV5改进的人体目标检测算法,在大场景、多人检测的环境下都有不错的效果,在精度上MAP50(目标检测评价指标)可以达到65,基于低端CPU(i7-4790)帧率可以达到15fps,实测效果如图 2 所示。

  2 人体检测实际场景测试样例

  (3)人体属性识别

  人体属性识别是一个非常大的课题,人的属性信息包括自身属性和外部属性。自身属性包含性别、年龄、身高、肩宽、动作、表情、手势等。外部属性包括:服饰、帽子、口罩、背包、手机、器械等。通过这些属性我们可以识别相应的信息,例如通过步态可以辅助识别人的身份,过行为分析可以识别是否危险行为,通过手势可以识别语义信息、通过穿着背包可以识别人的状态等。

  目前人体属性识别也是各大机构研究的主要方向之一,一些优秀的网络可以把人的属性较好的分割出来,例如Mask_RCNN、PSPNet、G-FRNet等。的卢深视目前在人体属性分割网络的研究主要包括:人体区域的识别、周边物品的识别等,希望可以对人的属性有一个全面的了解,如图3所示,可以识别人体的部位、特征、颜色等关键信息。

  3 人体属性识别示例

  人体识别的核心技术有很多,主要的有以下几种:

  ①人体检测和跟踪:可以保证实时检测人体并跟踪人体状态,检测的精度和能力是该技术的主要指标。

  ②人体实例分割:可以实时准确分割出人体和背景部分,分割的精度和稳定性是该技术的主要指标。

  ③人体三维高精度重建:可以准确重建出人体三维模型,并快速测量关键部位尺寸。

  人体三维高精度重建及测量是目前各大厂商研究人体的主要方向之一,目前人体重建的研究方向主要有基于参数化模型的三维重建、基于隐层函数的三维重建、基于fusion的人体三维重建等思路。基于参数化模型的三维重建通过参数化模型+顶点偏移或参数化模型+衣服模型,使得此方法相对其他方法具有建模稳定性更强、参数量更少、效率更高等优点,典型算法的有SMPL、SMPLX等。基于参数化模型可以通过变形得到人体衣服形状或者通过叠加衣服模型实现真人模型的生成,具体过程如图4和图5所示。

  参数化模型+衣服模型


  参数化模型+顶点偏移

  基于隐层函数三维重建是最近大火的人体三维重建方法,通过识别一张RGB图像,运用一个隐式表达函数预估出人体的三维信息,典型的有PIFU等,目前的卢也在做相关的开发,具体效果如图6 所示。

  隐式函数人体三维重建

  基于fusion的人体三维重建是研究最早应用最广的重建方法,典型的有kinectfusion、doublefusion等相关论文,fusion不仅用于人体重建,在场景重建、物体重建等相关领域应用也非常普遍。

  (4)人体动作捕捉

  可以检测人体核心部位关节点、人脸关键点、人手关节点等。并输出人体的三维动作参数、手势参数、表情参数等。

  目前人体动作捕捉主要研究方向分为两个:

  ①基于彩色或深度图的人体2D、3D关节点姿态估计。常见的有类似openpose、alphapose、humanpose等。

  7  Openpose 人体关节点检测

  ②稠密点人体姿态估计。通过人体动作捕捉参数化模板输出人体动作参数、手势参数、表情参数等。

  8  人体动作捕捉参数化模板

  2.现阶段3D人体识别技术面临的挑战与解决思路

  (1)柔软物体重建难度大,细节难以掌控

  不同于人脸重建,人体重建面临着更多的技术难点。人脸只需要考虑前面的一部分,但是对于人体结构要复杂得多,而且人体的某些部位比如手指,可能会有各种自遮挡情形。而且一般情况下,人脸重建的目标就只是一张脸(如果觉得眼镜有影响可以摘下)人体建模是不可能要求人总是穿着紧身衣,也会有人穿着一般衣服的情况。对比于静态的场景重建,场景是静止的每次融入新的场景只需要考虑6个自由度,但是人体重建的时候会产生非刚性形变,融合起来也会更加复杂。

  攻关思路:我们不再使用参数化模型来作为模板进行辅助,而是利用深度学习训练网络,输入人体正面的RGB-D数据直接通过神经网络来获得一个带衣服的人体模型作为模板来辅助我们进行后续的人体建模。针对采集人体三维数据时的非刚性形变,我们通过测地距离在模板模型进行采样构造图结点,利用图结点在人体建模过程中拟合这些非刚性形变。而在人体重建过程当中,也不再是使用显式的点和面来表示人体,而是利用一种隐式表达符号距离场来表达不断融合重建的人体,这样就不需要再考虑重建过程中逐渐复杂的人体结构和拓扑。

  (2)人体识别实际应用中存在人体姿态复杂、遮挡大、分辨率低等问题

  在实际工程应用中,人的行为多样且非常复杂,人体识别往往面临姿态复杂、人群中存在严重遮挡、人与物耦合严重、人快速动作时视频捕捉难度大等诸多问题。

  攻关思路:针对这些问题,可以通过对人体视频序列进行分析,得到的每张图片的特征进行汇总分析增大容错率,同时可以根据连续帧的相关性减少遮挡对人体识别的影响。当我们通过多个摄像头对人体进行跟踪拍摄时可以得到更多的信息,不仅能识别出人体还可以对该个体进行跟踪。跟踪时,人体的着装是重要的特征,但是不能作为唯一特征,同时结合人体的步态,人体的身型可以进一步对人体特征分析,所以人体识别需要结合多种因素。对于分辨率低的问题,可以使用一些超分辨的算法对数据进行增强,对于不能增强的数据应当进行筛选,防止对最终的结果造成干扰。

  (3)人体姿态往往具有一定的歧义性

  在RGB图像实际应用场景中,图片中所反映的人体姿态往往具有一定的歧义性,即图片中的同一2D姿态可能对应有多个不同的3D姿态,这是由于图片数据本身固有的自遮挡性、深度模糊性等局限性所导致。而且人体RGB图像面临各种环境光源的考验,可能出现侧光、定光、背光和高光灯现象。受限于以上几个因素,基于二维图像识别方法需要大量的数据采集来覆盖以上各种Case。但仅仅依靠堆海量数据进行训练无法彻底解决人体识别的难题,且无法突破识别准确率的瓶颈,更无法达到广泛规模应用的门槛。

  攻关思路:3D数据包含二维RGB图像与深度图像,不仅提供了人在二维图像的语义信息,而且包含了人在三维空间的运动信息。而且由于3D数据中的深度数据不受光照、人体外观变化的影响,大幅度减少算法对海量数据的依赖。基于3D数据的高精度人体动作捕捉,提供了高质量的人体运动序列信息。这些信息为人体行为语义分析等上层应用提供了重要基础,大幅度提高了人体识别的准确性。

  三、3D人体应用场景剖析

  人体识别相关技术的应用前景非常广泛,在消费和安防领域有非常广阔的应用方向。

  1.安防场景

  目前安防行业主要依靠二维的人脸识别技术,但随着三维视觉技术的发展,人体(人脸)的三维重建、人体体态识别、手势识别等技术都可以应用到安防监控中,多维度识别信息的加入将对社会安全起到致关重要的作用。

  2.AR/VR/MR应用

  基于虚拟人体重建相关技术,未来在远程会议、网络聊天等场景下可以实现"面对面"交流互动,甚至可以实现不同场景的人相互握手、拥抱等功能,让世界完全"零距离"。针对3D视觉人体识别相关内容,的卢深视研究快速高精度人体三维重建、实时高精度人体动作捕捉识别等相关技术。的卢深视3D人体识别技术基于其三维全栈能力,从数据采集到算法计算均实现纯三维视觉体验。

  (1)在人体三维高精度重建方面

  搭建多相机人体快速采集系统,实现了1s完成多视角人体RGB-D数据采集。算法上与传统多视角建模不同,人体三维测量技术使用参数化人体模板作为依托,通过多目标点云优化算法,实现对多相机不同视角下的点云的联合优化,最终输出人体三维模型。该算法相较于传统算法对硬件和标定精度要求更低,并可快速测量人体关键部位尺寸信息,平均测量误差小于1cm,关键部位长度类误差小于1cm。

  9  多相机人体测量流程示意

  算法应用先验知识,通过估计衣服形状,进一步生成了去衣服的人体三维模型。可广泛应用于人体测量相关领域,如运动领域、姿态分析、虚拟试衣等产品。为了让人体测量能够在家庭、手机等场景应用,大型的采集设备不太合适,因此的卢目前也在研发基于单相机的人体测量系统,测量流程如图 10 所示。

  10  单相机人体测量流程示意

  该算法的优势在于可以单相机实现人体三维重建,使用、部署更便捷。后期可以通过纹理融合实现虚拟人三维形象重建,进而实现虚拟人的驱动。

  (2)针对人体三维动作捕捉及迁移

  基于RGB-D(深度摄像机)单视角数据,实现人体三维重建和动作捕捉技术,该技术实现了人体三维模型实时重建并准确捕捉人体动作。

  基于深度学习VAE网络训练人体参数化模板,使用身份和动作参数精确表达人体形姿,再使用该模板训练人体重建模型,实现人体三维模型实时重建和高精度还原相应动作。

  11  人体动作捕捉及三维形象驱动流程示意

  该算法主要技术特点如下:

  ①使用单个RGB-D相机,估计人体姿势。

  ②使用针对RGB-D数据和人体专门设计,独特的网络结构和损失函数。

  网络结构:自定义的针对人体的专用网络;与传统网络的区别在于通过网络将RGB和D分别提取浅层特征,再把两个模态的信息融合到一起,进一步做特征提取,从而保证动作和精度的准确性。

  损失函数设计:针对人体的特点定义独特的损失函数,包括:三维点到点的误差项、法向误差项、光流项、纹理项等。

  ③通过形变迁移技术,将模型的动作迁移到卡通形象上,形象可扩展。也可通过骨骼和蒙皮绑定的方法实现模型驱动。

  ④使用稠密人体关键点作为驱动输入,而非关节点,理论上驱动更加精确。

  四、多模态3D人体视觉身份识别总结与展望

  目前3D视觉人体识别及分析应用主要落地在大消费领域,尤其是在体感游戏与动画制作方面的应用,安防领域仍处于探索期。这是由于目前还未确定统一的3D人体识别标准,三维数据标准及评价打分体系是后续进行三维应用的基础,但就当前情况而言,3D识别的技术主要还是通过不同领域对于数据精度的要求来进行评判。为此,的卢深视积极推进3D技术标准制定,对于各种数据类别均提供数据质量要求及评价标准,包括3D图像评测标准、3D相机参数标准、3D数据接口标准等。我们认为未来的3D人体识别技术不仅仅是识别人的身份,而是针对人的异常行为进行有效识别分析并及时预警。

上一篇:虹膜识别技术在公安智慧监管中的应用    下一篇:新基建战场,探析云数据中心安全防线建设