基于超点序列的实时三维人体行为识别技术
发布日期:
2024-05-16
浏览次数:
126

三维人体行为识别是指利用三维深度相机或其他三维扫描设备对人体的姿态、动作信息进行采集,然后使用计算机视觉和机器学习技术进行识别和分类的过程。与二维人体行为识别相比,三维人体行为识别具有运动信息更全面、复杂场景更鲁棒、隐私保护更容易、人机交互更流畅等优点,在安防、康养等领域有着广泛的应用。根据数据类型的不同,三维人体行为识别可分为基于深度序列的三维人体行为识别、基于点云序列的三维人体行为识别和基于骨骼序列的三维人体行为识别。对于具有隐私保护需求的复杂场景,点云序列是比深度序列、骨骼序列更理想的三维人体行为表达方式。

基于点云序列的三维人体行为识别可进一步分为基于三维像素的方法、基于点云序列网络的方法两类。基于三维像素的方法需要繁琐的预处理操作和复杂的建模计算,且无法实现端到端的三维人体行为识别。基于点云序列网络的方法是当前最流行的点云序列建模方法,但也存在三点明显不足:一是点云序列数据结构复杂,建模难度大;二是时空维度紧密耦合但兼容性差,制约识别性能;三是网络模型复杂度高,实时运行效率差。本研究将点云序列建模任务分解为超点嵌入、超点序列建模两个子任务。对于超点嵌入子任务,采用静态点云技术将点云序列转换为超点序列,从而引入了固有的帧级并行性;对于超点序列建模子任务,设计了超点混合模块作为学习人类行为时空特征的基本构建块。在此基础上,本研究进一步提出了一种轻量级的高效点云序列网络来实现实时的三维人体行为识别。

本研究的原创贡献体现为:(1)定义了一种新的点云数据——超点序列,用于简易高效地描述随时间变化的人体三维虚拟外观。(2)提出了第一个能将空间层次学习和时间层次学习解耦的点云序列网络,避免了点云序列建模过程中不规则的空间维度和有序的时间维度之间的相互影响,提升了识别精度。(3)对每个点云帧实施独立的空间编码,使得超点序列能以帧级并行的方式生成,显著提升了运行效率。

(通讯作者:黄倩,河海大学计算机与软件学院副研究员)

原文题目为“Real-Time 3-D Human Action Recognition based on Hyperpoint Sequence”,于20238月发表于IEEE Transactions on Industrial Informatics(中科院一区Top期刊),https://doi.org/10.1109/TII.2022.3223225