基于2D CNN和Transformer的人体动作识别
DOI:
CSTR:
作者:
作者单位:

内蒙古师范大学 计算机科学技术学院,内蒙古 呼和浩特 010022

作者简介:

通讯作者:

中图分类号:

TP18

基金项目:

内蒙古自治区高等学校科学研究项目(NJZZ21004);内蒙古师范大学研究生科研创新基金资助项目(CXJJS21159);内蒙古自然科学基金(2018MS06008)


Human action recognition based on 2D CNN and Transformer
Author:
Affiliation:

College of Computer Science and Technology, Inner Mongolia Normal University, Hohhot 010022, China

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    人体动作识别是计算机视觉领域的研究热点之一,在人机交互、视频监控等方面具有深远的理论研究意义。为了解决2D CNN无法有效获取时间关系等问题,利用Transformer在建模长期依赖关系上的优势,引入Transformer架构并将其与2D CNN相结合用于人体动作识别,以更好地捕获上下文时间信息。首先使用融合通道-空间注意力模块的2D CNN提取强化的帧内空间特征,其次利用Transformer捕捉帧间的时间特征,最后应用MLP Head进行动作分类。实验结果表明在HMDB-51数据集和UCF-101数据集上分别达到了69.4%和95.5%的识别准确度。

    Abstract:

    Human action recognition is one of the research hot-spots in the field of computer vision. It has far-reaching theoretical research significance in human-computer interaction, video surveillance and so on. In order to solve the problem that 2D CNN can not effectively obtain time relationship, based on the advantages of Transformer in modeling long-term dependency, Transformer structure is introduced and combined with 2D CNN for human action recognition to better capture context time information. Firstly, 2D CNN integrating channel-spatial attention module is used to capture the inter spatial features. Then, Transformer is used to capture the temporal feature between frames. Finally, MLP head is used for action classification. The experimental results show that the recognition accuracy of HMDB-51 datasets and UCF-101 datasets is 69.4% and 95.5% respectively.

    参考文献
    相似文献
    引证文献
引用本文

朱相华,智敏,殷雁君.基于2D CNN和Transformer的人体动作识别[J].电子测量技术,2022,45(15):123-129

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2024-04-08
  • 出版日期:
文章二维码