基于双流网络融合与时空卷积的人体行为识别

【摘要】 针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题。提出了一种基于时空卷积神经网络的人体行为识别网络。将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征。形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别。在UCF-101和HMDB-51数据集上进行实验,获得了92.1%和66.1%的准确率。实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高。