视频中的动作识别是计算机视觉中最重要和最具挑战性的任务之一。 如何有效地结合时空信息来表示视频,对于动作识别起着至关重要的作用。 在本文中,通过融合多源特征,设计了一种用于行为识别的递归混合网络体系结构:用于学习语义特征的两流CNN,用于学习长期时间特征的两流单层LSTM以及改进的密集轨迹(IDT)流,用于学习短期时间运动特征。 为了减轻小规模数据集的过度拟合问题,视频数据增强方法用于增加训练数据量,并且采用两步训练策略来训练我们的循环混合网络。 在两个具有挑战性的数据集UCF-101和HMDB-51上的实验结果表明,该方法可以达到最新的性能。