论文研究-基于DBN-HMM的人体动作识别.pdf

所需积分/C币:22 2019-09-13 09:51:49 1.21MB .PDF

动作识别使得机器能够对人体动作的意图进行判别理解,进而实现高效的人机交互。提出一种肢体角度模型,实现在三维空间中对人体动作进行表示,该模型具有一定的不变性,计算复杂度低。针对传统的基于混合高斯的隐马尔可夫模型(GMM-HMM)的动作识别,提出深度置信网络模型(DBN)和隐马尔可夫模型相结合的动作识别模型,构建了一种非线性的基于条件限制玻尔兹曼机(CRBM)的DBN深度学习模型,深层次结构使其建模能力更强,且能够结合历史信息建模,更适用于动作识别。实验表明该算法具有较高的识别结果。
杨世强,等:基于 的人体动作识别 arctan=+T, x<0, v>O 使不同采样中角度距离能够在统一的尺度中进行对比 通过计算D随时间帧的累计大小,并进行归化处理 T,x<0.y=0 其累计归一化为 arctan x>0,y<0 AMD(=>>() AMD(t)= AMD(t)-AMD O,y<0 norn,AMDmax-AMD 丌- arctan 其中AMD()是在第帧时D的累计大小,AMD() =0.y<0=0,y>0 是归一化后在第帧时D的累计大小, ADMin是累计 序列中的最小值, AMD是素计序列中的最大值 arctan 为了能选择合适的帧,选择一合适的阈值ε,判断 经过对基于》件果信息的人体动作模型(ay)的心是为合适的帧 计算人体整体姿态可以表示为 AMD(t)-AMD(t-1) 从而去除冗余帧,保留相对重要帧,提取出动作序 其中∠为时间帧,为所使用的肢体数目,则静态特征可列中的关键姿态信息。 以表示为p。 姿态序列描述了整个动作,随着运动时间的推移肢 基于 的动作识别 体角度的变化反映出动作的变化情况。为了更清楚地 对原始动作数据进行特征提取的基础上,用深度置 描述动作随时间的变化量,采用角度距离来衡量相邻 信网络代替传统的混合高斯隐马尔可夫模型中的混合 时间点之间每个肢体对应的角度变化,当一个肢体在某高斯模型来估计 中的观察概率用于动作识别。 个时间点的角度为(,9),下一个时间点的角度为 帧级标注 模型将一个动作细分为多个关键姿态,根据 (02,g2),角度距离为 个动作序列某一帧的特征向量估计出其属于某个关 c=sin(q)Xsin(q)+cos(φ)xcos(q)xco(-B)()键姿态的概率,即根据观测值佔计状态的概率。 ()模型中观測值对应动作序列中每一帧的特征向量,状态 则人体姿态与姿态之间的角度距离,即动态特征,可以对应动作序列中的关键姿态。在基于深度置信网络与 表示为 隐马尔可夫模型( )的动作识别中需要将动 f={dli=1,2…,10} ()作序列每一帧细分为状态标答,而一个动作序列通常只 综合静态特征和动态特征,人体动作模型的每一帧有一个动作类标签,因此需要对序列屮每一帧进行标 用(p)表示。 注。借鉴讦音识别中利用强制对齐算法对数据母一帧 帧选择模型 进行音素状态标注的思想,使用混合高斯的隐马尔可大 一个动作序列是由几十帧数据组成,实际采集到的模型( )与 算法进行帧级标注。 数据山于每个人做动作的快慢、延时等原因,几十帧数 一个动作类别可由一个 模型表示,采 据对丁动作识别并不是同等重要,某些帧是多余的并可用 屮的 模型进行训练,其参数模型 能会影响识别效果,需要将每个动作序列中多余帧去表示为=(A,xE),其中A为状态转移概率,丌为 除。根据动作的前后顺序结构,一般拥有表征动作信息初始状念概率分布,为混合高斯模型的均值向量, 丰富的帧存在于动作片段的中间阶段,含有少量动作信为协方差矩阵,为混合高斯权重 息帧在动作的开始和结束阶段 算法是·种最优路径搜索算法,根据训练 由上述模型表示中帧与帧之间对应的角度距离好的参数模型λ对一个动作序列求使其输出概率最大 的变化量,根据欧式距离,可求出当前帧到下一帧的总 的一条路径中所对应的状态序列,求得的状态序列即为 角度变化量D: 动作序列中每一帧对应的状态标签。对于一个训练样 本其观测序列为O=(01,02,…,0),T为序列总帧数; q:表示在时刻t的状态。已训练好的相应参数模型λ 由于不同人做同个动作也会有定的差异,因此状态转移概率为a,表示在1-1刻状态为s:,在时刻 根据上式求出的帧与帧之间的总角度变化量,在不同的状态为s的概率;状态输出概率分布为b()出 采样中其人小存在差异,不能直接用于识别计算。为了估计成,表示在状念为时,可观测值为o的概率 计算机工程与应用 定义o()为部分观测序列1到时刻,同时相应 是限制玻尔兹曼机在时间维度上的 的状态序列在该时刻的状态为s时的似然概率 个扩展,具有两层结构,层可见层和层隐藏层,如 的最大值: 图所示,可见层不仪包含当前时刻特征数据,还包含 8, (i)=max P(q ,-1:41=5 O 了前n时刻的特征数据,即历史数据,将当前时刻与前 q1,2,,q 其中1≤i≤N,N为隐状态总数,1≤t≤T n时刻的特征数据建立联系共同建模。 定义v()为在时刻t状态为s的所有单个路径中 隐藏层 概率最人路径的第t-1个节点为: v()= arg max(l)a列 如图所示的格子图为一个从左向右传播的° 图中一个节 为第z个 为8 可见层 状态 图条件限制玻尔兹曼机结构 本文中的由多个叠加和一层N终 不美 组成,图为基于 的的结构图。网络 的输入层即第一个 的可见层为当前时刻的特征 数据和前n时刻的特征数据,上一个 的输出作为 下一个 的输入,依次传递,最后一层为网络对 整个网络进行反馈调节。 ( 输出层 W 屮状态的格子图 反向传播 图 注意到每一个给定的δ()都对应一个格子图中节 ○ 点,每·个新增的时间对应于·个新的阶段。则关于时 W? 微调 间点的递推公式如下 ○○ ○○ ()=mN[.O)k()2≤≤,1<j<N W 微调 6(1)=xb(o)1≤i≤N ○OO C○○见层 y,(i)=arg max[or-(i)a] 1≤i≤N 作特征数据 y 图 树络结构图 其终止条件为: )深度置信网络的训练 P=max[or(i) 将已进行帧级别标注的训练数据和标签输入到 qr= arg max[ar(i) 屮,进行模型的训练。的训练包括:首先对模 最优路径回溯: 型中的结构进行没置合参数初始化;然后进行预训练 预训练是对在中的多个 模型分别单独进行 =v(y:).t=T-1,-2.…,1 ()训练;最后对最后一层网刚络进行全局反馈微调。 通过 算法求取一个最优路径的状态序列,状 ①模型结构的设置及参数初始化 态序列中每一帧对应的状态即为所要标注的标签。 模型结构的设置主要是对模型结构的设置, 基于 的深度置信网络 包括输入层、隐嶽层和输出层各层的神经元节点数的设 在 中,由于基于 的观测值建模置,这里的隐藏层即为 屮除第·个 的可 只是局部表示,只针对单帧特征建模,而在 见层外的其他各层,以及 中前n时刻n的设置。 中,基于的建模是用代替,是分布式 参数初始化在 中包括权重、偏置和学习率的 表示深层次结构的建模能力更强,且能够对历史信息初始化,在中包括权重、偏置学小率以及更新次数 建模。 的初始化。 ()深度置信树终的结构 ②预训练 条件限制玻尔兹曼机( 预训练是对中的多个 分别进行训练, 杨世强,等:基于 的人体动作识别 与的相似,采用对比散度( 率矩阵对动作序列进行识别,构成基于深度置信网络的 )算法 网络的训练是一种无监督学习的隐马尔可大模型( )识别模型。 方法,通过输入当前帧的特征数据时,加入前几帧的历模聖结构如图所示。 史信息作为动态偏移对时变数据进行最大可能的拟合 转移概率 将动作特征数据作为第一个 的可见层的输 as, as as as 入数据,即特征数据中当前帧和当前唢的前帧的特征 向量作为输入,特征向量的每一维即为 中可见层 的可见单元,则通过可见单元计算隐层单元的二值状态: 川(4)=(+∑+∑∑n( 观察機率 其中v;是可见单元,即当前帧特征向量的第i维数据 ,是前P帧特征向量第维数据,p=1,2,…,n{W 为权重”为前p帧可见单元与隐藏层单元的连接 权重,b为隐藏层偏置,h为隐藏单元,为 函数。 观察向量 当求出隐藏单元的状态后,进行反向计算可见单元 的状态 模型结构 (a)=(+∑W4+∑∑Am 在 模型中,是对输入的特征数据 的后验概率建模,即一个动作测试序列1,02,…,01输 其中c为可见层偏置,A#是前p帧可见单元与当前入到中,最终输出的概率为P(so),s为所对应的 帧的可见单元的连接权重 输出状态。通过贝叶斯公式,将输出的后验概率 通过公式()产生一个可见层的重构,在可见层重转化为状态的观测概率: 构基础上再计算一次公式()即可产生一个隐藏层的 Plots) (so)P(o) 重构。则 的各权重利偏置的更新公式为 △W=()-(2b ()其中,P()为状态s的先验概率,可通过在训练数据中 状态s占总训练样本的概率可近似作为状态s的先验概 △Bn ()率。P(o)为观测样本的先验概率,常以平均分布代替, 则可将该项从公式中除掉。 econ 求出状态的观测概率后,将其代入到中,采 △b ()用前向算法求出测试序列的似然概率值P(oλ),选取似 recon △C;= ()然概率值最大的参数模型所对应的类别作为识别结果。 其中,E是学习率,()是输入数据的期望值,是 实验及结果分析 经过一步重构后模型的期望值。 为检验算法的可行性,采用 数据 将上述公式多次运行直至收敛,即可得到第一个库和 数据库两个公开人体动作数 的参数模型再进行下个的训练。在下据库,两数据库中的动作序列都是以每一帧含有个 个训练中将上一个的最终输出作为其关节点的三维坐标值为原始数据。实验环境配置为 输入,然后重复上述公式进行训练。 内存, 位系 ()全局微调 统,在 中计算实现。 在网络中 经过无监督预训练完成以 其于 数据库的测试与分析 后,将预训练得到的数据输入到网络的最后一层 数据库是一个由 摄像机人 即网络中,在网络中根据输入数据与输入数据的体的动作提取深度和骨骼信息的数据库。共有个动 标签进行有监督的反向微调 作类别,每一类动作都由个人重复做次。为了减 基于 的动作分类 少测试时的计算复杂度,便于与其他算法对比,将 由训练好的网络模型对数据建模求出更准确 数据库个不同动作分为 的观察概率,结合 模型获得的状态转移概和三组,每组类功作 计算机工程与应用 ()实验参数设置 在模型屮输入层节点数的大小为动作序列中 第二隐层节点数 第二隐层节点数 的每一帧经过肢体角度模型提取到的特征维数的大小, 第二隐层节点数 即维,输入层节点数为将当前帧的前帧作为历 史帧同当前帧·块输入 的隐层屮,设置 阶数N=3 模型隐层数目的设定。对 网络模型最 为直接的评估方法是对学习数据的对数似然估计,但因 此方法计算量过大,常采用重构误差法进行简单评估: 第一隐层节点数 RE X-a) 图隐层节点数对识别效果的影响 其中,X表示输入层数据短阵,a为当前预测的可视单 图所示为帧选择对识别结果的对比图,其中横坐 元的状态值,真实值和预测值之间的偏差岽计起来构成 成标为数据集的八类动作,纵坐标为识別率。测试刂 了重构误差。通过重构误差值的变化,计最佳状态的采川态特征和动态特征相结合的动作特征。可以看 模型深度,即为 的层数 出},帧选择模型能够提高识别的效果,且降低了计算量。 图为模型中使川 的层数和其对应的 重构误差值,重构误差值是预训练中迭代稳定时的均 帧选择模型 值。可以看出两层 以后重构误差大小变化很小 一无帧选择模型 随着 层数的增加预训练需要的历史帧数也随着 增加,由于部分训练样本的帧数较小无法满足预训练, 因此采用两层 动作类别 张起 图帧选择模型对识别率的影响 如图所示,经帧选择后,图()为仅采用静态特征 进行的识别结果,图()为采用静态特征与动态特征结 合的识别结果,识别结果以混淆矩阵图的形式表示,对 角线为对应类划的正确识别率,其余为判别为错误类别 的识别率。从两个混淆矩阵图中对比可以看出,只使用 静态特征的识别结果明显低于静态特征和动态特特征 图 的层数和其对应的重构误差值 结合的识别结果,动态特征的加入能够有效提高识别效 隐层节点数太少,网络可能根本不能训练或树络性果,动态特征与静态特征相结合能够増强对动作的表征 能很差;若隐层节点数太多,虽然可使网络的系统误差能力。 减小,网络训练时间长,且训练容易陷入局部极小点而 表为 模型和 模型对 得不到最优点。图为隐层节点数的设置对识别效果数据集的测试结果对比。 模型只有在 的影响,可以看出当第一隐层节点数为,第二隐层节 测试的结果较 模型的低,在其他两个 点数为时,识别效果相对较好。 测试中都较高。这是因为在 测试中只有训练 输出层使用 层,输出层节点数的大小是由 的数据进行训练,训练样本较少,而般深度学习模 隐马尔可夫模型中动作类数目和每个动作类的状态数型在处理训练样本较少的数据的能力普遍不足。而在 决定,本文设置每个动作类的状态数为。 其他两个测试中的结果较高,是由于模型的建模 )实验结果及分析 能力强于模型,它能够让网络学习到深层特征对 首先利用数据集,采用交叉验江( 输入数据进行更本质的刻画。 )的方法进行识別测试,验证帧选择模型和静态特征 为了进一步检验算法的可行性,与现有算法的 与动态特祉结合的有效性以及本文算法与传统 结果进行比较,基亍相同数据 采用三种 模型的对比 测试方法对算法性能进行评估, 取数据进 杨世强,等:基于 的人体动作识别 0 0.170030000.000.000.000.30 通过对两个测试结果以及其他算法的对比可以看 02501001080010n出,基于 模型的动作识别能够取得较高的 30z700^003调别效果。基于深度置信网络的模型提高了特征的描 00045000055 c003000.0 述能力,更适合行为的识别。 0.130.00003000 基于 数据库的测试与分析 0000.0000000.0000010000 数据库包含个动作类别,每类 000oo00000000010动作由个人重复做两次,样本中动作序列最短只有 帧最长动作序列有帧。本文采用留一校验法进行 测试,将数据库中的数据提取一个动作样本作为测试数 据其余的动作样木数据作为训练数据。依次将数据库 )静态特征的识别结果 中所有的样本数据单个测试一遍,通过统计得到识別 率。在 数据库的测试中 10000000000Q.000000.000.00 0.17 c000000.38 中的参数设置与上述 数据库实验中的 0090.180730.000.000000000.00 参数一致如表所示为类动作的具体识别率及平均 000027000073 c00000识别率与现有算法的对比。 0.000.000000.00 表 类动作识别率 0.000 000000c001000.00 动作文献 献 献 文献 本文算法 00000000000000000000100 ()静态动态特征的识别结果 图动作特征的识别对比 和 模型对 数据集的测试识别率 模型 从上述混淆矩阵图和识别率对比表可以看出,本文 算法在大部分情况下能得到较高的识别效果,其中动作 行训练,剩余进行测试; 取数据进行训 和的识别率相对较低,是因为这两个动作样 练,剩余进行测试; 为交叉验证采本中每个样本的帧数相对较少,尤其是样本中最 用一半数据训练,一半数据进行测试。测试结果如表少的只有帧,大部分在帧左右。出于在对每个动作 和表所示。 训练模型中状态数都设置为,状态数H大于样 表交叉验证识别率 本帧数睿易出现混淆,这对帧数较少样本的识别有一定 影响 算法 本文算法在两个数据库屮识別精度仅次于所引用 文献中最高的识别精度。在 数据库上本 文算法的识别结果仅次于最好的文献在 数据库上识别结果高文献,本文算法在两 本文算法 个数据库大部分动作中都能保持较高的识别结果,适用 表 数据厍上的识别率 性较高。 算法 结论 文献 文献 本文对人体动作表示和分类算法进行了研究,提出 文献 了一种肢体角度模型,该模型具有较强的表征能力,通 本文算法 过帧选择算法,进一步提高了识别效果,降低了计算 计算机工程与应用 量。针对传统的基丁混合高斯的隐马尔可夫模型的识 别中对特征信怠建模只是一种局部表示,建模能力差的 问题,提出深度置信网络模型和隐马尔可夫模型现相结 合的动作识别模型,构建了一种非线性的基于 的 深度学习模型,对特征信息分布式地表示和深层 次的结构使得其建模能力更强,且能够对结合历史信息 建模,更适用于动作识别。采用 和 数据库的动作数据进行测试殓证,识别 结果表明本文所述识别算法具有较高的识别能力,该识 别方法可行 参考文献: 胡琼,秦磊,黄庆明基丁视觉的人体动作识别综述计 算机学报,, 陈万军,张二虎基于深度信息的人体动作识别研究综述 西安理工大学学报,()

...展开详情
img
  • 至尊王者

    成功上传501个资源即可获取

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐