矩阵求导的技术,在统计学、控制论、机器学习等领域有广泛的应用。鉴于我看过的一些资料或言
之不详、或繁乱无绪,本文来做个科普,分作两篇,上篇讲标量对矩阵的求导术,下篇讲矩阵对矩
阵的求导术。本文使用小写字母x表示标量,粗体小写字母 表示(列)向量,大写字母X表示矩
阵。
首先来琢磨一下定义,标量f对矩阵X的导数,定义为 ,即f对X逐元素求导排成
与X尺寸相同的矩阵。然而,这个定义在计算中并不好用,实用上的原因是对函数较复杂的情形难
以逐元素求导;哲理上的原因是逐元素求导破坏了整体性。试想,为何要将f看做矩阵X而不是各元
素 的函数呢?答案是用矩阵运算更整洁。所以在求导时不宜拆开矩阵,而是要找一个从整体
出发的算法。
为此,我们来回顾,一元微积分中的导数(标量对标量的导数)与微分有联系:
;多元微积分中的梯度(标量对向量的导数)也与微分有联系:
,这里第一个等号是全微分公式,第二个等号表达了梯度与微
分的联系:全微分 是梯度向量 (n×1)与微分向量 (n×1)的内积;受此启发,我们将矩
阵导数与微分建立联系: 。其中tr代表迹
(trace)是方阵对角线元素之和,满足性质:对尺寸相同的矩阵A,B,
,即 是矩阵A,B的内积。与梯度相似,这里第一个等号是全微分公式,第二个等号表达
了矩阵导数与微分的联系:全微分 是导数 (m×n)与微分矩阵 (m×n)的内积。
评论0