近年来,高校领域的大数据应用研究工作越来越受到各方关注
[1-16]
。为了评判学生在
校期间的表现,文献[5]在 2012 年率先将数据挖掘技术应用于高校数据。2014 年,文献[6]
继续深入研究了这个方向,将更多的数据用于评判学生的学业。后续,学者利用大数据分
析手段,继续深入研究了学生行为对成绩或职业的影响
[7-15]
。这些研究都将目的定位于学生
学业或职业选择,未关注学生家庭的经济情况。高校学生的培养,一直是国家和社会高度
关注的。在培养高校人才的战略中,每年的教育支出也在逐步上涨。其中,相当一部分的
支出会用于家庭贫困的学生,以帮助其顺利完成学业。目前高校对于家庭贫困学生的认定
工作存在着不少漏洞,过程也非常繁琐低效,没有达到精准资助的要求。在当下的大数据
时代,如何利用多维学生数据分析学生的家庭贫困信息是非常有必要的。
本文以学生行为数据为基础,利用大数据挖掘的相关技术,构建了家庭贫困学生挖掘
算法,为高校扶贫工作提供支持。所谓家庭贫困学生挖掘,即基于学生在学校中的消费数
据和其他行为数据,预测其家庭经济条件:是否存在困难。根据高校学生数据的维度丰富
和时序性特点,本文抽取了学生基本信息的统计特征和行为数据的时序性特征,提出了深
度学习算法(clockwork recurrent neural network, CW-RNN)的改进方法 CW-LSTM,用于评估
学生的各维度特征,综合判定其经济条件。最后,本文利用某高校 2011~2014 级学生在
2012 年−2015 年产生的数据进行分析,验证了本文方法的有效性。
1. CW-LSTM 算法框架
神经网络结构已经应用在 AI 领域的各个方面,在研究之初,为了将以往的信息连接
到当前的任务中,研究者在网络结构中引入了循环结构,即 RNN。其计算方式为:
st=fs(Wst−1+Winxt)st=fs(Wst−1+Winxt)
ot=fo(Woutst)ot=fo(Woutst)
式中, xx 是输入; WinWin 为输入层矩阵; WW 是隐藏层矩阵; WoutWout 为输出
层矩阵; ss 是隐藏层输出; oo 是输出层输出; fsfs 为隐藏层激活函数; fofo 为输出层激
活函数。通过 st−1st−1 ~ stst 的循环结构实现信息的复用。但是 RNN 网络仅能记忆短期信
息,对于长时间序列,会造成信息丢失。为了解决这样的信息丢失,文献[17]提出了改进
的算法—CW-RNN。CW-RNN 将隐含层分为多个模块,并对每个模块设定时间频率,以便
每个模块的单独管理。在每个模块内部进行全连接,在模块间进行高时钟频率模块向低时
钟频率模块的连接,如图 1 所示。Hidden 表示隐藏层。在隐藏层中,多个模块的时间频率
为 T1T1 , T2T2 ···, TgTg 。体现在公式中为:将 WW 与 WinWin 分为 gg 块。
W=⎡⎣⎢⎢⎢⎢W1W2⋮Wg⎤⎦⎥⎥⎥⎥,Win=⎡⎣⎢⎢⎢⎢⎢Win1Win2⋮Wing⎤⎦⎥⎥⎥⎥⎥W=[W1W2⋮Wg],Win=[Win1Win2⋮Wing]