在大数据时代,手写档案数字化已经成为档案工作者工作内容的重中之重。手写汉字
文本识别作为档案数字化中的关键技术,目前已经有许多学者对其进行研究。由于汉字数
目众多,结构复杂,书写有很大的随意性,且同行相邻字之间的粘连情况时有发生,导致
手写汉字文本识别具有一定的挑战性。
传统手写汉字文本识别分为分割和识别两个部分。首先利用垂直投影法、连通域分析
法和 Viterbi 算法
[1]
等对文本行进行字符分割,然后利用单字分类器对分割好的字符进行识
别
[2]
。最常用的单字分类器包括改进的二次判别函数
[3]
、支持向量机
[4]
、隐 Markov 模型
[5]
等。文献[6]结合候选字符的识别得分和几何学、语言学的上下文信息,提出了一种基于半
Markov 条件随机场的方法;文献[7]针对最小化字符错误率而不是文本错误率提出了一种
可替代的参数学习方法。
由于相邻汉字之间可能存在粘连,基于先分割再识别的传统方法无法避免汉字被错误
分割的情况,因此具有局限性。近年来,深度学习快速发展,其在语音识别、图像识别、
文本识别、自然语言处理等诸多领域均取得突破性进展
[8]
。基于深度学习的手写汉字文本
行识别直接对一段文本图片进行识别,相比于单字识别,避免了分割难的问题,而且还可
以充分利用汉字间的上下文信息。其中,循环神经网络(recurrent neural network,
RNN)可有效解决此类问题,尤其是长短时记忆(long-short term memory,LSTM)和双
向长短时记忆(bidirectional LSTM,BLSTM)模型对序列信息有很强的建模能力。文献
[9]利用多维 LSTM 循环神经网络和连接主义序列分类(connectionist temporal
classification,CTC)算法
[10]
进行端到端的文本行识别;文献[11]利用滑动窗口的思想,将
自然场景中的文本识别问题转换成序列标记问题,同时结合卷积神经网络(convolutional
neural network,CNN)和 RNN 的优点进行文本行识别;文献[12]提出了一种卷积循环神
经网络(convolutional recurrent neural network,CRNN)方法,利用 CNN 进行时序特征
提取,再将特征输入 RNN 进行识别。CRNN 是一个典型的 CNN+BLSTM+CTC 结构的网
络,在自然场景下的文本识别中取得了很好的效果。其中 CNN 模块是由多个卷积层堆叠
而成,具有固定的感受野,但手写汉字文本图像的特点之一是汉字的大小常常不一致,这
使得固定感受野的网络不太适合解决此类问题。
为了解决手写汉字文本识别准确率不高的问题,本文提出了一个端到端的手写汉字文
本识别神经网络(handwritten network,HWNet)模型。首先采用 Inception
[13]
结构构建卷
积神经网络层,从手写汉字文本图像中提取多个尺度上的特征;然后利用循环神经网络对
提取的特征图进行预测并输出关于字符集的概率分布;最后利用连接主义序列分类算法将
概率分布转换成手写汉字的识别结果,该结构使得 HWNet 模型可以处理任意宽度的手写
汉字文本图像。
为提高本文模型的迁移性和实际应用能力,使用维基百科的中文板块和 CASIA-
HWDB1.1 数据集制作了一个大型手写汉字文本数据集,该数据集包含 5 000 多万个句
子,基本覆盖了日常使用中经常出现的句子和短语。
评论0
最新资源