没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号
(43)申请公布日
(21)申请号 202010738017.2
(22)申请日 2020.07.28
(71)申请人 武汉大学
地址 430072 湖北省武汉市武昌区八一路
299号
(72)发明人 亢孟军 刘越 苏世亮 翁敏
林玥 叶蕾
(74)专利代理机构 湖北武汉永嘉专利代理有限
公司 42102
代理人 许美红
(51)Int.Cl.
G06F
40/289
(2020 .01)
G06F
40/30
(2020 .01)
G06F
16/29
(2019 .01)
G06F
16/903
(2019 .01)
G06K
9/62
(2006 .01)
G06N
3/04
(2006 .01)
(54)发明名称
基于深度学习模型的地址匹配算法
(57)摘要
本发明涉及一种基于深度学习模型的地址
匹配算法,首先利用结巴 (jieba)中文分词库对
语料 库中的 地址进行分 词 ;然 后 利 用词向量
(Word2vec)模型,进行地址词向量训练;最后利
用增强序列推理模型(Enhanced Sequential
Inference Model ,ESIM)进行地址文本语义相似
度计算,并输出匹配结果。该方法不同于传统的
地址匹配算法侧重于利用匹配地址的字面重叠
直接进行相似度计算与文本匹配,该算法侧重研
究地址文本在语义上的相似程度,并以此为基础
完成匹配任务,提供了一种适用于当今海量的多
源异构地址数据匹配任务的深度学习算法。
权利要求书4页 说明书10页 附图2页
CN 111881677 A
2020.11.03
CN 111881677 A
1 .一种基于深度学习模型的地址匹配算法,其特征在于,包括以下步骤:
步骤1、对地址语料库进行数据预处理,包括去除语料库中的重复地址、空格及特殊符
号,以及校正错别字改;所述地址语料库为标准地址库,其数据结构如下表1所示,其中,每
一个待查询地址address_a分别对应1个正样本和1个负样本,采用UTF-8编码,正样本为匹
配的address_b,负样本为不匹配的address_b;
表1 标准地址库数据结构
元素 描述
address_a 待查询地址
address_b 标准地址库地址
label 匹配标记,1为匹配,0为不匹配
步骤2、对预处理后的地址语料库进行中文分词,将地址文本中的词语与词语之间加上
标记;
步骤3、对经过中文分词后的地址进行词向量训练,生成词表及其对应的多维词向量;
步骤4、地址文本语义匹配,包括以下子步骤:
步骤4 .1 .在进行模型训练之前,对实验数据集进行一系列预处理,以满足模型输入的
要求,具体的数据预处理操作如下:
(1)将实验数据集中的地址文本进行分词;
(2)载入步骤3中生成的词表,将分词后的地址文本转化为词表ID序列;
(3)将label转化为独热编码One-Hot,设置正样本索引为1,负样本索引为2,则label为
1时独热编码为[1 ,0],label为0时独热编码为[0 ,1];
步骤4 .2 .增强序列推理模型ESIM训练,具体包括:
(1)采用小批处理进行训练,并添加随机失活层,使每一个小批都使用随机丢弃了一部
分神经网络节点的深度神经网络进行训练;
(2)在词嵌入层中采用动态词向量,将载入的预训练词向量设置为可训练模式,模型在
训练过程中根据输入文本对预训练词向量进行更新,加速收敛;
(3)在计算模型损失时采用L2正则化,在损失函数后添加正则化项 对网络权值进
行约束,λ为L2正则化参数;
(4)根据超参数的重要性水平,对模型的学习率、隐层节点数和小批大小进行调参,得
到训练后的深度学习模型;
步骤5、将需要匹配的地址直接输入到训练后的深度学习模型,输出匹配后的结果。
2.根据权利要求1所述的基于深度学习模型的地址匹配算法,其特征在于,增强序列推
理模型ESIM调参后采用的超参数设置如表2所示:
表2 增强序列推理模型ESIM超参数描述及实施例设置
权 利 要 求 书
1/4 页
2
CN 111881677 A
2
3 .根据权利要求1所述的基于深度学习模型的地址匹配算法,其特征在于,步骤2中,采
用结巴jieba中文分词库对语料库中的地址进行分词,分词模式为精确模式;先用统计词典
中所有可能成词的词语构建前缀词典,再根据该前缀词典得到输入文本的所有可能切分方
式,并基于所有可能切分形成该输入文本的一个有向无环图,最后采用动态规划算法从后
向前计算概率最大的文本切分形式。
4 .根据权利要求3所述的基于深度学习模型的地址匹配算法,其特征在于,在分词过程
中加载搜狗输入法词库和清华大学开放中文词库的地名词典作为分词的自定义词典。
5 .根据权利要求1所述的基于深度学习模型的地址匹配算法,其特征在于,步骤3中,采
用主题模型工具包自然语言处理库中的词向量模型对分词后的语料库进行词向量训练,训
练过程中采用的模型为连续词袋模型CBOW,训练方法为负采样;训练时过滤词频小于5的
词,并设置窗口大小为10、随机梯度下降的最大迭代次数为10,其余参数均设为默认值,最
后生成该语料库的词表及其对应的256维词向量。
6 .一种基于深度学习模型的地址匹配系统,其特征在于,包括:
语料库预处理模块,对地址语料库进行数据预处理,包括去除语料库中的重复地址、空
格及特殊符号,以及校正错别字改;所述地址语料库为标准地址库,其数据结构如下表1所
示,其中,每一个待查询地址address_a分别对应1个正样本和1个负样本,采用UTF-8编码,
正样本为匹配的address_b,负样本为不匹配的address_b;
表1 标准地址库数据结构
元素 描述
address_a 待查询地址
address_b 标准地址库地址
label 匹配标记,1为匹配,0为不匹配
语料库分词模块,用于对预处理后的地址语料库进行中文分词,将地址文本中的词语
与词语之间加上标记;
词向量训练模块,用于对经过中文分词后的地址进行词向量训练,生成词表及其对应
的多维词向量;
实验数据集地址文本语义匹配模块,包括实验数据集预处理子模块和增强序列推理模
权 利 要 求 书
2/4 页
3
CN 111881677 A
3
剩余16页未读,继续阅读
资源评论
Z!ger
- 粉丝: 4
- 资源: 11
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功