基于深度学习地址模糊匹配算法_地址模糊匹配算法,地址匹配算法资源-CSDN文库

深度学习

人工智能

需积分: 50 141 浏览量 2022-03-18 15:37:51 上传评论收藏 1.05MB PDF 举报

资源推荐

资源详情

资源评论

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号

(43)申请公布日

(21)申请号 202010738017.2

(22)申请日 2020.07.28

(71)申请人武汉大学

地址 430072 湖北省武汉市武昌区八一路

299号

(72)发明人亢孟军　刘越　苏世亮　翁敏　

林玥　叶蕾　

(74)专利代理机构湖北武汉永嘉专利代理有限

公司 42102

代理人许美红

(51)Int.Cl.

G06F

40/289

(2020 .01)

G06F

40/30

(2020 .01)

G06F

16/29

(2019 .01)

G06F

16/903

(2019 .01)

G06K

9/62

(2006 .01)

G06N

3/04

(2006 .01)

(54)发明名称

基于深度学习模型的地址匹配算法

(57)摘要

本发明涉及一种基于深度学习模型的地址

匹配算法，首先利用结巴 (jieba)中文分词库对

语料库中的地址进行分词；然后利用词向量

(Word2vec)模型，进行地址词向量训练；最后利

用增强序列推理模型(Enhanced Sequential

Inference Model ,ESIM)进行地址文本语义相似

度计算，并输出匹配结果。该方法不同于传统的

地址匹配算法侧重于利用匹配地址的字面重叠

直接进行相似度计算与文本匹配，该算法侧重研

究地址文本在语义上的相似程度，并以此为基础

完成匹配任务，提供了一种适用于当今海量的多

源异构地址数据匹配任务的深度学习算法。

权利要求书4页说明书10页附图2页

CN 111881677 A

2020.11.03

CN 111881677 A

1 .一种基于深度学习模型的地址匹配算法，其特征在于，包括以下步骤：

步骤1、对地址语料库进行数据预处理，包括去除语料库中的重复地址、空格及特殊符

号，以及校正错别字改；所述地址语料库为标准地址库，其数据结构如下表1所示，其中，每

一个待查询地址address_a分别对应1个正样本和1个负样本，采用UTF-8编码，正样本为匹

配的address_b，负样本为不匹配的address_b；

表1 标准地址库数据结构

元素描述

address_a 待查询地址

address_b 标准地址库地址

label 匹配标记，1为匹配，0为不匹配

步骤2、对预处理后的地址语料库进行中文分词，将地址文本中的词语与词语之间加上

标记；

步骤3、对经过中文分词后的地址进行词向量训练，生成词表及其对应的多维词向量；

步骤4、地址文本语义匹配，包括以下子步骤：

步骤4 .1 .在进行模型训练之前，对实验数据集进行一系列预处理，以满足模型输入的

要求，具体的数据预处理操作如下：

(1)将实验数据集中的地址文本进行分词；

(2)载入步骤3中生成的词表，将分词后的地址文本转化为词表ID序列；

(3)将label转化为独热编码One-Hot，设置正样本索引为1，负样本索引为2，则label为

1时独热编码为[1 ,0]，label为0时独热编码为[0 ,1]；

步骤4 .2 .增强序列推理模型ESIM训练，具体包括：

(1)采用小批处理进行训练，并添加随机失活层，使每一个小批都使用随机丢弃了一部

分神经网络节点的深度神经网络进行训练；

(2)在词嵌入层中采用动态词向量，将载入的预训练词向量设置为可训练模式，模型在

训练过程中根据输入文本对预训练词向量进行更新，加速收敛；

(3)在计算模型损失时采用L2正则化，在损失函数后添加正则化项对网络权值进

行约束，λ为L2正则化参数；

(4)根据超参数的重要性水平，对模型的学习率、隐层节点数和小批大小进行调参，得

到训练后的深度学习模型；

步骤5、将需要匹配的地址直接输入到训练后的深度学习模型，输出匹配后的结果。

2.根据权利要求1所述的基于深度学习模型的地址匹配算法，其特征在于，增强序列推

理模型ESIM调参后采用的超参数设置如表2所示：

表2 增强序列推理模型ESIM超参数描述及实施例设置

权　利　要　求　书

1/4 页

CN 111881677 A

3 .根据权利要求1所述的基于深度学习模型的地址匹配算法，其特征在于，步骤2中，采

用结巴jieba中文分词库对语料库中的地址进行分词，分词模式为精确模式；先用统计词典

中所有可能成词的词语构建前缀词典，再根据该前缀词典得到输入文本的所有可能切分方

式，并基于所有可能切分形成该输入文本的一个有向无环图，最后采用动态规划算法从后

向前计算概率最大的文本切分形式。

4 .根据权利要求3所述的基于深度学习模型的地址匹配算法，其特征在于，在分词过程

中加载搜狗输入法词库和清华大学开放中文词库的地名词典作为分词的自定义词典。

5 .根据权利要求1所述的基于深度学习模型的地址匹配算法，其特征在于，步骤3中，采

用主题模型工具包自然语言处理库中的词向量模型对分词后的语料库进行词向量训练，训

练过程中采用的模型为连续词袋模型CBOW，训练方法为负采样；训练时过滤词频小于5的

词，并设置窗口大小为10、随机梯度下降的最大迭代次数为10，其余参数均设为默认值，最

后生成该语料库的词表及其对应的256维词向量。

6 .一种基于深度学习模型的地址匹配系统，其特征在于，包括：

语料库预处理模块，对地址语料库进行数据预处理，包括去除语料库中的重复地址、空

格及特殊符号，以及校正错别字改；所述地址语料库为标准地址库，其数据结构如下表1所

示，其中，每一个待查询地址address_a分别对应1个正样本和1个负样本，采用UTF-8编码，

正样本为匹配的address_b，负样本为不匹配的address_b；

表1 标准地址库数据结构

元素描述

address_a 待查询地址

address_b 标准地址库地址

label 匹配标记，1为匹配，0为不匹配

语料库分词模块，用于对预处理后的地址语料库进行中文分词，将地址文本中的词语

与词语之间加上标记；

词向量训练模块，用于对经过中文分词后的地址进行词向量训练，生成词表及其对应

的多维词向量；

实验数据集地址文本语义匹配模块，包括实验数据集预处理子模块和增强序列推理模

权　利　要　求　书

2/4 页

CN 111881677 A

剩余16页未读，继续阅读

评论收藏

内容反馈

Z!ger

粉丝: 4
资源: 11

基于深度学习地址模糊匹配算法

一种多策略结合的地址匹配算法

一种新的模式匹配(模糊搜索)算法

地址模糊匹配应用以及相关论文

中文地址匹配模糊查询

中文模糊匹配算法

java分词源码

中文分词算法解析

地名地址匹配工具，联网运行

中文地址分词及匹配项目

中文地址名称识别算法设计和实现

基于深度学习的图像补全算法综述.pdf

视觉里程计+基于深度学习的图像匹配算法研究+视觉SLAM

基于深度学习的轮廓检测算法：综述.pdf

基于深度学习的电影推荐算法.pdf

.NET组件中文地址模糊匹配

IP地址快速匹配算法

基于拼音索引的中文模糊匹配算法

基于自然语言的中文地址匹配研究

用于地址(地理位置)匹配的关键路径法

中文地址分词

最新中文地址分词及匹配

中文文本相似度匹配算法 simHash 海明距离 IK分词

使用快速分词匹配地区

常用中文分词器及地址链接

基于深度学习的回环检测算法研究.pdf

基于深度学习的时间序列算法综述.pdf

基于深度学习的图像压缩算法研究综述.pdf

最新资源