没有合适的资源?快使用搜索试试~ 我知道了~
基于中文分词的加权地理编码在COVID-19疫情防控空间定位中的应用.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 82 浏览量
2022-11-30
09:29:25
上传
评论
收藏 164KB DOCX 举报
温馨提示
试读
11页
基于中文分词的加权地理编码在COVID-19疫情防控空间定位中的应用.docx
资源推荐
资源详情
资源评论
在新型冠状病毒肺炎(coronavirus disease 2019, COVID-19)疫情防控中,对病人提供
的居住地址进行精确的空间定位是开展流行病学调查的重要内容之一。通过统计患者的空
间分布,可在防控阶段及时追踪人口往来动向,为地区疫情差异化防控提供技术支撑,对
分析疾病传染途径和传播范围具有重要意义,是社会治理、应急管理和指挥决策工作的重
要基础
[1]
。
地理编码(geocoding,又称地址编码)是指将自然语言描述的地址位置信息通过既定
的地址模型或编码规则与空间位置相关联,从而确定其所代表的地理实体的位置
[2-3]
。由于
社会经济信息(如人口、工商、民政、公安、社保、医保)一般都包含地址描述,因此可通
过地理编码方法对其进行空间定位,从而实现地理空间数据和统计数据的有效集成,为研
究和揭示各种社会经济现象的空间分布规律提供科学基础。利用地址匹配技术可以建立空
间信息与非空间信息的联系
[4-5]
,是实现社会经济信息与空间信息关联的有效途径之一。
1. 国内外研究现状
1.1 地理编码
国外的地理编码技术发展得比较成熟,如美国建立了双重独立地图编码系统
[2]
、
TIGER(topologically integrated geographic encoding and referencing)系统
[3-4]
,英国基于
British Standard 7666 标准建立了全国地址数据库等,ArcGIS 和 MapInfo 等商业化软件中
包括了 geocoding 功能模块
[4]
。文献[5]提出了基于标准化地址的地理编码方法,通过对比
非标准化地址的匹配结果,发现基于标准化地址的匹配结果精度有显著改善;文献[6]针对
地理编码结果的匹配准确率问题,在综合考虑空间强度、聚类和聚集等因素后,利用统计
方法进一步验证了地理编码结果的匹配准确率。与英语等语言不同,中文基本上没有形态
变化,一个中文语句通常由一组前后连续的汉字组成,词与词之间没有明显的分界标志
[7-
8]
。汉语的书面表达方式是以汉字为最小单位,因此,忽略中文地址的特殊性,直接沿用国
外现有地理编码的思路无法达到理想的效果
[9-10]
。鉴于此,自 20 世纪 80 年代以来,中国
学者开始了中文地址编码的研究工作。在中文地址分词中,对地址描述自动识别词边界,
将汉字串切分为正确的词串的汉语分词问题是实现中文分词中的首要问题
[9]
。将中文分词
方法
[10-11]
引入到地理编码中,并将中文地址切分成较小的地址单元,再在标准化的基础上
进行匹配
[12]
,成为了目前地理编码的主要思路。在中文地址分词中,有基于 ArcGIS 软件
geocoding 功能的中文地址编码方法
[13]
、基于词典和规则切分的方法
[11]
、基于大规模语料
库的统计方法、基于规则和统计相结合的方法等
[12-14]
,在实际应用中取得了一定的效果。
人工智能技术的不断发展也为中文分词提供了新的途径和方法。这种分词方法又称为理解
分词法,主要分为两种:一种是基于生理学的模拟方法
[15]
,如神经网络等;另一种是基于
心理学的符号处理方法,如专家系统等;另外还包括决策树、随机森林算法等机器学习方
法
[16]
。
1.2 疫情空间定位
对患者进行空间定位是开展人员管理、社区治理以及政府决策的重要基础,一方面可
为疾控部门进行病人的定位和跟踪、开展疾病防控和医疗观察提供必要的条件;另一方面
可为社区掌握本辖区实际疫情情况、患者分布等提供基础,并为开展疾控管理、人员救治
和安全防护提供依据;同时,还能对政府开展应急管理、指挥调度、医疗物资投放、防控
力量部署等提供参考
[1]
。
针对 COVID-19 疫情,中国的研究机构和学者通过不同途径和数据来源开展了疫情空
间定位和趋势分析,主要包括两个方面:(1)在疫情暴发初期,针对人群移动轨迹开展了疫
情地图,如百度迁徙(https://qianxi.baidu.com/?from=mapp)、智慧足迹、支付宝同乘查询
等依据运营商手机定位、交通部门订票信息等大数据展开人员跟踪和定位,为疫情初期人
员跟踪和防控提供了先进的手段和依据;(2)在疫情暴发过程中,根据患者空间位置(通常
按照行政管理单元如区(县)级划分空间单元)进行空间分布统计并绘制疫情地图,用以反映
疫情的时序变化和趋势特征。随着疫情在全球暴发,国外的研究机构和学者也开展了
COVID-19 疫情的研究工作,如美国约翰霍普金斯大学的董恩盛基于 ArcGIS Dashboar 搭
建了全球疫情空间分布平台,利用全球疫情数据,结合有关地图和图表,对全球各个国家
以及州市的疫情情况进行了展示
(https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd4029
9423467b48e9ecf6)。
综上所述,目前国内外研究主要存在两方面问题:一是由于中文地址描述的特征以及
数据标准化、规范化等诸多问题使得地址描述的形式多种多样,为中文地址编码带来了一
定困难;二是目前疫情空间分布统计基本定位至区(县)级尺度空间单元,无法满足面向社
区级分级防控、精细化治理、人员管理等方面的需要。因此,为满足不同来源的地址空间
化需求,分析中国地名地址特有的组成形式和规律,本文将中文分词方法与地理编码相结
合,提出了一种基于中文分词的加权地址层级模型。该模型首先根据不同地址在空间层级
定位的差异性设定层级模型权重,然后计算待匹配地址与匹配地址之间的相似度,从而判
断原地址与匹配地址的接近程度,并应用于武汉市 COVID-19 病例数据的空间定位。
2. 地理编码方法
地理编码方法主要包括隐马尔可夫模型(hidden Markov model, HMM)、地理编码规则
和层次编码模型 3 个部分。
2.1 HMM 模型
HMM 属于统计模型
[17]
, 该模型包括 2 个序列和 3 个概率矩阵,即观测序列 OO、隐
含状态序列 ZZ、初始状态概率矩阵 ππ、状态转移概率矩阵 AA 及状态生成观测的概率矩
阵 BB。
HMM 模型的建立满足两个假设:(1)齐次马尔可夫性假设,即任意时刻 t 的状态只受
t-1 时刻所处状态的影响,而与其他时刻的状态无关
[18]
; (2)所有的观测状态具有独立性假
设,即任意时刻的观测状态都只受前一时刻的马尔可夫链状态影响,而与其他时刻无关
[18]
。
2.2 地理编码规则
在城市中进行地理编码涉及到建筑物、地块、道路等地理对象,对其进行描述的地理
编码数据可分为基于建筑物的地理编码、基于地块的编码和基于道路的编码
[12]
。基于道路
的编码以道路中心线为基础,记录道路的各种信息,包括名字、起始点标识、地址门牌号
范围、街道中心线左右门牌号的起始点坐标以及属性数据和方向。由于基于建筑物或地块
的地址采用点或多边形方式直接存储在数据库中,因此不需要通过道路或路段地址范围的
中间环节过渡,就能实现建筑、宗地和点地物与地址的直接关联
[11]
。
2.3 层次编码模型
中文地址一般可分为行政区地名、自然地名、街巷(道路、胡同)、道路门牌(门址)、
住宅区、冠楼名等类型
[12]
。中文标准地址的形式由 3 部分组成,即〈标准地址〉::=〈行政
辖区〉〈基本区域限定物〉〈局部点位置描述〉。其中,〈行政辖区〉为政区类地名;
〈基本区域限定物〉可以是道路、小区等低于行政区地名的层次;〈局部点位置描述〉是
具有确定的空间位置,可以用点表示的基本地址元素,包括门牌、楼号、冠名楼、村落等
类型。由于空间实体之间存在包含、嵌套等关系,因此各类地址或地名之间也就存在上下
级的层次关系。各类地址间的层次关系如图 1 所示。
图 1 面-点结构地址编码层次关系图
Figure 1. Hierarchy Diagram of Plane-Point Structure Address Coding
剩余10页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3651
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功