摘要
为了弥补由于固定监测站点稀疏而造成的局部区域大气污染事件的漏查漏检,提出了基于自然语言
处理(natural language processing ,NLP)的大气质量舆情信息空间化方法,通过使用中文
分词、词性标注等方法对舆情数据中地址信息进行提取和有效的筛选组合,实现了投诉点的地址匹
配和空间定位,并以热力图的形式实现了对山东省大众重点投诉区域的空间化表达。通过与国控站
点空气质量监测数据的对比分析,表明了公众投诉重点区域与国控监测站点的重点污染区域具有较
高的一致性。
Abstract
IIn order to make up for the missing detection of local air pollution events caused
by sparse fixed State‐controlled monitoring stations, the paper proposes a
spatialization method for air quality public opinion information based on natural
language processing. Using Chinese word segmentation, Part‐of‐speech tagging
and other methods, the paper extracts addresses from public air pollution
complaints data. Through an effective combination of those addresses, the paper
realizes address matching of those complaint points, and spatializes those key
complaint areas in Shandong Province in the form of heat map. Through comparing
and analyzing with the air quality monitoring data of national control stations, it
shows that the key areas of public complaints are highly consistent with the key
pollution areas which are monitored by national control stations.
译
关键词
区域性大气污染; 公众感知; 空间化; 自然语言处理; 地址匹配
Keywords
local air pollution; public perception; spatialization; NLP; address matching
译
随着我国经济的快速发展,不断出现的区域性大气污染事件
[ 1]
,已成为政府和公众关注的焦点。
目前大气质量监测主要依赖的是国控站点,这些站点大多分布在城市,且点位稀疏,通过这些站点
的长时序监测,可为宏观区域大气质量变化分析提供实测依据,但对频发的局域性或区域性大气污
染事件的监测则显得有些不力。而公众是空气质量的直接感知者
[ 2]
,对空气质量的满意度评价则
可以成为政府职能部门进行大气环境治理的基础
[ 3]
。自从人类进入互联网时代,人们在网络上进
行大气质量的议论和评价已经成为常态,通过收集公众对大气质量投诉的舆情信息,并加以空间化,
可有效地反映出区域性大气污染状况分布,这不仅能够提高民众的政治参与度
[ 4]
,而且还能够为
政府部门对区域性大气污染事件的监管与治理提供决策依据。
关于空间化方法,国内外学者均进行了诸多研究,王明明等
[ 5]
利用夜间灯光数据进行了山东省乡
镇级人口数据的空间化;尹言军等
[ 6]
利用 FME 软件对浮动车的交通数据进行了空间化。自然语言
处理(natural language processing ,NLP)技术也得到了快速发展,尤其在中文分词和词性