什么是税务稽查中的“网络爬虫”?
一、”网络爬虫”解读
“网络爬虫”也称”网页蜘蛛”,是一个自动提取网页的程序,运用”网络爬虫”
技术设定程序,可以根据既定的目标更加精准选择抓取相关的网页信息,有助于在
互联网海量信息中快捷获取有用的涉税信息.
二、”网络爬虫”运用
“网络爬虫”技术主导下的涉税信息监控平台具有三个突出的特点:分类抓取、
实时监控和智能比对.
平台主要从证券财经网站,重点抓取上市公司公告、上市公司十大股东股票减
持、限售股解禁等信息;风控中心的专用电脑全天候实时抓取、储存和分类整理
相关信息;平台将从互联网获取的信息与税收征管系统以及其他第三方信息进行
自动比对,从中筛选出存在税收风险的管征户信息.
三、”网络爬虫”流程
进入系统后,先连接互联网的风控中心电脑,通过”网络爬虫”程序定向抓取各
网站上发布的上市公司公告信息,并且将这些信息转化成可识别的文本.在当天股
市收盘后,扫描程序开始启动,扫描”网络爬虫”抓取的公告内容.
如果扫描中出现了国税局管理的企业名称或者是其他有效信息,监控平台会自