# stats_gov
[统计局网站](http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/index.html)2019年的数据汇总。</br>
细粒度,到最后一级(一般为5级,网站上少部分地区为4级)。</br>
数据编码格式为utf8,以便显示名称中的生僻字,请使用合适的文本工具打开。</br>
这里有python爬虫代码和所需库。爬取速度快,网速较好时35分钟左右。</br>
2020.4.3更新了使用代理</br>
统计局网站增加了反爬,通过使用代理爬取,不过因为用的收费的(快代理10rmb),所以代码99行不改成购买的api肯定运行不了。</br>
有需要的可以直接下载提取好的csv文件。</br>
爬虫整个网站需要约80个ip,35分钟,如果改变91行的15,提高池大小,可以改善这个时间,但可能会需要更多ip。</br>
## Results
数据格式,下表为前5行
|province|city|county|town|code1|code2|village|根据code2第一位|
| :---: | :---: | :---: | :---: | :---: | :---: | :--- | :---: |
|上海市|市辖区|嘉定区|华亭镇|310114111001|220|袁家桥社区居委会|0|
|上海市|市辖区|嘉定区|华亭镇|310114111002|121|沁园社区居委会|1|
|上海市|市辖区|嘉定区|华亭镇|310114111003|220|华旺社区居委会|0|
|上海市|市辖区|嘉定区|华亭镇|310114111201|220|联一村村委会|0|
|上海市|市辖区|嘉定区|华亭镇|310114111203|220|联三村村委会|0|
## Prerequisites
代码基于python3.6
- [**python3.6.6**](https://www.python.org/downloads/release/python-366/) :python 官网下载,选择适合的版本;
使用以下命令下载安装依赖库
``` bash
pip install -r requirements.txt
```
asyncio.Semaphore()值最好设置为较小量(不超过100),以防网站崩溃。
``` python
sem = asyncio.Semaphore(60)
```
## Run
``` bash
python stats_gov_2.py
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
2019年统计用区划代码和城乡划分代码(截止2019年10月31日)(数据及python爬虫代码).zip (6个子文件)
SJT-code
China_Province_2018
csv_0220.rar 5.1MB
China_Province_2019
csv_202004030112.rar 5.04MB
requirements.txt 234B
stats_gov
stats_gov_2.py 20KB
README.md 2KB
命令.txt 62B
共 6 条
- 1
资源评论
JJJ69
- 粉丝: 6222
- 资源: 5780
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于mysql和python的学生选课系统【课程设计(实验报告+源码)】
- PxCook-像素大厨Windows版本安装包
- aspose-words-23.12-jdk16 有水印
- [大模型部署]在C# Winform中使用文心一言ERNIE-3.5 4K 聊天模型
- python毕业设计-基于Django+OpenCV的二维码生成与识别系统设计与实现.zip
- python毕业设计-基于Django+OpenCV的二维码生成与识别系统设计与实现+使用说明.zip
- 基于STM32单片机空气监测系统设计源码+详细文档+配套全部资料(毕业设计).zip
- rdf0412-kcu116-pcie-c-2019-1.zip(XILINX KCU116 源码)
- 基于C#语言的winform界面火车票订票系统(源码+实验报告)
- 【华为OD部分真题及讲解】华为OD部分真题及讲解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功