# LianJiaSpider速度一分钟1000+
# 前言
+ 利用[此网页](https://sh.lianjia.com/ditu/)接口实现功能
+ 目前支持的城市 上海 北京 广州 深圳 烟台 厦门 长沙 郑州 请把你需要的城市发为Issues我会时常看
+ 作者:Mrx ;WeChat:xwk245776832 ; 邮箱:[email protected] 有任何问题请发邮件 我会尽可能帮助你
+ 此接口通过网页js脚本计算出get所需参数,攻破了此难点,接口调用次数无限,速度不限,上海市100000+数据不会被反爬
# 运行
+ ### 示例代码
> #### 1. 地区区域范围数据库准备
> ```python
> import Lianjia.lianjia as lj
> lj.SaveCityBorderIntoDB('上海')
> #保存上海市的所有区域边缘经纬度并保存在目录下district.db文件内
> ```
> > #### district.db文件表结构如下
> >
> > ```sql
> > create table 城市名
> > (
> > id int PRIMARY KEY ,
> > name text,
> > longitude text,
> > latitude text,
> > border text,
> > unit_price int,
> > count int
> > )
> > ```
> #### 2. 爬取区域内二手房楼盘数据
> ```python
> import Lianjia.lianjia as lj
> #lj.SaveCityBorderIntoDB('上海')
> lj.HoleCityDown('上海')
> #保存市区内所有在售楼盘的信息并保存在目录下LianJia_area.db文件内
> ```
> > #### LianJia_area.db文件表结构如下
> > ```
> > create table 城市名
> > (
> > id int PRIMARY KEY ,
> > district text,
> > name text,
> > longitude text,
> > latitude text,
> > unit_price int,
> > count int
> > )
> > ```
> #### 3. 爬取区域内楼盘中每个在售房屋的信息
> ```python
> import Lianjia.lianjia as lj
> #lj.SaveCityBorderIntoDB('上海')
> #lj.HoleCityDown('上海')
> lj.GetCompleteHousingInfo('上海')
> #保存所有在售楼盘的每套房屋信息并保存在目录下DetailInfo.db文件内
> ```
> > #### DetailInfo.db文件表结构如下
> > ```
> > create table 城市名
> > (houseId PRIMARY KEY ,
> > houseCode, title, appid,
> > source, imgSrc, layoutImgSrc,
> > imgSrcUri,layoutImgSrcUri,
> > roomNum, square, buildingArea,
> > buildYear, isNew, ctime,
> > mtime, orientation, floorStat,
> > totalFloor, decorateType,
> > hbtName,isYezhuComment,
> > isGarage, houseType, isFocus,
> > status, isValid, signTime,
> > signSource, signSourceCn,
> > isDisplay, address, community,
> > communityId,communityName,
> > communityUrl, communityUrlEsf,
> > districtId, districtUrldistrictName,
> > regionId, regionUrl, regionName,
> > bbdName, bbdUrl, houseCityId,
> > subwayInfo, schoolName, schoolArr,
> > bizcircleFullSpell, house_video_info ,
> > price,unitPrice, viewUrl, listPrice,
> > publishTime, isVilla, villaNoFloorLevel,
> > villaName, tags)
> > ```
+ #### 以上1,2,3步骤 请依次执行,否则会出现错误
> + #### 或者直接运行以下代码,但耗时会很久
> ```python
> import Lianjia.lianjia as lj
> city='上海'
> lj.SaveCityBorderIntoDB(city)
> lj.HoleCityDown(city)
> lj.GetCompleteHousingInfo(city)
> ```
### 2. 高级用法
+ 示例
```
#稍后更新,先写这么多
```
### 3. 版本历史
+ 1.1.0:
> 1. 实现链家地图api协议的逆向实现经纬度区域找房
> 2. 简单上海市区爬虫
+ 1.1.5
> 1. 新增pip,使用此项目可以直接pip install LianJiaSpider安装
> 2. 新增城市
+ 1.1.6
> 1. 删去js模块模拟获取authorization 由 @Wen Peiyu 做出修改
> 2. 增加并修改相应函数,直接调用md5函数获取authorization
+ 1.2.0
> 1. 更正由于删去js模块模拟获取authorization导致lj.GetCompleteHousingInfo(city)报错的问题
+ 1.2.1
> 1. 增加广州 深圳城市数据
BTW,上海有无工作推荐,现在干的运维真的太枯燥了!
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
链家二手房爬虫,抓取房价,经纬度位置,及60多个字段信息,接口调用无限制.zip (15个子文件)
WGT-code
__init__.py 1B
.DS_Store 6KB
LICENSE 34KB
LianJia_area.db 140KB
.idea
dataSources.local.xml 400B
vcs.xml 250B
misc.xml 299B
dataSources.xml 588B
Lianjia.iml 442B
modules.xml 266B
requirements.txt 44B
DetailInfo.db 120KB
lianjia.py 17KB
district.db 84KB
README.md 4KB
共 15 条
- 1
资源评论
JJJ69
- 粉丝: 6222
- 资源: 5780
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 演讲稿.txt
- 基于Python的爬虫案例-软科中国大学TOP200
- 碳排放权交易明细数据(2024年5月更新).xlsx
- 特殊文件属性命令chattr和lsattr
- HTML、CSS 和 JavaScript动态、交互式的网页 .txt
- b0cd8f9b23d4e5e381b6a8fd8ee0e907.JPG
- ff45d61c5900e45634cf4cac6cff61a1.JPG
- springboot.springboot.springboot.springboot.txt
- linux-进程与服务管理
- 毕业设计基于Django+MySQL+Redis实现简单的天气预报系统python源码.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功