from selenium import webdriver
from bs4 import BeautifulSoup
import time
import random
import datetime
import sqlite3
import os
import Constraint as constraint
'''
作者:cdy
组件:爬虫工具,直接运行就可以爬取数据
'''
# 根据url获取Html界面的方法
def parse_url(url):
chrome_options = webdriver.ChromeOptions() # driver设置
chrome_options.headless = True # 不需要图形界面
chrome = webdriver.Chrome(options=chrome_options) # 新建一个Chrome实例
chrome.get(url) # Get请求
html = chrome.page_source # 返回Html文本
page = BeautifulSoup(html, 'html.parser') # 生成BeautifulSoup对象
print(page.title.string)
return page
# 获取基础信息
def get_base_info(_page_url):
page = parse_url(_page_url)
msgs = page.find_all('div', attrs={'class': 'property'})
base_info = []
for msg in msgs:
ele_title = msg.findNext('div', attrs={'class': 'property-content-title'}).findNext('h3') # 标题
ele_url = msg.findNext('a')['href'] # url
ele_total_num = msg.findNext('span', attrs={'class': 'property-price-total-num'}) # 总价数字
ele_total_text = msg.findNext('span', attrs={'class': 'property-price-total-text'}) # 总价单位
ele_unit_price = msg.findNext('p', attrs={'class': 'property-price-average'}) # 单价
# 信息不全的就跳过
if ele_title is None or ele_url.__class__ is None or \
ele_total_num is None or ele_total_text is None or \
ele_unit_price is None:
continue
_info = {'title': ele_title.text,
'url': ele_url.split('?')[0],
'total_price': ele_total_num.text + ele_total_text.text,
'unit_price': ele_unit_price.text}
# print(_info)
base_info.append(_info)
return base_info
# 进入详情页获取更多信息
def get_extra_info(_info):
info_url = _info['url']
html = parse_url(info_url)
ele_region = html.find('span', attrs={'class': 'maininfo-community-item-name'}) # 格式为 [城区 区域]
ele_village_name = html.find('div', attrs={'class': 'community-title'}) # 小区名字
ele_village_money = html.find('span', attrs={'class': 'monthchange-money'}) # 小区均价
ele_village_info = html.findAll('p', attrs={'class': 'community-info-td-value'}) # 小区信息
# 城区和区域
if ele_region is None:
_info['location1'] = ""
_info['location2'] = ""
else:
_info['location1'] = ele_region.text.split()[0]
_info['location2'] = ele_region.text.split()[1]
# 小区名字
if ele_village_name is None:
_info['xiaoqu_name'] = ""
else:
_info['xiaoqu_name'] = ele_village_name.text.split()[0]
# 小区均价
if ele_village_money is None:
_info['xiaoqu_price'] = ""
else:
_info['xiaoqu_price'] = ele_village_money.text.strip(' \t\n')
if ele_village_info is not None:
# 物业费用
if len(ele_village_info) >= 2:
_info['property_costs'] = ele_village_info[1].text.strip(' \t\n')
else:
_info['property_costs'] = ""
# 容积率
if len(ele_village_info) >= 3:
_info['area_ratio'] = ele_village_info[2].text.strip(' \t\n')
else:
_info['area_ratio'] = ""
# 绿化率
if len(ele_village_info) >= 4:
_info['green_ratio'] = ele_village_info[3].text.strip(' \t\n')
else:
_info['green_ratio'] = ""
return _info
# 将具体信息放入数据库的过程
def Run(_conn, _result):
_result = get_extra_info(_result)
# 被反爬了,就没有抓到小区名字信息
if _result['xiaoqu_name'] == "":
return False
_cursor = _conn.cursor()
cursor.execute('INSERT INTO shHouse (title, url, total_price, unit_price, location1, location2, xiaoqu_name,'
' xiaoqu_price, property_costs, area_ratio, green_ratio) '
'VALUES (\'{}\', \'{}\', \'{}\', \'{}\', \'{}\', \'{}\', \'{}\', \'{}\', \'{}\', \'{}\', \'{}\')'
.format(_result['title'], _result['url'],
_result['total_price'], _result['unit_price'],
_result['location1'], _result['location2'],
_result['xiaoqu_name'], _result['xiaoqu_price'],
_result['property_costs'], _result['area_ratio'],
_result['green_ratio']))
_conn.commit()
_cursor.close()
return True
# 将具体信息放入数据库的过程
def is_exist(_conn, _result):
_cursor = _conn.cursor()
_cursor.execute('SELECT * FROM shHouse WHERE url = \'{}\' LIMIT 1'.format(_result['url']))
if len(_cursor.fetchall()) == 1:
_cursor.close()
return True
else:
_cursor.close()
return False
# 创建数据库的操作
def create_db():
print('hello!')
_conn = sqlite3.connect(constraint.path)
_cursor = _conn.cursor()
_cursor.execute('create table shHouse'
' (_id integer primary key autoincrement,title varchar,url varchar,total_price varchar,'
'unit_price varchar,location1 varchar,location2 varchar,xiaoqu_name varchar,xiaoqu_price varchar,'
'property_costs varchar,area_ratio varchar,green_ratio varchar)')
_cursor.close()
return _conn
if __name__ == '__main__':
# 获取当前时间
now = datetime.datetime.now()
_time = now.strftime("%Y-%m-%d %H:%M:%S")
print(_time)
if not os.path.exists(constraint.path):
conn = create_db() # 如果数据库文件不存在,就执行建表操作
else:
conn = sqlite3.connect(constraint.path) # 否则就连接数据库
cursor = conn.cursor()
# 爬取第[x, y)页的数据
for i in range(10, 12):
time.sleep(random.randint(80, 120)) # 设置休息时间应对反爬
page_url = constraint.base_url + str(i)
results = get_base_info(page_url)
for result in results:
if is_exist(conn, result):
print("{}:该数据已经存在!".format(result['url']))
else:
time.sleep(random.randint(80, 120)) # 设置休息时间应对反爬
if Run(conn, result):
print("{}:插入一条数据!".format(result['url']))
else:
print("{}:插入异常!".format(result['url']))
print(f'爬取页面{i}的基础信息成功!')
没有合适的资源?快使用搜索试试~ 我知道了~
基于python实现的二手房大数据平台-大数据应用作业+源代码+数据库db
共45个文件
py:16个
pyc:10个
xls:7个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 34 浏览量
2024-01-02
21:58:22
上传
评论
收藏 2.17MB ZIP 举报
温馨提示
基于python实现的二手房大数据平台-大数据应用作业+源代码+数据库db - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
资源推荐
资源详情
资源评论
收起资源包目录
SecondHandHouseBigDataSystem-master.zip (45个子文件)
SecondHandHouseBigDataSystem-master
__init__.py 0B
index.py 1KB
生产实习项目源代码
预测分析.py 1KB
获取多页房屋数据.py 2KB
数据清洗.py 6KB
获取行政区数据.py 1KB
static
链家二手房合并多页数据.xls 4.12MB
链家二手房sz多页数据.xls 832KB
链家二手房bj多页数据.xls 812KB
链家二手房tj多页数据.xls 796KB
地区数据.xls 18KB
链家二手房liuzhou多页数据.xls 800KB
链家二手房sh多页数据.xls 872KB
Constraint.py 2KB
数据预处理0414.py 579B
templates
welcome.html 3KB
stat.html 119B
predict.html 1KB
data.html 2KB
.idea
Project.iml 328B
vcs.xml 180B
misc.xml 303B
inspectionProfiles
Project_Default.xml 444B
profiles_settings.xml 174B
modules.xml 266B
.gitignore 47B
crawler.py 6KB
__pycache__
index.cpython-39.pyc 461B
__init__.cpython-39.pyc 129B
Constraint.cpython-39.pyc 2KB
views
__init__.py 373B
stat_price_displot.py 914B
predict.py 3KB
stat_region.py 763B
stat_unitprice.py 828B
stat_price.py 927B
data.py 1KB
__pycache__
stat_price_displot.cpython-39.pyc 1KB
stat_price.cpython-39.pyc 1KB
stat_region.cpython-39.pyc 1KB
__init__.cpython-39.pyc 365B
predict.cpython-39.pyc 3KB
data.cpython-39.pyc 1KB
stat_unitprice.cpython-39.pyc 1KB
bs_shHouse.db 168KB
共 45 条
- 1
资源评论
机智的程序员zero
- 粉丝: 1535
- 资源: 4128
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- unidac29 for delphi 12.1
- Cauchy奇异积分的数值计算程序
- 基于Python实现的股票量化交易策略源代码+视频讲解+案例代码,含RSI策略、BOP指标策略、KDJ策略、MACD指标策略等
- EDA编码.zip
- 文本分类任务训练神经网络来学习词汇表中每个词的词向量
- MyBatis进阶技巧:探索动态SQL的无限可能.md
- HM2300C-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- HM2300B-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- 员工解除劳动合同申请表.pdf
- 物模块模型代码,前往设计物模块所属
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功