import csv
from bs4 import BeautifulSoup
import requests
href_list = []
for i in range(1,101):
url = f'https://sz.lianjia.com/ershoufang/pg{i}rs%E6%B7%B1%E5%9C%B3/'
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}
data = requests.get(url=url, headers=headers).text
soup = BeautifulSoup(data,'lxml')
a_tags = soup.find_all('a', class_='noresultRecommend')
for a_tag in a_tags:
href = a_tag.get('href')
href_list.append(href)
with open('深圳2024年链家二手房信息_1.csv', mode='w', newline='', encoding='utf-8') as csv_file:
fieldnames = [
'title', 'area', 'community', 'position', 'total_price',
'unit_price', 'hourseType', 'hourseSize', 'direction', 'fitment'
]
writer = csv.DictWriter(csv_file, fieldnames=fieldnames)
writer.writeheader()
for j in range(len(href_list)):
try:
print(href_list[j])
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}
data = requests.get(url=href_list[j], headers=headers).text
soup = BeautifulSoup(data,'lxml')
#title
title_h1 = soup.find('h1',class_='main')
for titles in title_h1:
title = titles
#area
area_span = soup.find('span',class_='info')
area_a = area_span.find('a').text
for position_a in area_span.find_all('a')[-1]:
position = position_a
#community
community = soup.find('a',class_='info').text
#total_price
try:
total_price_div = soup.find('div',class_='price')
for total_price_span in total_price_div.find('span',class_='total'):
total_price = total_price_span
except:
total_price = None
# unit_price
try:
unit_price_span = soup.find('span',class_='unitPriceValue')
unit_price = unit_price_span.get_text(strip=True, separator=" ")[:-4]
except:
unit_price = None
#hourseType
hourseType = soup.find('div',class_='mainInfo').text
#hourseSize
hourseSize_div = soup.find('div',class_='area')
for hourseSize_divs in hourseSize_div.find('div',class_='mainInfo'):
hourseSize = hourseSize_divs
#direction
direction_div = soup.find('div',class_='type')
for direction_divs in direction_div.find('div',class_='mainInfo'):
direction = direction_divs
#fitment
fitment_div = soup.find('div',class_='type')
for fitment_divs in fitment_div.find('div',class_='subInfo'):
fitment = fitment_divs[-2:]
row_data = {
'title':title,
'area':area_a,
'community':community,
'position':position,
'total_price':total_price,
'unit_price':unit_price,
'hourseType':hourseType,
'hourseSize':hourseSize,
'direction':direction,
'fitment':fitment
}
writer.writerow(row_data)
except:
pass
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
在探讨深圳房地产市场时,链家二手房数据集为我们提供了一个重要的视角。特别是在2024年,随着市场的波动和变化,链家后台的二手房源数据成为分析市场趋势的重要参考。 首先,链家二手房数据集包含了丰富的信息,如房源的标题、面积、所在社区、位置、总价、单价、房型、面积、朝向以及装修情况等。这些数据为我们提供了详尽的市场信息,使我们能够全面了解深圳二手房市场的现状。 在数据源码方面,通常涉及的是从链家网站爬取这些数据的代码。这些代码使用了Python等编程语言,结合如BeautifulSoup等库来解析HTML页面,从而获取所需的数据。需要注意的是,爬取网站数据需要遵守相关的法律法规和网站的robots.txt协议,确保数据的合法性和合规性。 对于深圳2024年的链家二手房数据集,我们可以观察到一些趋势。例如,从2024年1月的数据来看,二手房成交量呈现出企稳回升的态势,而新房成交量则继续探底。这表明在当前的市场环境下,二手房市场相对更为活跃。同时,从链家后台的数据变化趋势来看,二手房的挂盘量正在逐步下降,而房价虽然积重难返,但也在逐步筑底企稳。
资源推荐
资源详情
资源评论
收起资源包目录
深圳2024年链家二手房数据集和源码.zip (2个子文件)
爬取深圳2024年链家二手房信息.py 4KB
深圳2024年链家二手房信息_1.csv 408KB
共 2 条
- 1
资源评论
i阿极
- 粉丝: 3w+
- 资源: 33
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功