Python爬虫实战+数据分析+数据可视化（汽车之家）.zip_爬取汽车之家数据分析资源-CSDN文库

共23个文件

py：9个

pyc：5个

html：5个

需积分: 5 176 浏览量 2024-04-26 17:01:09 上传评论 1 收藏 1.62MB ZIP 举报

在本项目"Python爬虫实战+数据分析+数据可视化（汽车之家）.zip"中，我们将探索如何使用Python进行网络爬虫、数据处理以及数据可视化，特别是在汽车之家网站上的应用。这个项目涵盖了Python编程中的多个重要知识点，对于学习者来说是一个宝贵的实战经验。我们从“Python爬虫”部分开始。Python爬虫是获取网络上公开数据的一种有效方法。在这个项目中，我们将使用Python的requests库来发送HTTP请求，获取汽车之家网站上的数据。同时，BeautifulSoup或者lxml库将用于解析HTML文档，提取我们需要的信息，如汽车型号、价格、配置等。爬虫设计时需要注意遵循网站的robots.txt规则，尊重网站的版权，避免对服务器造成过大负担。接着，进入“数据分析”阶段。一旦获取到数据，我们可以利用pandas库进行数据清洗、整理和分析。这可能包括去除重复值、填充缺失值、转换数据类型、统计分析等步骤。通过分析，我们可以找出汽车市场的趋势、最热门的车型、价格分布等有价值的信息。在“数据可视化”环节，我们将使用matplotlib或seaborn库绘制图表，以便直观地展示数据。例如，可以创建条形图显示各品牌汽车的销量，折线图展示价格随时间的变化，或者散点图展示不同配置与价格的关系。此外，更高级的可视化库如plotly和geopandas可以帮助我们制作交互式地图，展示不同地区的销售情况。项目中的"car_home-master"文件可能是项目源代码或爬取数据的存储位置。在这个目录下，通常会包含Python脚本、数据文件（如CSV或JSON）、配置文件以及可能的说明文档。通过阅读这些脚本，我们可以学习到具体的爬虫实现方式、数据处理技巧和可视化代码。总结来说，这个项目提供了Python爬虫从获取数据到解读结果的完整流程，涵盖了网络爬虫技术、数据处理和数据可视化的实践应用。通过这个项目，学习者不仅可以提升Python编程技能，还能了解到如何在实际场景中运用这些工具，为今后的数据分析工作打下坚实基础。

资源推荐

资源详情

资源评论

收起资源包目录

Python爬虫实战+数据分析+数据可视化（汽车之家）.zip （23个子文件）

car_home-master

car_home

__init__.py 483B

models.py 745B

utils

car_home.py 4KB

carhome.xlsx 1.32MB

analysis.py 5KB

to_excle.py 666B

templates

showPie.html 2KB

showLine.html 3KB

index.html 868B

showBrandBar.html 2KB

showAreaBar.html 2KB

api_1_0

__init__.py 111B

show.py 1KB

__pycache__

show.cpython-36.pyc 2KB

__init__.cpython-36.pyc 307B

__pycache__

__init__.cpython-36.pyc 680B

models.cpython-36.pyc 1KB

static

vintage.js 993B

echarts.min.js 950KB

manager.py 370B

.gitignore 34B

__pycache__

config.cpython-36.pyc 775B

config.py 342B

import re from pymongo import MongoClient import pandas as pd import numpy as np import pymysql def pre_process(df): """ 数据预处理函数 :param df: dataFrame :return: df """ # 将数据中车的行驶路程单位万公里去掉方便后续计算比如：1.2万公里 df['car_run'] = df['car_run'].apply(lambda x:x.split('万公里')) # 将数据中car_push字段中有未上牌的数据删除 df['car_push'] = df['car_push'].apply(lambda x:x if not x=="未上牌" else np.nan) # 删除字段中存在有NAN的数据 df.dropna(inplace=True) return df def car_brand_count_top10(df): """ 计算不同品牌的数量的前十名 :param df: dataFrame :return: df """ # 按照汽车的品牌进行分类 grouped = df.groupby('car_series')['car_run'].count().reset_index().sort_values(by="car_run",ascending=False)[:10] data = [[i['car_series'],i['car_run']] for i in grouped.to_dict(orient="records")] print(data) return data def car_use_year_count(df): """ 计算二手车的使用时间 :param df: dataFrame :return: df """ # 处理汽车的变卖时间 date = pd.to_datetime(df['car_push']) date_value = pd.DatetimeIndex(date) df['car_push_year'] = date_value.year # 转换数据类型为int df['car_time_style'] = df['car_time_style'].astype(np.int) df['car_push_year'] = df['car_push_year'].astype(np.int) df['cae_use_year'] = df['car_push_year']-df['car_time_style'] # 对车的使用年限进行分类 grouped = df.groupby('cae_use_year')['car_series'].count().reset_index() # 将使用年限为负的字段删除并根据使用年限进行分组分为 <一年一年~三年 >三年 grouped = grouped.query('cae_use_year>=0') grouped.loc[:,'cae_use_year'] = grouped.loc[:,'cae_use_year'].apply(lambda x:"<一年" if x==0 else x ) grouped.loc[:,'cae_use_year'] = grouped.loc[:,'cae_use_year'].apply(lambda x:"一年~三年" if not x =='<一年' and x>0 and x<3 else x ) grouped.loc[:,'cae_use_year'] = grouped.loc[:,'cae_use_year'].apply(lambda x:">三年" if not x =='<一年' and not x=="一年~三年" and x>=3 else x ) # 再根据不同使用年限进行分组 grouped_use_year = grouped.groupby('cae_use_year')['car_series'].sum().reset_index() data = [[i['cae_use_year'],i['car_series']] for i in grouped_use_year.to_dict(orient="records")] print(data) return data def car_place_count(df): """ 计算不同地区的二手车数量 :param df: dataFrame :return: df """ grouped = df.groupby('car_place')['car_series'].count().reset_index() data = [[i['car_place'],i['car_series']] for i in grouped.to_dict(orient="records")] print(data) return data def car_month_count(df): """ 计算每个月的二手车数量 :param df: dataFrame :return: df """ # 处理汽车的变卖时间 date = pd.to_datetime(df['car_push']) date_value = pd.DatetimeIndex(date) month = date_value.month df['car_push_month'] = month # 对汽车变卖的月份进行分组 grouped = df.groupby('car_push_month')['car_series'].count().reset_index() data = [[i['car_push_month'],i['car_series']] for i in grouped.to_dict(orient="records")] print(data) return data def save(cursor,sql,data): result = cursor.executemany(sql,data) if result: print('插入成功') if __name__ == '__main__': # 1 从MongoDB中获取数据 # 初始化MongoDB数据连接 # client = MongoClient() # collections = client['test']['car_home'] # 获取MongoDB数据 # cars = collections.find({},{'_id':0}) # 2 读取xlsx文件数据（已将MongoDB中数据转换成xlsx格式） cars = pd.read_excel('./carhome.xlsx',engine='openpyxl') # 将数据转换成dataFrame类型 df = pd.DataFrame(cars) print(df.info()) print(df.head()) # 对数据进行预处理 df = pre_process(df) # 计算不同品牌的数量的前十名 data1 = car_brand_count_top10(df) # 计算二手车的使用时间 data2 = car_use_year_count(df) # 计算不同地区的二手车数量 data3 = car_place_count(df) # 计算每个月的二手车数量 data4 = car_month_count(df) # 创建mysql连接 conn = pymysql.connect(user='root',password='123456',host='localhost',port=3306,database='car_home',charset='utf8') try: with conn.cursor() as cursor: # 计算不同品牌的数量的前十名 sql1 = 'insert into db_car_brand_top10(brand,count) values(%s,%s)' save(cursor,sql1,data1) # 计算二手车的使用时间 sql2 = 'insert into db_car_area(area,count) values(%s,%s)' save(cursor,sql2,data2) # 计算不同地区的二手车数量 sql3 = 'insert into db_car_use_year(year_area,count) values(%s,%s)' save(cursor, sql3, data3) # 计算每个月的二手车数量 sql4 = 'insert into db_car_month(month,count) values(%s,%s)' save(cursor,sql4,data4) conn.commit() except pymysql.MySQLError as error: print(error) conn.rollback()

评论收藏

内容反馈