
课程设计报告
2024~2025 学年第一学期
课 程
数据分析技术
课程设计题目
国家水稻中心网站信息采集处理与
分析
院 ( 系 ) :
姓 名
学 号
专 业 班 级
指 导 教 师
2024 年 11 月 29

iii
目 录
第 一 章 绪 论 . . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1 . 1 项 目 背 景 与 目 标 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1 . 2 开 发 环 境 及 技 术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
第 二 章 数 据 采 集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 . 1 数 据 采 集 的 流 程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 . 2 数 据 爬 取 的 代 码 及 结 果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
第 三 章 数 据 预 处 理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 0
3 . 1 数 据 清 理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 0
3 . 2 数 据 集 成 规 约 与 变 换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1
第 四 章 数 据 分 析 与 可 视 化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2
4 . 1 统 计 省 级 及 国 审 部 门 审 定 水 稻 数 量 分 析 与 可 视 化 . . . . . . . 1 2
4 . 2 统 计 水 稻 品 种 数 量 构 成 分 布 情 况 分 析 与 可 视 化 . . . . . . . . . 1 6
4 . 3 对 比 分 析 水 稻 母 本 数 量 分 析 与 可 视 化 .. . . . . . . . . . . . . . . . 1 9
4 . 4 对 比 分 析 审 定 公 司 品 种 数 量 分 析 与 可 视 化 . . . . . . . . . . . . . 2 2
4 . 5 统 计 省 级 以 上 部 门 与 水 稻 品 种 关 系 分 析 与 可 视 化 . . . . . . . 2 5
4 . 6 对 比 分 析 常 见 审 定 公 司 数 量 分 析 与 可 视 化 . . . . . . . . . . . . . 2 9
第 五 章 结 语 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2

第 1 页
第一章 绪论
关 于 农 产 品 信 息 采 集 与 分 析 的 项 目 , 具 体 针 对 国 家 水 稻 中 心 网 站
(https://www.ricedata.cn/variety/index.htm)的水稻数据。项目的主要任务包括:
数据爬取:从国家水稻中心网站爬取历年审定的水稻品种数据,该网站拥有超过 15000 条
记录,涵盖各省份的水稻品种信息。数据处理:对爬取的数据进行清洗、整理和格式化,
以便进行有效分析。统计分析:分析各省级部门审定的水稻数量,了解不同地区的审定情
况;研究水稻品种的数量构成分布,识别主要品种类型;对水稻母本数量进行对比分析,
了解不同母本的使用情况;统计常见审定公司的数量,识别主要的选育单位;探讨省级以
上部门与水稻品种的关系,分析地区特性与水稻品种的关联。
1.1 项目背景与目标
应用背景:
在现代农业生产中,水稻作为全球重要的粮食作物之一,其品种的多样性和适应性对
于保障粮食安全和提升农业经济效益具有重要意义。随着农业科技的不断进步,新的水稻
品种不断被研发和审定,这些品种在抗病虫害、产量、品质等方面的表现对于指导农业生
产具有重要的参考价值。因此,对水稻品种信息的采集与处理分析显得尤为重要。
开发必要性:
1、数据支持决策:通过对国家水稻数据中心网站的历年审定水稻样本的爬取和分析,
可以为农业政策制定者、种业公司和农民提供决策支持,帮助他们了解各地区水稻品种的
分布和特性,从而做出更合理的种植选择。
2、品种改良与创新:统计分析省级以上部门审定水稻数量、水稻品种数量构成分布
情况等,有助于科研机构和种业公司了解当前水稻品种的市场表现和需求,推动新品种的
研发和改良。
3、市场趋势分析:通过分析水稻母本数量对比和常见审定公司数量对比,可以揭示
市场趋势和行业动态,为种业市场的投资和经营提供依据。
4、风险管理:通过对省级以上部门与水稻品种关系的分析,可以识别可能的风险点,
如某些地区对特定品种的依赖度过高,从而采取相应的风险管理措施。
5、农业信息服务:建立一个全面的水稻品种数据库,可以为农业信息服务提供基础
数据支持,增强信息服务的准确性和时效性。

第 2 页
6、科研与教育:为农业科研人员和学生提供丰富的研究材料,促进农业科学教育的
发展。
1.2 开发环境及技术
1. 操作系统
Windows
2. 开发工具
IDE(集成开发环境):PyCharm 用于编写和调试 Python 代码。
3. 编程语言和框架
Python:主要编程语言,用于数据爬取、处理和分析。
Selenium:用于自动化 Web 浏览器交互,爬取动态加载的数据。
requests:用于发送 HTTP 请求,爬取静态网页数据。
parsel:用于解析 HTML 和 XML 文档,提取所需数据。
Pandas:用于数据处理和分析。
4. 数据可视化工具
Matplotlib:Python 的数据可视化库,用于创建图表和图形。
Jupyter Notebook:数据预处理分析和可视化。
第二章 数据采集
数据采集是将信息从不同的来源收集并存储起来,以便进一步处理和分析的过程。
2.1 数据采集的流程
1. 访问网站
手动打开浏览器,输入国家水稻数据中心网站的 URL,访问网站。
2. 浏览和定位数据
在网站上找到包含水稻品种信息的页面。
浏览网站结构,定位到具体的数据列表或数据库入口。
3. 数据收集
手动复制或记录下每个水稻品种的相关信息,品种名称、亲本来源等。
对于每个省份或分类,单独访问不同的页面,并重复上述复制过程。
4. 数据整理

第 3 页
将收集到的数据整理到 Excel 电子表格或纸质表格中。
为不同的信息字段分配列,品种名称、亲本来源、类型等。
5. 数据验证
检查复制的数据是否准确无误,如有必要,返回网站进行核对。
6. 数据存储
将整理好的数据保存在本地硬盘或云端存储服务中。
7. 数据分析
使用 Excel 或专业的统计软件对数据进行分析。
进行如计数、求和、平均值计算等基本的统计分析。
8. 数据可视化
利用图表工具,如柱状图、饼图等,将分析结果可视化。
9. 报告编制
根据分析结果编制报告,可能包括文字描述和图表。
报告可能用于内部决策支持或对外发布。
10. 数据更新
定期回访网站,检查是否有新的数据更新。
重复上述步骤,以保持数据的时效性。
11. 异常处理
在数据收集和分析过程中,遇到任何异常或错误都需要手动检查和修正。
12. 合规性检查
确保数据收集和使用过程符合相关法律法规和网站政策。
2.2 数据爬取的代码及结果
爬取省份链接代码:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
import pandas as pd
def get_province_urls(url):
try:
# 初始化 WebDriver