## 项目更新日志
### 一、项目名称
基于大数据的蔬菜价格的预测
### 二、主要编程语言:
python、php
### 三、工具:
pycharm、微信公众号
### 四、实现过程:
1. 将网站上的蔬菜价格,以及天气情况等可能相关数据爬取到本地,进行数据清洗;
2. 本地数据处理,之后以时间序列、神经网络等方式进行预测并比较各方式优劣;
3. web开发,将所得预测数据、结论等web端显示;
4. 考虑公众号开发,将所得预测数据、结论等显示在公众号上,使用户可查询。
### 五、各部分对应主要的库和框架:
1. 爬虫:scrapy,beautifulsoup
2. 数据处理:pandas,numpy
3. 预测:sklearn,matplotlib,statsmodels,pyflux,datetime
4. web显示:flask,matplotlib
5. 数据库:pymongo
6. 公众号开发:未知
注:数据处理方面pandas和numpy的功能有点杂和重复,需要花些时间;sklearn库里有许多简易实现各种预测方法,但也有一定局限性,matplotlib库主要用于画图,时间序列两个库statsmodels,pyflux的实现也有一些差别,后者可以直接以多组数据导入,得到一组数据的时间序列曲线。
### 六、可能有用的学习链接
1. <b>scrapy:</b></br>
https://blog.csdn.net/yancey_blog/article/details/53888473 </br>
http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html
2. <b>sklearn:</b></br>https://blog.csdn.net/hzp123123/article/details/77744420
3. <b>pandas:</b></br>
https://blog.csdn.net/zutsoft/article/details/51498026</br>
https://blog.csdn.net/qq_16949707/article/details/71083249
4. <b>预处理:</b></br>
https://blog.csdn.net/sinat_33761963/article/details/53433799
5. <b>时间序列:</b></br>
https://www.cnblogs.com/foley/p/5582358.html
6. <b>flask:</b></br>
http://www.pythondoc.com/flask-mega-tutorial/index.html
7. <b>神经网络:</b></br>
https://www.cnblogs.com/hhh5460/p/4304628.html</br>
https://blog.csdn.net/u011649885/article/details/75034976</br>
https://blog.csdn.net/selinda001/article/details/79445981
### 七.后续更新日志
#### 项目正式开始时间:2018-07-10
#### 2018-07-22
成员试着爬取数据,网站数据7万多条,爬取了4万多条后ip被封,后续代码改进要考虑到爬取速度及应对反爬机制。网站数据以日期排序,在本地经过处理后,以蔬菜名、日期排序,已经暂时以csv文件格式保存。便于传输。
</br> 接下来要做的工作有:
1. 爬虫的完善,需要实现能实时爬取最新数据到本地MongoDB数据库;督盛
2. 编写一个接口,从MongoDB获取某种蔬菜价格变化的数据;楷航
3. 前端将接口获取的数据以曲线图方式表现出来;智超
4. 在第一点完成之后。可以考虑进行数据的分析了,首先是利用时间序列;楷航,督盛、
</br>注:之后成员交流代码用github或者码云,考虑到隐私性,应该是使用码云,做好准备。
#### 2018-08-01
暂时用webmagic框架爬取江南水果批发市场的信息,爬取成功并先保存到本地csv文件。在这期间前往江南果蔬批发市场实地调查价格,询问一些店铺的工作人员得到的数据与当天网站总结的数据相比,略小一点点,网站价格计算并不单纯为人工采集,这点差异可以接受。之后先利用大蒜价格初步进行一次ARIMA时间序列的测试,初步测试效果还行,取自相关系数为2,偏自相关系数为2,一阶差分,之后实际部署到服务器上的话,可以采取每日定时爬取最新数据,进行滚动预测。
</br> 接下来要做的工作有:
1. 需要爬取其他一些数据,配合蔬菜价格,进行神经网络的分析或是其他预测方法,不过参数的数量也要把握好,过拟合这种东西是要辩证看待的;
2. 时间序列多测试几遍其他蔬菜,看看几个参数的选择及数据处理是否合理;
3. 深入理解多种神经网络模型;
4. 考虑一下重心问题,成员是否要一起集中精力在预测模型这边,等到模型拟合之后再将重心转移到网站开发上,看成员兴趣意愿;
5. 可再次去一次市场实地调查,调查之前没有调查过的蔬菜。
</br>注:成员加紧学习进度,看书之后多进行测试,一味看书帮助不大
#### 2018-08-19
最近可以说没什么进展,不过爬虫获取数据,有一个新的思路,对一个网站,若是访问的时候,该网站从别的网站获取数据,而不是直接以html的页面给出,则可以想方法直接获取数据而不是分析网页,有时可能需要token,则可由该网站一个页面获取token,用该token获取数据。
</br> 接下来要做的工作有:
1. 加紧学习力度,学习进度实在有点慢;
2. 加紧学习力度,学习进度实在有点慢;
3. 加紧学习力度,学习进度实在有点慢;
4. tensorflow学好,用其进行神经网络的分析,使用入门不难,我的代码发到码云了,神经网络和爬虫的进度要快点,参数可以后来慢慢调,但得先有个简单粗略的可以进行分析的模型,不然不知道怎么汇报了;
5. 思考一下网站开发的界面。
#### 2018-08-30
最近做的工作有:
1. 爬取广州2015年至今的天气数据,实际用上的是2016年1月1日至2018年6月;
2. 数据处理,先用丝瓜这种蔬菜的价格数据与广州天气以DataFrame格式连接在一个表里;
3. 确立输入变量,进行数据处理,格式化,归一化等;
4. 用bp神经网络做个粗糙拟合;
结合一下神经网络的预测情况,接下来需要做的:
1. 处理数据,将所有蔬菜信息集合在一张表里,增加一个变量,即蔬菜名,之后剔除“pre_price”变量;
2. 对比预测结果,该方法是否可行,验证该方法是否可行;
3. 优化当前模型,看能否在剔除“pre_price”之后还能有好的预测结果。
### 2018-12-01
由于之前想着先把数据测试并建立出一些模型来跑一下,所以有几个问题:
- 价格数据会有不连续的情况发生,而对于直接用历史数据进行预测的话,我觉得这点还是要注意一下的;
- bp神经网络和lstm用的,数据有一定偏差;
- ARIMA模型的具体开展流程怎么样,以什么数据做训练集,预测哪些天的数据;
- 由于之前每个阶段考虑的数据要求不太一致,因此数据的选用,bp和lstm都是一共只选用了700个数据差不多。
因此现在决定从数据开始,确定好每一步的流程:
- 首先,爬取一下从暑假到现在的数据,增加一些数据
- 数据处理方面:先切割成每种蔬菜一个csv文件,对缺失的数据,一种是考虑直接引用前一天的数据,但如果是多天连续没有就不行了,所以考虑,用前后两个数据加和,取平均
- 于是现在假定取得的数据是完整的,不间断的蔬菜价格,大致是从2016-01-01~2018-12-01,也就是说,正常来讲,会有1065天的数据。那么,现在需要确定一下数据的训练和测试集,要做的是预测十天后的数据
- 首先确定好要利用1060天的价格数据,决定前800个数据作为训练,后面260天作为测试时用到的数据,具体到三个算法中应该如下:
1. ARIMA:从2016-01-01开始的800个数据,作为一开始的训练数据,直接便可以预测10天后的数据,于是总共可以预测从第810到1060的250个数据,然后与真实数据对比,求出在1%,5%,10%的误差�
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【项目资源】: 包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。 包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。
资源推荐
资源详情
资源评论
收起资源包目录
大创项目:基于大数据的蔬菜价格预测.zip (181个子文件)
本地菜心.csv 45KB
云南小瓜.csv 44KB
小塘白菜.csv 44KB
本地芹菜.csv 44KB
矮脚白菜.csv 44KB
矮脚白菜.csv 44KB
矮脚白菜.csv 44KB
青皮冬瓜.csv 43KB
西红柿.csv 42KB
红尖椒.csv 42KB
青尖椒.csv 42KB
包心芥菜.csv 42KB
椰菜花.csv 42KB
日本豆腐.csv 41KB
金针菇.csv 41KB
鲜冬菇.csv 41KB
白萝卜.csv 41KB
红萝卜.csv 41KB
大肉姜.csv 41KB
洋葱头.csv 41KB
西兰花.csv 40KB
娃娃菜.csv 40KB
鲜人参.csv 40KB
鲜淮山.csv 40KB
红葱头.csv 40KB
韭菜花.csv 40KB
大芋头.csv 40KB
茶树菇.csv 40KB
荷兰豆.csv 40KB
白豆角.csv 39KB
土豆.csv 39KB
韭黄.csv 39KB
蒜头.csv 39KB
鲜虫草.csv 38KB
红薯.csv 38KB
芥兰.csv 38KB
椰菜.csv 38KB
玉米.csv 38KB
莴笋.csv 38KB
绍菜.csv 38KB
苦瓜.csv 38KB
芫茜.csv 38KB
西芹.csv 38KB
茄瓜.csv 38KB
沙姜.csv 38KB
韭菜.csv 38KB
园椒.csv 38KB
甜墨豆.csv 38KB
芦笋.csv 38KB
青瓜.csv 38KB
西生菜.csv 38KB
南瓜.csv 38KB
葫芦瓜.csv 37KB
鲜百合.csv 37KB
紫椰菜.csv 37KB
菠菜.csv 37KB
丝瓜.csv 37KB
槟芋.csv 37KB
油麦菜.csv 37KB
大蒜.csv 36KB
玉豆.csv 36KB
节瓜.csv 36KB
百灵菇.csv 36KB
葱.csv 35KB
蒜心.csv 35KB
生菜.csv 34KB
春菜.csv 34KB
粉葛.csv 34KB
沙葛.csv 33KB
青皮冬瓜.csv 33KB
本地菜心.csv 33KB
小塘白菜.csv 33KB
矮脚白菜.csv 33KB
包心芥菜.csv 33KB
本地芹菜.csv 33KB
云南小瓜.csv 33KB
日本豆腐.csv 33KB
蒜肉.csv 33KB
莲藕.csv 33KB
鲜人参.csv 32KB
鲜百合.csv 31KB
百灵菇.csv 31KB
鲜虫草.csv 31KB
鲜冬菇.csv 31KB
马蹄.csv 31KB
茶树菇.csv 31KB
韭菜花.csv 31KB
荷兰豆.csv 31KB
红葱头.csv 30KB
甜墨豆.csv 30KB
金针菇.csv 30KB
白豆角.csv 30KB
西兰花.csv 30KB
西生菜.csv 30KB
白萝卜.csv 30KB
油麦菜.csv 30KB
洋葱头.csv 30KB
红尖椒.csv 30KB
红萝卜.csv 30KB
大肉姜.csv 30KB
共 181 条
- 1
- 2
资源评论
妄北y
- 粉丝: 1w+
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功