# DataCastle 2018国能日新光伏功率预测 -- 构建BaseLine
*机器学习第一次练手过程,记录于此。*
## 数据加载
使用pandas的read_csv()方法加载数据,然后使用concat()的方法分别将4个训练集和4个测试集合并到一起。
## 数据探索
1. 使用head()查看测试集和训练集前5行数据,可以看出训练集比测试集数据多出【实发辐照度】和【实际功率】两列。另外,测试集【id】列只是序号,对算法模型无影响,删除即可。
2. 使用scatter()绘制【实发辐照度】和【实际功率】数据的散点图,可以看出,两列数据强相关。
3. 使用info()查看数据基础信息,可以看出训练集和测试集数据并无空值。但时间数据为字符格式,需要处理。
4. 使用describe()查看数据统计值,可以看出训练集和测试集各列数据并无缺失值。另外可以看出,训练集【实发辐照度】和【实际功率】两列数据50%数据为近似于0,而最大值远大于0。联想夜晚并无光照,故无辐照度和功率,处理数据时可作为参考。
5. 使用Excel打开训练集和测试集数据,可以看出:
+ 训练集给定3年的数据,而测试集只设计1年,可猜测年份对光伏功率无影响;
+ 所有数据时间秒数皆为0,可猜测其对光伏功率无影响;
+ 月、日、时、分对功率的影响无法判断,可提取处理作为特征,绘制散点图或计算相关性系数查看其与功率的相关性;
## 特征工程
根据数据探索中的分析,可初步处理数据:
1. 训练集:
+ 从【时间】列提取月、日、时、分信息,作为新的特征添加到数据中;
+ 删除【时间】列数据,或将其设为行索引(考虑选择模型时,或可使用时间序列模型);
+ 因各特征量纲不同,故进行数据归一化处理;
2. 测试集:
+ 去除无用的【id】列;
+ 从【时间】列提取月、日、时、分信息,作为新的特征添加到数据中;
+ 进行数据归一化处理;
## 选择模型,训练、预测数据
1. 数据量较小,且为回归预测型需求,初步选择SVM模型的回归类型SVR算法;
2. 因【实发辐照度】为强特征,故先预测实发辐照度,将其添加到测试集中,再预测光伏功率;
3. 因是比赛数据,测试集无标签,故无法计算测试集准确率;
## 数据保存与提交
使用pandas的to_csv()方法,按要求保存数据,然后提交到比赛网站即可。
## 算法改进
1. 机器学习算法“特征为王”的时代,好的特征工程(如异常值删除、特征过滤、特征组合等)是算法提升的必备过程;
2. 可以考虑使用2种以上模型预测数据,最后进行融合;
3. 从专业角度出发进行改进。如本赛题,光伏功率可以使用时间序列法和神经网络等方法进行预测。
## 附:文件(夹)说明
1. DC_Data是赛题提供的数据;
2. main.py 为程序入口代码;
3. Load_Save_Data.py 为加载和保存数据代码;
4. Data_Process.py 为数据预处理(特征工程)代码;
5. Train_Predict.py 为训练、预测数据代码;
6. DC_PV_Power_Predict_2018.ipynb 为初步拿到数据,在jupyter notebook上进行数据探索过程;
7. Task_Info.doc 为赛题要求
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
Python基于机器学习的光伏功率预测项目源码+训练数据+测试数据(高分代码),含有代码注释,新手也可看懂,个人手打98分项目,导师非常认可的高分项目,毕业设计、期末大作业和课程设计高分必看,下载下来,简单部署,就可以使用。 Python基于机器学习的光伏功率预测项目源码+训练数据+测试数据(高分代码),含有代码注释,新手也可看懂,个人手打98分项目,导师非常认可的高分项目,毕业设计、期末大作业和课程设计高分必看,下载下来,简单部署,就可以使用。 Python基于机器学习的光伏功率预测项目源码+训练数据+测试数据(高分代码) Python基于机器学习的光伏功率预测项目源码+训练数据+测试数据(高分代码) Python基于机器学习的光伏功率预测项目源码+训练数据+测试数据(高分代码) Python基于机器学习的光伏功率预测项目源码+训练数据+测试数据(高分代码) Python基于机器学习的光伏功率预测项目源码+训练数据+测试数据(高分代码) Python基于机器学习的光伏功率预测项目源码+训练数据+测试数据(高分代码) Python基于机器学习的光伏功率预测项目源码+训练数据+测试。
资源推荐
资源详情
资源评论
收起资源包目录
Python基于机器学习的光伏功率预测项目源码+训练数据+测试数据.zip (16个子文件)
DC_PV_Power_Predict_2018-master
Load_Save_Data.py 1KB
Task_Info.docx 410KB
main.py 1KB
DC_PV_Power_Predict_2018.ipynb 34KB
Data_Process.py 2KB
Train_Predict.py 1KB
.gitignore 13B
README.md 3KB
DC_Data
train_4.csv 5.21MB
test_4.csv 1.62MB
train_3.csv 3.68MB
test_2.csv 1.71MB
test_1.csv 1.42MB
train_2.csv 5.31MB
test_3.csv 733KB
train_1.csv 8.31MB
共 16 条
- 1
资源评论
- 冠军侯5162024-10-18超级好的资源,很值得参考学习,对我启发很大,支持!
王二空间
- 粉丝: 7217
- 资源: 2087
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功