没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
12页
kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,kaggle教程,方案分析,竞赛资料,竞赛方案参考,
资源推荐
资源详情
资源评论
多元时间序列特征工程总结
自回归
多变量时间序列包含两个或多个变量,研究这些数据集的目的是预测一个
或多个变量,参见下面的示例。
上图是包含9个变量的多变量时间序列。这些是智能浮标捕捉到的海洋状况
。
大多数预测模型都是基于自回归的。这相当于解决了一个监督学习回归任
务。该序列的未来值是目标变量。输入的解释变量是每个变量最近的过去
值。
自回归在一个主要假设下工作。最近的过去值包含了关于未来的足够信息
。但这可能不一定是真的。我们可以尝试从最近的数据中提取更多的信息
。例如,滚动汇总统计信息有助于描述最近的动态。
自动化特征工程
特征工程包括提取和生成解释变量,这是任何数据科学项目的关键。特征
的质量是模型性能的一个核心方面,所以数据科学家在这个过程中花费了
大量的时间。
特性工程通常是一个特别的过程:数据科学家基于他们的领域知识和专业
知识创建特性,如果该过程的能够自动化化处理将会为我们节省很多的时
间。让我们看看如何在多元时间序列中做到这一点。
基线模型
读取数据
我们将使用从智能浮标收集的多元时间序列作为本文的数据集
[1]。这个浮标位于爱尔兰海岸。它捕获了 9
个与海洋条件相关的变量。其中包括海水温度、波浪高度和海水流速等。
上面的图 1 显示了 2022 年第一个月的情况。
以下是使用 pandas 读取这些数据的方法:
import pandas as pd
# skipping second row, setting time column as a datetime column
# dataset available here:
https://github.com/vcerqueira/blog/tree/main/data
buoy = pd.read_csv('data/smart_buoy.csv',
skiprows=[1],
parse_dates=['time'])
# setting time as index
buoy.set_index('time', inplace=True)
# resampling to hourly data
buoy = buoy.resample('H').mean()
# simplifying column names
buoy.columns = [
'PeakP', 'PeakD', 'Upcross',
'SWH', 'SeaTemp', 'Hmax', 'THmax',
'MCurDir', 'MCurSpd'
]
这个数据集研究的目标是预测SWH(显著波高)变量的未来值。这个变量常
被用来量化海浪的高度。这个问题的一个用例是估计海浪发电的大小,因
为这种能源是一种越来越受欢迎的替代不可再生能源。
自回归模型
时间序列是多元的,所以可以使用ARDL(Auto-regressive distributed
lags)方法来解决这个任务。我们在之前也介绍过则个方法。下面是这个方
法的实现:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_percentage_error as
mape
from sklearn.multioutput import MultiOutputRegressor
from lightgbm import LGBMRegressor
# https://github.com/vcerqueira/blog/blob/main/src/tde.py
from src.tde import time_delay_embedding
target_var = 'SWH'
剩余11页未读,继续阅读
资源评论
白话机器学习
- 粉丝: 9126
- 资源: 7681
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功