没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
"《数据挖掘:R语言实战》:kaggle-bike-competition" 这本书籍的内容主要围绕着数据挖掘和R语言实战,通过Kaggle Bike Competition这个案例,展示了如何使用R语言对数据进行挖掘和分析。下面是对书籍内容的总结和分析: 一、数据预处理及可视化 在数据预处理阶段,作者对数据进行了初步的探索和可视化,包括对变量的描述和可视化、数据分布的可视化等。通过对数据的初步探索,作者发现了数据中的几个有趣的规律,如夏季和秋季的租凭需求略高、非假期的需求比假期的高、天气越恶劣,用户的需求也相应减少等。 二、相关性分析 在相关性分析阶段,作者对变量之间的相关性进行了分析,发现了几个有趣的结果,如temp和atemp高度相关、temp、atemp和用户数有较强的正相关关系、humidity和用户数有负相关关系等。这些结果为后续的数据挖掘和分析奠定了基础。 三、算法选取与实现 在算法选取与实现阶段,作者介绍了四种不同的算法,包括朴素贝叶斯、随机森林、XGBoost和支持向量机。每种算法的原理和实现都得到了详细的介绍和分析。通过对四种算法的比较和分析,作者发现了每种算法的优缺点,并介绍了如何选择合适的算法来解决实际问题。 四、结论 通过对《数据挖掘:R语言实战》的分析,我们可以看到,这本书籍提供了一个完整的数据挖掘和分析的流程,从数据预处理到算法选取与实现。作者通过实际案例的分析,展示了如何使用R语言对数据进行挖掘和分析,并提供了四种不同的算法来解决实际问题。这本书籍对数据挖掘和R语言实战的爱好者是一个非常有价值的资源。
资源推荐
资源详情
资源评论
实验 6
将 kaggle_bike_competition 数据集中 count 变量分成 5 个类,对数据进行归
一化处理后使用 4 种不同的算法(自行选择)进行分类,用十折交叉验证比较各
算法结果的错误率和 Kappa 值,使用相关分析和随机森林算法选择出影响用自
行车数量的最关键的三个属性,并进行可视化分析。
变量名
变量解释
datetime
日期+时间
season
季节:1=冬季 2=春季 3=夏季 4=秋季
holiday
是否为假期
workingday
是否为工作日
weather
四个类别(1 到 4),从最佳到最差天气
temp
温度(摄氏度)
atemp
以摄氏度为单位的温度感觉
humidity
相对湿度
windspeed
风速(公里/小时)
casual
非注册的用户数
registered
注册的用户数
count
总计用户数
一、数据预处理及可视化
1.1 数据总览
从结果来看,数据比较完整,可以进行下一步分析。
1.2 数据可视化
季节 VS 用户数
➢ 夏季和秋季的租凭需求略高。
是否假期 VS 用户数
➢ 大体上看,非假期的需求比假期的高。
是否工作日 VS 用户数
➢ 非注册用户在非工作日的需求远大于工作日的时候,可能是节假日出行临时
使用。
剩余12页未读,继续阅读
资源评论
胆怯与勇敢
- 粉丝: 297
- 资源: 10
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功