• 数据——东北大学大数据班数据挖掘实训四.zip

    博客《【Python】随机森林算法——东北大学大数据班数据挖掘实训四》的数据 利用train.csv中的数据,通过H2O框架中的随机森林算法构建分类模型,然后利用模型对test.csv中的数据进行预测,并计算分类的准确度进而评价模型的分类效果;通过调节参数,观察分类准确度的变化情况。注:准确度=预测正确的数与样本总数的比【注:可以做一些特征选择的工作,来提高准确度】

    0
    538
    52KB
    2020-05-03
    29
  • 数据——东北大学数据挖掘实训三.zip

    《【Python】决策树算法(DecisionTreeClassifier)——东北大学数据挖掘实训三》的数据

    0
    653
    186.55MB
    2020-05-03
    50
  • 波士顿房价数据集(boston_housing.npz)

    本节将要预测 20 世纪 70 年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。 本节用到的数据集与前面两个例子有一个有趣的区别。它包含的数据点相对较少,只有 506 个,分为 404 个训练样本和 102 个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特性是比例,取值范围为 01;有的取值范围为 112;还有的取值范围为 0~100,等等。

    5
    3164
    16KB
    2020-04-27
    31
  • reuters.npz和reuters_word_index.json.zip

    路透社数据集,它包含许多短新闻及其对应的主题,由路透社在 1986 年发布。它 是一个简单的、广泛使用的文本分类数据集。它包括 46 个不同的主题:某些主题的样本更多, 但训练集中每个主题都有至少 10 个样本。 与 IMDB 和 MNIST 类似,路透社数据集也内置为 Keras 的一部分。

    5
    432
    2.22MB
    2020-04-26
    42
  • mnist完整手写数字集

    mnist.npz 我们将使用 MNIST 数据集,它是机器学习领域的一个经典数据集,其历史几乎和这 个领域一样长,而且已被人们深入研究。这个数据集包含 60 000 张训练图像和 10 000 张测试图 像,由美国国家标准与技术研究院(National Institute of Standards and Technology,即 MNIST 中 的 NIST)在 20 世纪 80 年代收集得到。你可以将“解决”MNIST 问题看作深度学习的“Hello

    0
    249
    10.96MB
    2020-04-25
    15
  • imdb完整的数据集

    imdb.npz和imdb_word_index.json 互联网电影资料库(Internet Movie Database,简称IMDb)是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。

    0
    2022
    17.27MB
    2020-04-25
    49
  • pandasTrain.html python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2)

    python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2) 实训练习:练习使用pandas 包中的dataframe和方法。 1将数据读取为dataframe类型,命名为df 2查看数据的形状[了解数据有多少行、多少列] 3查看数据的最开始的7条数据和尾部的3条数据 4查看数据的各字段的类型 5查看数据是否有缺失值 6如果有缺失值,进行补0操作 7从df中按字段取出‘ date’’dist’和‘ flight’形成新的df1 8从df中按位置选取行为3和4,列为0,1的数据形成新的df2 9在df中添加一列‘ low_dest’,内容是‘ dest’这列的字符串的小写形式 10从df中选取‘ dist’大于1000并且小于1200的数据作为一个新的df3 11从df中选取‘ time’大于100的数据做为新的df4 12将df3和df4合并为一个dataframe,命名为df5 13取出df3中的‘ time’,‘dist’ 这两列做为df6, 求出df6中每列中最大值与最小值的差值(运用lambda函数的方式进行求解 ) 14将df根据“ dest”分组,统计各目的地,都有多少条数据,命名为“ dest_count”,然后将“ dest”和“ dest_count”组成新的dataframe命名为df7 15根据dep_delay不为0,统计df中有多少次航班起飞延误 16利用plane字段,统计df中不同航班的飞行次数,以plane和plane_cout格式保存为df8 17利用carrier字段,计算df中carrier字段不同属性数据的数据量的比值(如:XE的数据量与MQ的数据量的比值) 18分别将df7和 df8保存到本地文件,文件名分别为df7.csv和df8.csv

    0
    712
    329KB
    2020-03-29
    31
  • numpyTrain (1).html 练习使用python-numpy的方法——东北大学大数据班数据挖掘Python基础二(1)

    练习使用python-numpy的方法——东北大学大数据班数据挖掘Python基础二(1) 实训项目:练习使用numpy的方法。 (1)用0~19的数字生成(4,5)的数组命名为a,查看a的维度;查看a的轴的个数;查看a元素的总个数; (2)创建元素为1,2,3,4的(2,2)的数组 b,查看b中元素类型。 (3)创建一个全1的(4,4)的数组c;创建一个内容随机的(3,2)数组d,并打印d。 (4)用0~11的数,创建一个3*4的数组n1,计算每一列的和;计算每一行的最小值。 (5)生成一个3个元素的数组n2,通过常用函数计算每个元素的平方根;每个元素的标准差。 (6)生成一个9个(可以从0~8)元素的数组n3,计算每个元素的平方根;取出位置2的元素;取出位置2至5之间的元素。 (7)随机生成2个3*3的数组n4和n5,将n4和n5进行垂直合并形成n6;将n4和n5进行水平合并形成n7。 (8)创建一个2行3列的零矩阵命名为z,将z的2行3列的位置值置成1。 (9)生成4*4的对角矩阵,以[1,2,3,4]为对角线,其他位置用0填充,命名为z1 。 (10)用0~8的数,创建成`3*3`的矩阵,命名为z2;用随机数,创建`4*4`的矩阵,命名为z3。 (11)读取iris数据集中的数据。 (12)获取数据中的花萼长度数据。 (13)对花萼长度数据进行排序。 (14)对花萼长度数据进行去重。 (15)对花萼长度数据进行求和。 (16)对花萼长度数据进行求均值。 (17)对花萼长度数据求累计和。 (18)对花萼长度数据求标准差。 (19)对花萼长度数据求方差 。 (20)对花萼长度数据求最大值、最小值。

    0
    724
    326KB
    2020-03-29
    33
  • matplotlibTrain (1).html python-matplotlib的一些小练习——东北大学大数据班数据挖掘实训Python基础三

    python-matplotlib的一些小练习——东北大学大数据班数据挖掘实训Python基础三 题目:练习使用matplotlib 包中的方法绘图。 1.通过pandas包将数据scmd_CalculationData.csv读入,从中取出winddirection和windspeed1这2个字段,绘制风速与风向的散点图(风向为横轴,风速为y轴)。(要求:有标题(风速与风向的函数)、横纵坐标的标题、设置网格,保存图片文件命名为1风速与风向的函数.png) 2.通过pandas包将数据scmd_CalculationData.csv读入,从中取出windspeed1、power_max、power_min、power和power_dev这5个字段,绘制功率特性的散点图(风速为x轴,其他为y轴)。(要求:有标题(功率特性散点图)、横纵坐标的标题、图例、设置网格,保存图片文件命名为2功率特性散点图.png) 3.通过pandas包将数据bz_df_wt.csv读入,从中取出bin_bz_fs<=20的数据,然后取出实际风速bin_bz_fs和实际功率bin_bz_power;再读入bzglqx.csv取出保证风速fs和保证功率gl,绘制功率曲线的对比图(一张图中绘制,横轴为风速,纵轴为功率)。(要求:有标题(实测与设计功率曲线对比)、横纵坐标的标题、图例、设置网格,保存图片文件命名为3实测与设计功率曲线对比.png)

    0
    389
    457KB
    2020-03-29
    34
  • 东北大学Linux实验报告及代码sk.zip

    东北大学软件学院Linux实验报告及代码 老师是sk 东北大学软件学院Linux实验报告及代码 老师是sk

    0
    808
    634KB
    2020-02-04
    26
  • 勤写标兵

    授予累计3周发布3篇原创IT博文的用户
  • 知无不言

    回答1个问题,每日最多计数5次
  • 授人以渔

    1个回答被采纳
  • 笔耕不辍

    累计2年每年原创文章数量>=20篇
  • 1024超级勋章

    授予原创文章总数达到1024篇的博主,感谢你对CSDN社区的贡献,CSDN与你一起成长。
  • 1024勋章

    #1024程序员节#连续参与两年活动升级勋章,当日发布原创博客即可获得
  • 持续创作

    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 签到王者

    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 1024达人勋章

    10月24日粉丝/获赞/评论/收藏累计达到1024,即可获得“1024达人”勋章
  • 阅读者勋章

    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 技术圈认证

    用户完成年度认证,即可获得
  • 原力突破 · S

    在《原力计划【第二季】》打卡挑战活动中,有 5 篇参与活动的文章点赞 or 收藏 or 评论大于 50 的博主,即可获得此勋章。(本次活动结束后统一统计发放)
  • 原力探索 · S

    在《原力计划【第二季】》打卡挑战活动中,发布 12 篇原创文章参与活动的博主,即可获得此勋章。(本次活动结束后统一统计发放)
  • 原力探索

    参与《原力计划【第二季】——打卡挑战》的文章入选【每日精选】的博主将会获得此勋章。
  • 原力新人

    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。
  • 分享精英

    成功上传11个资源即可获取
  • 新人勋章

    用户发布第一条blink获赞超过3个即可获得
  • 创作能手

    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户
  • 分享达人

    成功上传6个资源即可获取
  • 学习力

    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 签到达人

    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 签到新秀

    累计签到获取,不积跬步,无以至千里,继续坚持!
关注 私信
上传资源赚积分or赚钱