机器学习原理与实战_源代码和实验数据.rar资源-CSDN文库

共209个文件

csv：134个

py：35个

xlsx：26个

版权申诉

128 浏览量 2022-07-03 11:27:06 上传评论收藏 139.06MB RAR 举报

《机器学习原理与实战》是一本深入探讨机器学习理论与实践的教材，其源代码和实验数据被封装在"机器学习原理与实战_源代码和实验数据.rar"这个压缩包中，供读者进行学习和实践操作。这个压缩包中包含了多个章节的资料，以及泰迪科技公司的相关介绍和产品体系图片，这些都是为了帮助读者更好地理解机器学习在实际业务中的应用。从泰迪科技的介绍和产品体系来看，我们可以推测这是一份结合了行业背景的教学资料。泰迪科技可能是一家专注于大数据分析和人工智能领域的公司，他们提供的产品体系涵盖了大数据处理、商务分析以及人工智能等多个方面，这为读者展示了机器学习技术在现实商业环境中的应用范围和价值。这些图片可以作为辅助理解，帮助读者将理论知识与实际业务场景相结合。接下来，我们看到压缩包内包含了多个章节的资料，虽然没有完整列出所有章节，但可以推断这本书涵盖了从基础到进阶的多个主题。例如，通常机器学习教程会从基础知识如线性回归、逻辑回归开始，然后逐步深入到决策树、随机森林、支持向量机、神经网络等复杂模型，再到集成学习和深度学习等前沿领域。每个章节可能包括理论讲解、算法实现以及相关的实验数据，这些数据用于验证和理解所学的算法。在学习机器学习的过程中，源代码是非常关键的一部分。它不仅能够帮助读者理解算法的实现细节，还提供了动手实践的机会。通过运行代码，读者可以直观地看到算法如何处理数据，如何进行训练和预测，从而加深对算法原理的理解。这些代码可能是用Python、R或者其他流行的编程语言编写的，它们通常包含了数据预处理、模型构建、训练、评估等步骤。实验数据是机器学习实践的重要组成部分。数据的质量和多样性直接影响到模型的性能和泛化能力。这些实验数据可能是各种类型的，比如数值型、类别型，或者是结构化或非结构化的数据。通过分析和处理这些数据，读者可以学习到数据清洗、特征工程、模型选择等关键技能。 "机器学习原理与实战_源代码和实验数据.rar"压缩包提供了一个全面的学习平台，涵盖了理论讲解、实际操作和案例分析，旨在帮助读者系统地掌握机器学习知识，并具备解决实际问题的能力。无论是对于初学者还是有一定经验的学习者，这套资料都能提供宝贵的指导和实践机会。

资源推荐

资源详情

资源评论

收起资源包目录

机器学习原理与实战_源代码和实验数据.rar （209个子文件）

u1.base 1.51MB

media3.csv 464.3MB

media_index.csv 437.64MB

billevents2.csv 16.64MB

air_data_clean.csv 14.7MB

mmconsume_billevents.csv 14.7MB

air_data.csv 13.56MB

mmconsume_payevents.csv 7.89MB

movie_comm.csv 5.49MB

order_index.csv 5.24MB

YD4周波数据1.csv 2.02MB

YD2周波数据1.csv 1.73MB

YD8周波数据1.csv 1.54MB

YD4周波数据.csv 1.54MB

YD2周波数据.csv 1.34MB

YD10周波数据1.csv 1.16MB

YD8周波数据.csv 1.16MB

YD7周波数据1.csv 939KB

YD10周波数据.csv 891KB

mediamatch_userevents.csv 809KB

设备1（YD8）周波数据1.csv 709KB

YD7周波数据.csv 709KB

设备1（YD8）周波数据.csv 532KB

YD4谐波数据1.csv 504KB

YD9周波数据1.csv 475KB

设备2（YD9）周波数据1.csv 451KB

YD1周波数据1.csv 436KB

YD2谐波数据1.csv 385KB

YD9周波数据.csv 358KB

res_mov.csv 357KB

YD8谐波数据1.csv 355KB

设备2（YD9）周波数据.csv 332KB

YD1周波数据.csv 321KB

YD4谐波数据.csv 315KB

device_combine.csv 311KB

YD3周波数据1.csv 308KB

train.csv 308KB

YD11周波数据1.csv 292KB

YD5周波数据1.csv 279KB

YD6周波数据1.csv 268KB

YD10谐波数据1.csv 253KB

YD3周波数据.csv 234KB

YD2谐波数据.csv 230KB

YD7谐波数据1.csv 228KB

YD11周波数据.csv 216KB

YD5周波数据.csv 210KB

YD8谐波数据.csv 208KB

YD6周波数据.csv 201KB

labels.csv 185KB

zuhe.csv 159KB

YD10谐波数据.csv 145KB

YD7谐波数据.csv 141KB

table_livelabel.csv 139KB

设备1（YD8）谐波数据1.csv 138KB

YD9谐波数据1.csv 111KB

设备2（YD9）谐波数据1.csv 106KB

YD1谐波数据1.csv 103KB

cctv5_spider.csv 88KB

设备1（YD8）谐波数据.csv 73KB

YD3谐波数据1.csv 70KB

YD6谐波数据1.csv 70KB

YD11谐波数据1.csv 68KB

YD5谐波数据1.csv 68KB

YD9谐波数据.csv 67KB

YD4设备数据1.csv 67KB

设备2（YD9）谐波数据.csv 63KB

YD1谐波数据.csv 62KB

YD2设备数据1.csv 60KB

YD8设备数据1.csv 51KB

YD4设备数据.csv 50KB

YD2设备数据.csv 46KB

YD6谐波数据.csv 44KB

YD3谐波数据.csv 42KB

YD5谐波数据.csv 42KB

YD11谐波数据.csv 40KB

YD10设备数据1.csv 39KB

YD8设备数据.csv 37KB

device_combine.csv 37KB

YD4波谷波峰.csv 35KB

YD7设备数据1.csv 30KB

YD2波谷波峰.csv 29KB

YD10设备数据.csv 29KB

设备1test.csv 28KB

YD8波谷波峰.csv 26KB

设备1（YD8）设备数据1.csv 22KB

YD7设备数据.csv 22KB

YD10波谷波峰.csv 19KB

zuhe.csv 19KB

设备2test.csv 19KB

设备1（YD8）设备数据.csv 16KB

YD7波谷波峰.csv 16KB

YD9设备数据1.csv 15KB

设备2（YD9）设备数据1.csv 15KB

YD1设备数据1.csv 14KB

设备1（YD8）波谷波峰.csv 12KB

YD9设备数据.csv 11KB

设备2（YD9）设备数据.csv 11KB

YD1设备数据.csv 10KB

YD3设备数据1.csv 10KB

YD11设备数据1.csv 9KB

共 209 条

# 代码10-9 import pandas as pd import numpy as np media3 = pd.read_csv('../tmp/media3.csv', header='infer', error_bad_lines=False) # 构建家庭成员标签 live_label = pd.read_csv('../data/table_livelabel.csv', encoding='gbk') # 时间列存在很多种写法，而且存在隔天的情况 live_label.开始时间 = pd.to_datetime(live_label.开始时间) # 将时间列变成datetime类型，好比较大小 live_label.结束时间 = pd.to_datetime(live_label.结束时间) live_label['origin_time1'] = live_label.开始时间.apply(lambda x: x.second + x.minute * 60 + x.hour * 3600) live_label['end_time1'] = live_label.结束时间.apply(lambda x: x.second + x.minute * 60 + x.hour * 3600) print('查看星期:', live_label.星期.unique()) # 有些节目跨夜，需进行隔夜处理 def geyechuli_xingqi(x): dic = {'星期一':'星期二', '星期二':'星期三', '星期三':'星期四', '星期四':'星期五', '星期五':'星期六', '星期六':'星期日', '星期日':'星期一'} return x.apply(lambda y: dic[y.星期], axis=1) ind1 = live_label.结束时间 < live_label.开始时间 label1 = live_label.loc[ind1, :].copy() # 日期可以变，后面以end_time比较 live_label.loc[ind1, '结束时间'] = pd.Timestamp('2018-06-07 23:59:59') live_label.loc[ind1, 'end_time1'] = 24 * 3600 label1.iloc[:, 1] = pd.Timestamp('2018-06-07 00:00:00') label1.iloc[:, -2] = 0 label1.iloc[:, 0] = geyechuli_xingqi(label1) label = pd.concat([live_label, label1]) label = label.reset_index(drop = True) # 恢复默认索引 data_pindao = media3.copy() label_ = label.loc[:, ['星期', 'origin_time1', 'end_time1', '频道', '适用人群']] label_.columns = ['星期', 'origin_time1', 'end_time1', 'station_name', '适用人群'] media_ = data_pindao.loc[:, ['phone_no', '星期', 'origin_time1', 'end_time1', 'station_name', ]] family_ = pd.merge(media_, label_, how = 'left', on=['星期', 'station_name']) f = np.array(family_.loc[:, ['origin_time1_x', 'end_time1_x', 'origin_time1_y', 'end_time1_y']]) # lebel中的栏目记录分为四类：一类是只看了后半截，一类是全部都看了， # 一类是只看了前半截，一类是看了中间一截 n1 = np.apply_along_axis(lambda x: (x[0] > x[2])&(x[0] < x[3])&(x[1] >= x[3]) , 1, f) # 1是行，2是列 n2 = np.apply_along_axis(lambda x: ((x[0] <= x[2])&(x[1] >= x[3])) , 1, f) n3 = np.apply_along_axis(lambda x: ((x[1] > x[2])&(x[1] < x[3])&(x[0] <=x [2])), 1, f) n4 = np.apply_along_axis(lambda x: ((x[0] > x[2])&(x[1] < x[3])), 1, f) da1 = family_.loc[n1, :].copy() da1['wat_time'] = da1.end_time1_y - da1.origin_time1_x da2 = family_.loc[n2, :].copy() da2['wat_time'] = da2.end_time1_y - da2.origin_time1_y da3 = family_.loc[n3, :].copy() da3['wat_time'] = da3.end_time1_x - da3.origin_time1_y da4= family_.loc[n4, :].copy() da4['wat_time'] = da4.end_time1_x - da4.origin_time1_x sd = pd.concat([da1, da2, da3, da4]) grouped = pd.DataFrame(sd['wat_time'].groupby([sd['phone_no'], sd['适用人群']]).sum()) grouped1 = pd.DataFrame(data_pindao['wat_time'].groupby([data_pindao['phone_no']]).sum()) phone_no = [] for i in range(len(grouped)): id = grouped.index[i][0] if id in grouped1.index.unique(): shang = grouped['wat_time'][i] / grouped1[grouped1.index==id] if shang.values > 0.16: phone_no.append(grouped.index[i][0]) else: continue grouped2 = grouped.reset_index() # 找出满足0.16标准的用户的家庭成员 aaa = pd.DataFrame(np.zeros([0, 3]), columns = grouped2.columns) for k in phone_no: aaa = pd.concat([aaa, grouped2.ix[grouped2.iloc[:, 0]== k, :]], axis=0) a = [aaa.ix[aaa['phone_no'] == k, '适用人群'].tolist() for k in aaa['phone_no'].unique()] a = pd.Series([pd.Series(a[i]).unique() for i in range(len(a))]) a = pd.DataFrame(a) b = pd.DataFrame(aaa['phone_no'].unique()) c = pd.concat([a, b], axis=1) c.columns = ['家庭成员', 'phone_no'] grouped1 = grouped1.reset_index() users_label = pd.merge(grouped1, c, left_on='phone_no', right_on ='phone_no', how='left') # 构建电视依赖度标签 di = media3.phone_no.value_counts().values < 10 users_label['电视依赖度'] = 0 users_label.loc[di, '电视依赖度'] = '低' zhong_gao = [i for i in users_label.index if i not in di] num = media3.phone_no.value_counts() for i in zhong_gao: if (users_label.loc[i, 'wat_time'] / num.iloc[i]) <= 3000: users_label.loc[i, '电视依赖度'] = '中' users_label.loc[users_label.电视依赖度 == 0, '电视依赖度'] = '高' # 构建机顶盒名称标签 jidinghe = media3.ix[media3['res_type'] == 1, :] jdh = jidinghe.res_name.groupby(jidinghe.phone_no).unique() jdh = jdh.reset_index() jdh.columns = ['phone_no', '机顶盒名称'] users_label = pd.merge(users_label, jdh, left_on='phone_no', right_on ='phone_no', how='left') # 观看时间偏好（周末） media_watch = media3.loc[:, ['phone_no', 'origin_time', 'end_time', 'res_type', '星期', 'wat_time']] media_f1 = media_watch.ix[media_watch['星期'] == '星期六', :] media_f2 = media_watch.ix[media_watch['星期'] == '星期日', :] media_freeday = pd.concat([media_f1, media_f2], axis=0) media_freeday = media_freeday.reset_index(drop = True) # 恢复默认索引 ''' 由于观看时间段偏好（工作日）与观看时间偏好（周末）的计算方式相似，所以此处不在列出观看时间段偏好（工作日）的计算代码 ''' # 分割日期和时间，按空格号分开 T1 = [str(media_freeday.ix[i, 1]).split(' ') for i in list(media_freeday.index)] # T1是列表，time[i] = T1[[i]][2]表示T1中第i个列表的第二列赋值给time的第i个 media_freeday['origin_time'] = [' '.join(['2018/06/09', T1[i][1]]) for i in media_freeday.index] media_freeday['origin_time'] = pd.to_datetime(media_freeday['origin_time'], format = '%Y/%m/%d %H:%M') point = ['2018/06/09 00:00:00', '2018/06/09 06:00:00', '2018/06/09 09:00:00', '2018/06/09 11:00:00', '2018/06/09 14:00:00', '2018/06/09 16:00:00', '2018/06/09 18:00:00', '2018/06/09 22:00:00', '2018/06/09 23:59:59'] lab = ['凌晨', '早晨', '上午', '中午', '下午', '傍晚', '晚上', '深夜'] sjd_num = pd.DataFrame() for k in range(0, 8): kk = (media_freeday['origin_time'] >= point[k]) & \ (media_freeday['origin_time'] < point[k+1]) sjd = media_freeday.ix[kk==True, ['phone_no', 'wat_time']] sjd_new = sjd.groupby('phone_no').sum().sort_values('wat_time') sjd_new['时间段偏好（周末）'] = lab[k] sjd_num = pd.concat([sjd_num, sjd_new], axis=0) sjd_num = sjd_num.reset_index() # 增加索引 sjd_num = sjd_num.sort_values('phone_no') # 以用户号排序 sjd_num = sjd_num.reset_index(drop = True) # 增加默认索引 # 保留前3的标签 users = sjd_num['phone_no'].unique() sjd_num_new = pd.DataFrame() for m in users: gd = sjd_num.ix[sjd_num['phone_no'] == m, :] if len(gd)>3: gd = gd.sort_values('wat_time').iloc[::-1, :] gd = gd.iloc[:3, :] else: continue sjd_num_new = pd.concat([sjd_num_new, gd], axis=0) sjd_label = sjd_num_new['时间段偏好（周末）'].groupby(sjd_num_new['phone_no']).sum() sjd_label = sjd_label.reset_index() # 增加索引 users_label = pd.merge(users_label, sjd_label, left_on='phone_no', right_on ='phone_no', how='left') # 构建付费频道月均收视时长标签 import re ffpd_ind =[re.search('付费', str(i))!=None for i in media3.ix[:, 'station_name']] media_ffpd = media3.ix[ffpd_ind, :] ffpd = media_ffpd['wat_time'].groupby(media_ffpd['phone_no']).sum() ffpd = ffpd.reset_index() # 增加索引 ffpd['付费频道月均收视时长'] = 0 for i in range(len(ffpd)): if ffpd.iloc[i, 1]

评论收藏

内容反馈

版权申诉