天池比赛.zip_天池比赛资源-CSDN文库

共2个文件

py：1个

png：1个

版权申诉

39 浏览量 2023-10-01 16:57:35 上传评论收藏 43KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

天池比赛.zip （2个子文件）

tianchi-main

base

test.png 43KB

baseline.py 6KB

import os import gc import math import pandas as pd import numpy as np import lightgbm as lgb import xgboost as xgb from catboost import CatBoostRegressor from sklearn.linear_model import SGDRegressor, LinearRegression, Ridge from sklearn.preprocessing import MinMaxScaler from sklearn.model_selection import StratifiedKFold, KFold from sklearn.metrics import log_loss from sklearn.model_selection import train_test_split from sklearn.preprocessing import OneHotEncoder from tqdm import tqdm import matplotlib.pyplot as plt import time import warnings warnings.filterwarnings('ignore') # 数据读取 train = pd.read_csv('../data/train.csv') test=pd.read_csv('../data/testA.csv') train.head() # y = [] # for i in range(3): # temp = train.iloc[i,1].split(",") # temp = list(map(float,temp)) # y.append(temp) # y = np.array(y) # # plt.figure(figsize=(8,4)) # plt.plot(y.T) # plt.savefig("test.png",dpi=120) # plt.show() # 数据预处理 def reduce_mem_usage(df): start_mem = df.memory_usage().sum() / 1024 ** 2 print('Memory usage of dataframe is {:.2f} MB'.format(start_mem)) for col in df.columns: col_type = df[col].dtype if col_type != object: c_min = df[col].min() c_max = df[col].max() if str(col_type)[:3] == 'int': if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max: df[col] = df[col].astype(np.int8) elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max: df[col] = df[col].astype(np.int16) elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max: df[col] = df[col].astype(np.int32) elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max: df[col] = df[col].astype(np.int64) else: if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max: df[col] = df[col].astype(np.float16) elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max: df[col] = df[col].astype(np.float32) else: df[col] = df[col].astype(np.float64) else: df[col] = df[col].astype('category') end_mem = df.memory_usage().sum() / 1024 ** 2 print('Memory usage after optimization is: {:.2f} MB'.format(end_mem)) print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem)) return df # 简单预处理 train_list = [] for items in train.values: train_list.append([items[0]] + [float(i) for i in items[1].split(',')] + [items[2]]) train = pd.DataFrame(np.array(train_list)) train.columns = ['id'] + ['s_'+str(i) for i in range(len(train_list[0])-2)] + ['label'] train = reduce_mem_usage(train) test_list=[] for items in test.values: test_list.append([items[0]] + [float(i) for i in items[1].split(',')]) test = pd.DataFrame(np.array(test_list)) test.columns = ['id'] + ['s_'+str(i) for i in range(len(test_list[0])-1)] test = reduce_mem_usage(test) # 训练数据测试准备 x_train = train.drop(['id','label'], axis=1) y_train = train['label'] x_test=test.drop(['id'], axis=1) # 模型训练 def abs_sum(y_pre,y_tru): y_pre=np.array(y_pre) y_tru=np.array(y_tru) loss=sum(sum(abs(y_pre-y_tru))) return loss def cv_model(clf, train_x, train_y, test_x, clf_name): folds = 60 seed = 2021 # 交叉验证函数，第一个参数为分组，分成N组,每一个组都做一次验证集，其余为训练集，以提升训练精度 # 不过单一提升该参数对于最终预测效果没有特别明显，只适合暂时打榜，且容易与线上数据产生过拟合情况 kf = KFold(n_splits=folds, shuffle=True, random_state=seed) test = np.zeros((test_x.shape[0], 4)) cv_scores = [] onehot_encoder = OneHotEncoder(sparse=False) for i, (train_index, valid_index) in enumerate(kf.split(train_x, train_y)): print('************************************ {} ************************************'.format(str(i + 1))) trn_x, trn_y, val_x, val_y = train_x.iloc[train_index], train_y[train_index], train_x.iloc[valid_index], \ train_y[valid_index] if clf_name == "lgb": train_matrix = clf.Dataset(trn_x, label=trn_y) valid_matrix = clf.Dataset(val_x, label=val_y) params = { 'boosting_type': 'gbdt', 'objective': 'multiclass', 'num_class': 4, 'num_leaves': 2 ** 5, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 4, 'learning_rate': 0.1, 'seed': seed, 'nthread': 28, 'n_jobs': 24, 'verbose': -1, } # 目前想到的第二个优化点 model = clf.train(params, train_set=train_matrix, valid_sets=valid_matrix, num_boost_round=2000, verbose_eval=100, early_stopping_rounds=200) val_pred = model.predict(val_x, num_iteration=model.best_iteration) test_pred = model.predict(test_x, num_iteration=model.best_iteration) val_y = np.array(val_y).reshape(-1, 1) val_y = onehot_encoder.fit_transform(val_y) print('预测的概率矩阵为：') print(test_pred) test += test_pred score = abs_sum(val_y, val_pred) cv_scores.append(score) print(cv_scores) print("%s_scotrainre_list:" % clf_name, cv_scores) print("%s_score_mean:" % clf_name, np.mean(cv_scores)) print("%s_score_std:" % clf_name, np.std(cv_scores)) test = test / kf.n_splits return test def lgb_model(x_train, y_train, x_test): lgb_test = cv_model(lgb, x_train, y_train, x_test, "lgb") return lgb_test lgb_test = lgb_model(x_train, y_train, x_test) temp=pd.DataFrame(lgb_test) result=pd.read_csv('../data/sample_submit.csv') result['label_0']=temp[0] result['label_1']=temp[1] result['label_2']=temp[2] result['label_3']=temp[3] result.to_csv('../data/submit.csv',index=False)

评论收藏

内容反馈

版权申诉