使用机器学习、深度学习等方式进行数据挖掘时常用函数工具箱.zip资源-CSDN文库

共10个文件

py：6个

md：2个

ds_store：2个

需积分: 5 87 浏览量 2024-04-17 19:41:22 上传评论收藏 12KB ZIP 举报

机器学习是一种人工智能（AI）的子领域，致力于研究如何利用数据和算法让计算机系统具备学习能力，从而能够自动地完成特定任务或者改进自身性能。机器学习的核心思想是让计算机系统通过学习数据中的模式和规律来实现目标，而不需要显式地编程。机器学习应用非常广泛，包括但不限于以下领域：图像识别和计算机视觉：机器学习在图像识别、目标检测、人脸识别、图像分割等方面有着广泛的应用。例如，通过深度学习技术，可以训练神经网络来识别图像中的对象、人脸或者场景，用于智能监控、自动驾驶、医学影像分析等领域。自然语言处理：机器学习在自然语言处理领域有着重要的应用，包括文本分类、情感分析、机器翻译、语音识别等。例如，通过深度学习模型，可以训练神经网络来理解和生成自然语言，用于智能客服、智能助手、机器翻译等场景。推荐系统：推荐系统利用机器学习算法分析用户的行为和偏好，为用户推荐个性化的产品或服务。例如，电商网站可以利用机器学习算法分析用户的购买历史和浏览行为，向用户推荐感兴趣的商品。预测和预测分析：机器学习可以用于预测未来事件的发生概率或者趋势。例如，金融领域可以利用机器学习算法进行股票价格预测、信用评分、欺诈检测等。医疗诊断和生物信息学：机器学习在医疗诊断、药物研发、基因组学等领域有着重要的应用。例如，可以利用机器学习算法分析医学影像数据进行疾病诊断，或者利用机器学习算法分析基因数据进行疾病风险预测。智能交通和物联网：机器学习可以应用于智能交通系统、智能城市管理和物联网等领域。例如，可以利用机器学习算法分析交通数据优化交通流量，或者利用机器学习算法分析传感器数据监测设备状态。以上仅是机器学习应用的一部分，随着机器学习技术的不断发展和应用场景的不断拓展，机器学习在各个领域都有着重要的应用价值，并且正在改变我们的生活和工作方式。

资源推荐

资源详情

资源评论

收起资源包目录

使用机器学习、深度学习等方式进行数据挖掘时常用函数工具箱.zip （10个子文件）

content

.DS_Store 6KB

data_mining_toolbox

.DS_Store 6KB

dl_helper.py 12KB

setup.py 283B

ml_helper.py 0B

common_helper.py 4KB

plot_helper.py 5KB

log_helper.py 2KB

torchsummary.md 2KB

README.md 3KB

# Data_Mining_Toolbox 使用机器学习、深度学习等方式进行数据挖掘时常用函数工具箱. 包含的工具函数库主要包括: 1. #### common_helper.py 各种数据挖掘任务都可能用到的工具。 | 函数 | 描述 | | :-------------------------------: | :----------------------------: | | writebunchobj(path, bunchobj) | 对象持久化为pickle文件 | | readbunchobj(path) | 读取持久化的pickle文件 | | nsigma_threehold(input_data,n=3) | 获取nSigma法进行异常检测的阈值 | | box_threehold(input_data) | 获取箱型图法进行异常检测的阈值 | | string_to_index(str_list,max_len) | 字符串映列表射成为自然数 | 2. #### Plot_helper.py **画图**相关的工具函数。 | 函数 | 描述 | | :----------------------------------------------------------: | :--------------------------------------: | | plot_curve(x,y,label,title,xlabel,ylabel,figsize=(8,6),ylim=None,grid=True,title_size=20,xylabel_size=15,legend_size=12) | 画折线图 | | plot_train_curve(epochs,train_loss_list,train_acc_list,val_loss_list=None,val_acc_list=None) | 画训练过程中的损失函数和准确率变化折线图 | | plot_distribution(data,data_name) | 画数据分布图 | 3. #### dl_helper.py **深度学习**工具函数。 | 函数 | 描述 | | :----------------------------------------------------------: | :----------------------------------------------------------: | | train(model,train_x,train_y,val_x,val_y, epochs, batch_size,optimizer=None) | 模型训练，训练过程中每次在验证集上效果有提升时的参数进行保存，画模型效果变化图 | | test(model, test_x, test_y, batch_size) | 在测试集上进行效果测试 | | predict(model, x, batch_size) | 对指定数据进行预测 | | compare_model(model_list,test_data,label) | 对多个模型在精确率、召回率、AUC等方面进行比较 | 其他常用工具： 1. #### torchsummaryM &emsp;&emsp;常用进行**模型各层参数个数、占用内存情况统计**的工具函数。在进行参数统计、内存占用情况时更加普遍被人熟知的工具是torchsummary，但是torchsummary存在对RNN模型不支持、接口奇葩等问题，很容易由于使用原因造成各种bug，因此更加推荐torchsummaryM，**是torchsummarry的进化版，该工具不仅支持RNN、而且接口正常、展示效果更好**。 ![image](https://raw.githubusercontent.com/AnchoretY/images/master/blog/image.sxatnmwkeie.png) &emsp;&emsp;**单个输入**: ~~~shell torchsummaryM.summary(model, torch.randint(0,50,(16,50)).to(device)) ~~~ &emsp;&emsp;**多输入**: ~~~shell torchsummaryM.summary(model, torch.randn((16,15)),torch.randn((16,2))) ~~~ > 虽然torchsummary有各种缺陷，但如果非要尝试一下，看[这里](torchsummary.md)来脱坑。

评论收藏

内容反馈