面向智慧康养的数据集构建方法及其应用.docx资源-CSDN文库

版权申诉

14 浏览量 2022-11-28 20:29:45 上传评论收藏 277KB DOCX 举报

资源详情

资源评论

真实、有效、完备的数据集意味着机器学习模型将有较好的输入,模型通

过学习发现规律,挖掘并分析当中的关联规则与信息,可以很好地为现实中社会

生产活动提供知识决策

[1⇓-3]

。另外,从提升模型的泛化能力出发,也应该相应地增

大训练数据的规模。

中国作为世界上最大的发展中国家,人口老龄化程度已经比肩中高收入国

家群体,并在未来 30 年（到 2050 年）将迅速攀升,超过高收入国家群体

[4]

。缺

乏相关的信息化技术以及成熟的康养公共服务设施的辅助,康养数据的采集和

获取是比较困难的。真实、有效的数据集的缺失,成为了研究相关工作的障碍。

针对这一问题,本团队从慢病康复训练指导入手,通过长期的社区公益服务

采集了某市的社区康养的标准数据。在此基础上,本文提出了一种基于机器学

习的三阶段数据生成模型,以采集到小样本数据集为基础,实现了大批量具有区

域养老人群特征的样本数据生成。该模型在第一阶段使用基于树形结构

[5]

的基

础属性生成策略,按照自上而下的思想,生成符合原始数据集分布的基础属性样

本;接着提出了基于朴素贝叶斯

[6]

的基础行为能力指标生成策略,将基础行为能

力指标的生成转化为分类问题进行实现;第三阶段,又提出了基于多元线性回归

[7]

的高阶行为能力指标生成策略,在前两个阶段的基础上,通过选定合适的自变

量,拟合 9 个线性回归方程,完成高阶行为能力指标数据的生成。最后,通过整合

三个阶段的结果,完成了康复养老数据的生成工作。

另外,本文利用了模型生成的数据集,设计了基于神经网络的分类推荐模型,

在将生成的数据集反馈给康复专家验证、筛选、标注之后,经过属性特征提取,

把其输入到模型当中,实现了康复训练计划推荐的任务。

1 相关工作

与传统的机器学习不同,现在基于神经网络的深度学习模型通常采用多层

的网络结构,其复杂程度较高,因此也需要尽可能多的数据进行训练。而训练模

型所必须的海量训练数据样本难以获取已经成为阻碍深度学习技术进一步推

广的一个普遍性难题。目前,学术界提出了很多解决小样本数据集上学习的方

法

[8-9]

。一种常见的思路是把小样本的数据应用到改进后的算法中。文献[10]提

出了基于卷积神经网络的小样本图像识别方法,结合了深度学习与迁移学习技

术,先在卷积神经网络中对相关领域的大数据集进行预训练,提取预训练模型的

权重和样本特征,应用到目标小数据集中对模型进行初始化,然后展开训练。但

是该方法受到了相关领域大规模数据集的限制,无法很好地应用到缺少大规模

数据集的工作当中。

小样本的模型学习问题,在不使用大数据集辅助的情况下,文献[11]提出了

一种迭代提升欠采样模型（under sampling with iteratively boosting,USIB）,进

行疾病预测。该方法迭代地从多数类样本中进行欠采样,构建多组弱分类器,通

过加权组合的方式集成一个强分类器,提高模型的学习能力。但是基于该方法

更多地关注错误分类和分类置信度不高的样本去改善模型的预测能力,并没有

真正实现数据生成的任务。

集成方法也是解决小样本学习的常用方法,通过融合集成技术和采样技术,

充分利用了两者的优点。 Liu 等人提出了 EasyEnsemble 集成算法 ,结合了

Bagging 和欠采样技术

[12]

。在此基础上,Liang 和 Cohn 提出了 UBagging 算法,

该算法将 Bagging 应用到不平衡数据集训练中,不断增加负样本采样数量来训

练多个分类器,集成多个分类器提高整体分类性能

[13]

。融合集成技术和采样技

术的算法通过多次采样解决了单次采样中样本信息缺失问题,但是每次随机性

地采样,忽略了分类器之间的关系,限制了模型的整体性能。

另一种常用的方法是在已有数据集的基础上,进行特定技术的处理来增加

样本的数量。文献[14]提出了一种深度卷积生成对抗网络（deep convolutional

generative adversarial networks,DCGANs）,通过设计生成器与判别器,学习图

像中物体到场景的层次化表征信息,最终生成新的图像数据集。文献[15]提出了

一种基于 Wasserstein GAN 的小样本数据增强方法,使用训练集样本训练 GAN

后生成模拟样本数据,扩增训练集样本规模。虽然 GAN 方法的生成不用考虑样

本属性间的内在联系,但是 GAN 在实际应用当中会存在一些问题：

（1）无法进行稳定的训练,导致生成模型生成无意义的输出,对于离散型数

据的学习效果较差;

（2）生成的数据的可解释性差,有时 GAN 生成的样本只是对真实样本的

简单改动,导致生成样本的多样性较差。

综上,已有的数据生成方法存在着随机性、盲目性,并且有模型参数选择和

复杂程度的限制。研究新的数据模型,并将其应用到相关工作当中具有重要意

义。

剩余16页未读，继续阅读

评论收藏

内容反馈

版权申诉

面向智慧康养的数据集构建方法及其应用.docx

评论0

最新资源

面向智慧康养的数据集构建方法及其应用.docx

评论0

最新资源

相关推荐

大数据处理的五大关键技术及其应用.docx

数据结构-实验3-图形结构及其应用.docx

湖南工大-数电实验三 译码器及其应用.docx

数电实验题目：实验九 555时基电路及其应用.docx

《数据结构》教案 第三章 串及其应用.docx

基于微信小程序的数据采集管理系统、方法及应用.docx

数据结构3-串及其应用..docx

算法与数据结构实验报告——树及其应用.docx

仿真简介及其应用.docx

实验五 计数器及其应用.docx

实验四触发器及其应用.docx

机器学习算法及其应用.docx

数据结构实验报告—栈及其应用.docx

数据结构实验报告《三、串及其应用》.docx

实验四 异步计数器及其应用.docx

数字孪生技术在智慧城市中的方法论及其应用.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

李飞飞自传 我看见的世界 The World I see

农村公交与异构无人机协同配送优化

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

4个亲测好用的ChatGPT4渠道

基于LSTM的财务因子预测选股模型.zip

基于LSTM的多因子选股策略.zip

学术海报模板+论文科研+研究生

北森能力测评题库.zip

湖南工大-数电实验三译码器及其应用.docx

《数据结构》教案第三章串及其应用.docx

实验五计数器及其应用.docx

实验四异步计数器及其应用.docx

李飞飞自传我看见的世界 The World I see