人工智能-机器学习-组中选优机器学习问题建模和算法研究.pdf资源-CSDN文库

版权申诉

129 浏览量 2022-07-01 21:32:42 上传评论收藏 1.89MB PDF 举报

：人工智能-机器学习-组中选优机器学习问题建模与算法探究：本文探讨了在人工智能领域中，机器学习如何应用于处理组中选优的复杂问题，通过建模和算法研究，提升预测和决策的准确性。：人工智能、机器学习、组中选优【内容摘要】：本文主要关注的是机器学习在面对组中选优问题时的建模和算法研究。传统的机器学习方法，如支持向量机（SVM），通常处理单个样本的分类或回归问题。然而，在现实世界中，许多问题涉及到一组样本，如选取最优股票、最具潜力的商品或关键视频帧。在这种情况下，需要一种能够处理这种“组中选优”问题的学习模型。论文提出了基于结构风险最小化（Structural Risk Minimization, SRM）原则的组中选优（Group Selection Based on Group, SBG）机器学习方法。这种方法通过保留不同类别样本之间的差异，弱化同一组内样本的相互影响，从而更好地学习每组内的最优样本规律。作者通过在新股投资收益预测问题上的应用展示了SBG-SVM（Group Support Vector Machine）的有效性和优势，与传统SVM相比，SBG-SVM在处理组问题时表现出更高的准确性和适应性。当组的数量增加时，SBG-SVM可以退化为传统的SVM，表明SBG-SVM是对传统SVM的一种泛化。这项研究不仅丰富了现有的机器学习模型和算法，同时也扩展了机器学习的应用范围。关键词：支持向量机、结构风险最小化、序列最小优化、SBG机器学习【正文】： 1. 引言在大数据时代，海量信息的处理和分析变得至关重要。机器学习作为从数据中挖掘规律的重要工具，被广泛应用于各个领域。尤其是支持向量机（SVM），以其高效性和鲁棒性在分类问题上表现出色。然而，当面临需要在样本组中选取最优个体的任务时，传统的机器学习方法可能无法有效地捕捉组内的复杂关系。 1.1 研究背景与意义组中选优问题在新股投资、网络营销、视频监控等多个场景中均有体现。以新股投资为例，投资者需要从一组股票中挑选出预期收益最高的股票。为此，机器学习可以用来学习历史新股发行数据中的规律，以预测当前最优投资选择。这种问题要求机器学习模型能处理组内样本的关联性，而不仅仅是单一样本的特征。 1.2 研究方法与贡献本文提出了一种新的机器学习模型——SBG-SVM，它针对组中选优问题进行了优化。通过保持组间差异和减弱组内比较，SBG-SVM能够更精确地捕获最优样本的特性。实验结果证明了SBG-SVM在新股投资问题上的优越性，它在处理组问题时具有更高的预测准确性和泛化能力。 2. 理论框架与建模这部分详细介绍了SBG-SVM的理论基础，包括结构风险最小化原则的运用，以及如何构建适应于组中选优问题的优化算法。 3. 实验设计与分析这部分展示了SBG-SVM在新股投资问题上的应用，通过与传统SVM的对比实验，验证了SBG-SVM的性能优势。 4. 结果讨论与未来工作对实验结果进行深入分析，并讨论SBG-SVM的局限性及未来改进方向。 5. 结论总结全文，强调SBG-SVM在处理组中选优问题上的重要性，并展望其在更多领域的潜在应用。通过SBG-SVM的引入，机器学习模型进一步拓宽了其在复杂决策问题中的应用，为解决实际问题提供了更强大、更灵活的工具。未来的探索将聚焦于如何优化这一模型，以适应更多类型的数据和更复杂的组问题。

资源推荐

资源详情

资源评论

Ａｂｓｔｍｃｔ

４．Ｐｕｔ

ｆｏ

ｒ、）ｌ，ａｒｄ

ｍｅ

ｐｒｏｐｏｒｔｉｏｎ

ｍｅｔｌｌｏｄ

ｉＩｌ

ｇｒｏｕｐ

ｆｏｒ

ｄａ忸ｐｒｅｐｒｏｃｅｓｓｉｌｌｇ

ｍａｔ

ｋｅｅｐｓ

ｔｈｅ

ｄｉ仔．ｅｒｅｎｃｅｓ

ｂｅｔｗｅｅｎ

ｔｌｌｅ

ｓ锄ｐｌｅｓ

ｗｉｍ

ｄｉｆｆｅｒｅｎｔ

ｌ

ａ．ｂｅｌｓ丘Ｄｍ

ｍｅ

ｓ锄ｅ

ｇｒｏｕｐ

ａ１１ｄ

ｗｅａｋｅｎｓ

ｔｈｅ

ｃｏｍｐａｒｉｎｇ

ｉｎｆｌｕｅｎｃｅｓ

ｏｆ

ｔｌｌｅ

ｓ锄ｐｌｅｓ

ｗｉｍ

ｓ锄ｅ

ｌｄｂｅｌ锄ｏｎｇ

ｇｒｏｕｐｓ．

５．Ｔｌｌｅ印ｐｌｉｃａｔｉｏｎ

ｏｆ

Ｇ·ＳＶＭｓ

０ｎ舭ＩＰＯ

ｐｕｒｃｈａＳｅ

ｉｓ

ｃａ玎ｉｅｄ

ｏｍ．Ｔｈｅ

ＩＰＯ

ｍｅｓｔｎｌｅｎｔ

ｉＩｌ

Ｓｈｅｌｌｚｌｌｅｎ

Ｓｔｏｃｋ

Ｅｘｃｈ觚ｇｅ

ｉｓ

ａ咖ｉｃａｌ

ＳＢＧ

ｐｒｏｂｌｅｍ．１１１ｅ

ｃｏｍｐａｒｉｓｏｎ

ｅｘｐｅｒｉｍｅｎｔｓ

ｏｎ

ＩＰＯ

ｉＩⅣｅｓｎｌｌｅｎｔ

ｐｍｂｌｅｍ

ｕＳｉｎｇ仃ａｄｉｔｉｏｌｌａｌ

ＳＶＭ锄ｄ

Ｇ·ＳＶＭｓ

ｓｈｏｗ

ｔｌｌｅ

ｅ恐ｃｔｉＶｅｎｅｓｓ锄ｄ

ａｄＶ锄＿ｔａｇｅ

ｏｆ

Ｇ－ＳＶＭｓ．

Ｗｈｅｎ

ｔｈｅ

ｇｒｏｕｐ

ｎｕｍｂｅｒ

ｉｓ

ｌ，Ｇ—ＳＶＭｓ

ｂｅｃｏｍｅ舰ｄｉｔｉｏｎａｌ

ＳＶＭ．ｎｌｅｒｅｆｏｒｅ，

Ｇ—ＳＶＭｓ

ａｒｅ

ｔｌｌｅ

ｇｅｎｅｒａｌｉｚａｔｉｏｎ

ｏｆ仃ａｄｉｔｉｏｒ试ＳＶＭ．ｎｅ

ｓｔｕｄｙ

ｏｆ

ｓＢＧ

ｐｒｏｂｌｅｍ丽ｌｌ

ｒｉｃｈ

ｔ：ｈｅ

ｅＸｉＳｔｉｎｇ

ｍａｃｌｌｉｎｅ

ｌｅａｒｎｉｎｇ

ｍｏｄｅｌ

ａＩｌｄ

ａｌｇｏｒｉｔｈｍ，ｅＸｔｅｎｔⅡｌｅ印ｐｌｉｃａｔｉｏｎｓ

ｏｆ

ｍａＣｈｉｎｅ

ｌｅａｎｌｉｎｇ

ａｔ

ｔｌｌｅ

ｓ锄ｅ

ｔｉｍｅ．

Ｋｅｙ

Ｗｏｒｄｓ：

ｓｕｐｐｏｒｔ

ｖｅｃｔｏｒ

ｍａｃｈｉｎｅ；

ｓｔｍｃｔｕｒａｌ

ｒｉｓｋ

ｍｉｌｌｉｍｉｚａｔｉｏｎ

ｐｒｉｎｃｉｐｌｅ；

ｓｅｑｕｅｎｔｉａｌ

ｍｉｎｉｍａｌ

ｏｐｔｉｍｉｚａｔｉｏｎ；ＳＢＧ

ｍａｃｌｌｉｎｅ

ｌｅａｒｎｉｎｇ

第一章绪论

１．１课题研究背景及意义

在信息爆炸时代，各种类型的数据指数增长，挖掘或发现这些信息背后的规

律，学习其中所蕴含的知识是当今信息社会最重要的课题之一。机器学习是“计

算机利用经验改善系统自身性能的行为＂【ｌ】。其核心是学习，即学习现有数据中

所蕴含的知识，然后对新数据进行预测。

随着人工智能的深入发展，机器学习取得了长足的进步，以人工神经网络

（ＡｎｉｆｉｃｉａＪ

Ｎｅｕｒａｌ

Ｎｅｔ、Ⅳｏｒｋｓ，砧叮Ｎｓ）【２．７】和支持向量机（Ｓｕｐｐｏｒｔ

Ｖｅｃｔｏｒ

Ｍａｃｈｉｎｅ，

ＳＶＭ）【８捌】等为代表的一批现代机器学习方法的成功，使机器学习成为人工智能

最活跃的一个研究领域，在智能信息处理、图像识别、生物信息学、计算金融学、

工业自动化、故障诊断等领域获得了很多令人瞩目的成功应用。

虽然机器学习已取得很大的进步，学习的问题也已从原来的有监督学习（分

类、回归）和无监督学习（聚类），扩展到半监督学习、多示例学习和多标签学

习等，但是自然、经济和社会领域依然存在许多有待机器学习解决的共性问题。

我们在研究中发现，实际工作中存在样本以组为单位出现，分类任务为学习训练

集中每组“最优”样本的规律，然后用它预测未见样本组或测试样本组的最优

样本问题；例如，由于深圳证券交易所的新股发行采用一次同时发行几只股票的

形式，导致投资者遇到每次选购“最优＂股票的问题（即选出一支期望收益最高

或涨幅最高的股票）。新股的投资收益受多方面不确定因素（如发行价、市盈率、

发行规模、市场景气度、中签率等）的综合影响，利用机器学习方法挖掘其中的

规律是一个可行的途径。然而仅从一次新股发行的情况，掌握“最优”股票的规

律是不够的，因此就产生了如下的一个机器学习问题：给定历史上多次的新股发

行数据，从中学习“最优”股票的规律（每次发行的新股看成一组样本，收益或

涨幅最高的为最优样本），然后用它来预测目前发行的“最优’’股票，以取得最

高的投资收益。类似的例子还有很多，比如网店营销中从一组商品选择最具潜力

商品的问题，视频监控中从一个连续时段的视频中选择一个代表图像（代表图像

可以是最能代表该时段信息的图像，或是具有某些特定监控事件的图像）的问题。

这些学习问题具有样本以组为单位出现，分类任务为从训练集中学习每组

“最优”样本的共同特点，然后用它推断未见样本组（或测试样本集）中的“最

ｌ

组中选优机器学习问题建模和算法研究

优”样本。而现有机器学习问题的样本都以个体为单位出现，鲜有考虑成组出现

和组中选优的情况。组中选优是机器学习尚待研究具有挑战性的新问题，具有常

规机器学习所没有的新特点。我们将该类问题称为组中选优的机器学习问题．

针对该新的机器学习问题，本文将开展它的建模、算法和应用研究。本文的

研究可以丰富现有机器学习的模型和算法，拓广现有机器学习的应用范围，有较

强的创新性和应用价值。

１．２研究现状

机器学习是计算机模拟人类的学习能力，重新组织已有的知识结构，进而不

断改善自身性能的行为。自二十世纪八十年代以来，机器学习己得到了飞速的发

展，是人工智能最为活跃的一个研究领域。下面从学习问题性质的角度，介绍机

器学习近年的发展和现状。

机器学习中最常见的方法是有监督学习和无监督学习。在传统的有监督学习

中，学习器通过对大量有标签的（１ａｂｅｌｅｄ）训练例进行学习，从而建立模型用于

预测未见示例的标签。这里的“标签’’（１ａｂｅｌ）是指示例所对应的输出，在有监

督分类问题中标签就是示例的类别，而在有监督回归问题中标签就是示例所对应

的实值输出。有监督分类是智能系统最常见的任务之一【３２１。常见的有监督学习技

术包括：人工神经网络（√６州Ｎ）ｆ２～、支持向量机（ＳｖＭ）【８。３１１、Ｋ最近邻算法（Ⅺ州）

【３３４３１、决策树Ⅲ４羽、随机森林（ＲＦ）【４９。５ｑ等等。

神经网络起源于２０世纪４０年代，ＭｃＣｕｌｌｏｃｈ和Ｐｉｔｔｓ【２】总结生物神经元的一

些基本特性，提出形式神经元的数据结构，即Ｍ．Ｐ模型，迈出了人类研究神经

网络坚实的第一步。１９５８年，Ｉｂｓｅｎｂｌａｔｔ【３】提出了第一个智能的人工神经网络——

感知器模型网络，掀起了研究ＡＮＮ的高潮。然而，Ｍｉｎｓｋｙ等人【４】于１９６９年出

版了《感知器》一书，从数学上证明了感知器不能实现异域逻辑问题而使神经网

络的研究陷入低谷。标志着砧呵Ｎ第二次研究高潮到来的是１９８２年Ｈｏｐｆｉｅｌｄ【５】

在美国科学院刊上提出了新的仿人脑神经网络模型，即著名的Ｈｏｐｆｉｅｌｄ模型。该

网络模型实现了电子线路，并运用于旅行推销商（ＴＳＰ）问题的求解。该模型的

成功开拓了神经网络用于联想记忆和优化计算的新道路，神经网络的研究从此走

向科学的发展之路。１

９８６年，ｍｌｌＩｌｅｌｈａｎ等人【６】提出的Ｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ（ＢＰ）算

法的成功，使舢州ｓ成为现代机器学习最广泛使用的一种模型。然而由于ＡＮＮｓ

２

第一章绪论

致力于最小化经验风险，存在泛化性能不强，容易陷入局部极小点，以及网络结

构和参数凭经验设置等不足。针对这些不足，ＨａｎＳｅｎ和Ｓａｌ锄ｏｎ【。７Ｊ提出了神经网

络组合方法，通过训练多个ＡＮＮ并将结果进行组合，以提高系统的泛化性能和

稳定性。

针对最小化经验风险原则，存在泛化性能无法保证的不足，２０世纪９０年代

ｖａｐｎｍ【８】提出了机器学习的结构风险最小化（Ｓ仃ｕｃｔｌ玳雕ｓｋ

Ｍ证ＩＩｌｉｚａｔｉｏｎ，ＳＲＭ）原

则，机器学习的目标为最小化结构风险。结构风险包括经验风险和置信风险，其

中经验风险表征训练精度，置信风险表征泛化性能。Ｖａｐｎｉｋ等人【＆１０】同时也给出

ＳＲＭ原则的一个具体实现技术——支持向量机（Ｓｕｐｐｏｒｔ

ｖｅｃｔｏｒ

Ｍａｃｈｉｎｅ，ＳＶＭ），

其中置信风险用分类超平面的几何间隔定量度量，并用核方法（Ｋｅｍｅｌ

Ｍ弛ｏｄ）

有效地处理非线性可分问题。Ｓ１ｗ原则和核方法使ＳＶＭ模型获得了强的泛化性

能和强的非线性处理能力，此外由于ＳＶＭ模型是个凸二次规划问题，ＳＶＭ亦不

存在陷入局部极小点的问题。正是由于ＳＶＭ的这些优点，ＳＶＭ获得了巨大的成

功。从２０世纪９０年代至今，众多学者对ＳＩ洲、ＳＶＭ和核方法进行了广泛的研

究、改进和扩充，形成了机器学习研究和应用的一个熟潮。

针对ＳｖＭ的经验风险和置信风险的折中参数Ｃ难以选择的问题，Ｓｃｈｃｊｌｋｏｐｆ

等人【ｌｌ】提出了ｖ．ＳＶＭ，由于参数ｖ可控制间隔错误样本个数和支持向量个数，

它的选择具有比Ｃ更直观的依据；张春华和邓乃扬等【１２】提出了对Ｃ的一个新解

释，为Ｃ的选择提供了参考。针对ｋ折交叉验证模型参数选择方法耗时的缺点，

ｃｈａｐｅｌｌｅ和Ｖａｐｎｉｌ【等人【１３】讨论了根据泛化误差的各种上界（Ｊａａｋｋｏｌａ－ＨａｕＳｓｌｅｒ、

Ｏｐｐｅｒ－Ｗｉｎｔｈｅｒ、ＲａｄｉｕＳ．Ｍ雄洫和ＳｐａＩｌ界等）的多种参数选择方法，然而这些界

在ＳＶＭ的实际应用中，一直没有取得特别理想的效果。在核函数选择方面，

Ｌａｌｌｃｌ（ｒｉｃｔ等人【１４】提出了基于半定规划的核矩阵学习，将核函数的选择问题转变

为一个多核的组合学习问题，并用半定规划技术求解；Ｓｏｎｎｅｎｂｕｒｇ等人Ｌ１５Ｊ进一

步将ＬａＩｌｃｌ（ｒｉｅｔ等人的工作归结为半无穷线性规划问题，大大提高了模型求解的

效率，并将其拓广到回归和一类问题。在大规模问题的处理方面，吕宝粮等人【１６，１７】

提出了Ｍｉｎ．ｍａＸ

Ｍｏｄｕｌａｒ

Ｓｕｐｐｏｒｔ

Ｖｅｃｔｏｒ

Ｍａｃｈｉｎｅ，给出了大规模二类问题的一种

分解策略和模块集成规则；ＴＳａＩｌｇ等人【１８】提出了Ｃｏｒｅ

Ｖｅｃｔｏｒ

ＭａｃｈｉＩｌｅｓ（ＣＶＭ），

取得了比传统ＳＶＭ更好的时间和空间复杂度；袁玉波等人【１９】提出了多项式光滑

支持向量机，将ＳＶＭ模型转化为一个无约束的最优化问题。在样本的重要性方

３

组中选优机器学习问题建模和算法研究

面，ＬｉＩｌ和ｗ｜觚ｇ【２０】提出了模糊支持向量机（ＦＳＶＭ），用模糊隶属度实现样本对分

类超平面的不同贡献，可用于时间序列数据和类不平衡数据的分类中；Ｔａｏ

Ｑｉｎｇ

等人【２ｌ】提出ＰＰＳＶＭ①ｏｓｔｅｒｉｏｒ

ｐｒｏｂａｂｉｌｉｔ）ｒ

ｓｕｐｐｏｒｔ

ｖｅｃｔｏｒ

ｍａｃｈｉＩｌｅ）处理非平衡数据，

相比于ＦＳＶＭ，ＰＰＳｖＭ是ＳＶＭ的一个自然扩展，且可用于训练样本没有误分

的情形。在模型求解算法方面，Ｐｌａｔｔ∞１提出了快速求解ＳＶＭ模型的序贯最小化

（Ｓｅｑｕｅｍｉａｌ

１１１ｉ１１ｉｍａｌ

ｏｐｔｉｍｉｚａｔｉｏｎ，ＳＭＯ）算法；Ｋｅｅｒｔｌｌｉ等人【２３１和ＦａＩｌ等人【２４】

分别对ＳＭＯ的最小工作集选择规则进行了改进。在应用研究方面，Ｇｕｙｏｎ等人

Ｉｚ５Ｊ提出了基于ＳＶＭ的递归特征选择方法，用于基因表达谱数据的基因选择；Ｌｕ０

Ｌｉｎｋａｉ等【２６ｌ应用ＳＶＭ的不敏感损失函数提出了基因表达谱数据的一个前向特征

选择方法；“等人【２７】应用ＳｖＭ进行纹理分类；Ｌｉ

Ｊｉｎｇ等人【２明应用Ｍｕｌｔｉｔｒａｉｒｌｉｎｇ

ＳＶＭ进行图像检索；Ｚｈ趾ｇ

Ｙｉｎ和ｚｈｏｕ

Ｚｈｉｈｕａ【２９】提出用ｍｃＫＬＲ（ｍｕｌｔｉ．ｃｌａＬｓｓ

ｃｏＳｔ－ｓｅｎｓｉ！ｔｉｖｅ

ｋｅｒｒｌｅｌｌｏｇｉｓｔｉｃ

ｒｅｇｒｅｓＳｉｏｎ）进行人脸识别，取得了比ｃｏｓｔ－ｂｌｉｎｄ更好

的性能。

Ｋ最近邻算法（ＫＮＮ）是一个理论上比较成熟的有监督学习分类算法，最

初由Ｃｏｖｅｒ和Ｈａｎ【３３】于１９６７年提出。ｌ心Ⅲ的思路非常直观，即根据距离函数计

算待分类样本和每个训练样本的距离，选择与待分类样本距离最近的Ｋ个样本

作为待分类样本的Ｋ个最近邻，从而判断待分类样本的类标。ＫＮＮ分类方法是

一种非参数的分类技术，对于未知的非正态分布的数据可以取得较高的准确率，

具有概念清楚，思路直观，容易实现等优点。但是，也存在分类过程中相似性计

算量过大，对样本库过于依赖，以及度量相似性的距离函数不适用等问题。针对

Ⅺ州存在的问题，众多学者进行了广泛的研究、改进和扩充。

针对相似性计算量大的问题，为了减小计算开销从而提高计算效率的改进方

法主要有Ｈａｒｔ㈣提出的Ｃｏｎｄｅｎｓｉｎｇ算法、、Ｍｌｓｏｎ【３５１的Ｅｄｉｔｉｎｇ算法和ＤｅＶｉｊｖｅｒ【３６】

的ＭｕｔｉＥｄｉｔ算法等。针对ＫＮＮ算法过于依赖样本库的问题，为了使样本库满足

ＫＮＮ算法的需要，许多学者开展了对训练样本库进行维护的研究。对样本库的

维护包括对训练样本库的样本进行添加（符合条件的样本加入库里）和删除（对

样本库里已有符合条件的样本进行删除）。文献【３７。３９１从不同的角度对样本库进行

了维护，提高了ＫＮＮ算法的分类精度。在度量相似性的距离公式方面，许多学

者也进行了优化。如在度量相似度的距离公式中给特征赋予不同的权重【４叫２１，也

有考虑加入匹配系数，以进行相似性度量公式优化的【４３１。

４

剩余55页未读，继续阅读

评论收藏

内容反馈

版权申诉

programyp

粉丝: 90
资源: 9323

人工智能-机器学习-组中选优机器学习问题建模和算法研究.pdf

机器学习的研究.pdf

面向机器学习系统的需求建模与决策选择.pdf

基于机器学习的推荐技术研究

基于机器学习方法的智能机器人探究.pdf

人工智能领域的机器学习算法研究综述

机器学习算法与应用.pdf

人工智能-机器学习-围棋博弈机器学习算法的研究及应用.pdf

人工智能-机器学习-面向非均衡数据集的机器学习及在地学数据处理中.pdf

山东大学软件学院2021-2022研究生高级机器学习 人工智能 - 机器学习.zip

人工智能-机器学习-增量机器学习算法研究.pdf

一些关于机器学习的学习资料与研究介绍

基于机器学习方法的高速信道建模研究.pdf

人工智能-机器学习-基于小波变换-机器学习算法的有效投资组合构建.pdf

人工智能和机器学习.pdf

机器学习-决策树 -ppt.pdf

【2023新书】边缘人工智能-用嵌入式机器学习解决现实问题，831页pdf .pdf

人工智能-机器学习-基于计算智能的聚类组合算法研究.pdf

人工智能-机器学习-机器学习中若干特征选择算法研究.pdf

机器学习-文档建模

机器学习建模流程与思路_V3(2).pdf

人工智能-机器学习-基于机器学习的信用评价特征工程研究.pdf

人工智能-机器学习-基于机器学习和统计方法的蛋白质结构特征预测木瑞塔.pdf

人工智能-机器学习-移动机器人避障双目立体视觉算法研究.pdf

人工智能-机器学习-智能空气清新器控制软件算法研究.pdf

人工智能-机器学习-面向非均衡数据集的机器学习及在地学数据处理中的应用.pdf

最新资源

山东大学软件学院2021-2022研究生高级机器学习人工智能 - 机器学习.zip