没有合适的资源?快使用搜索试试~ 我知道了~
人工智能-机器学习-组中选优机器学习问题建模和算法研究.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 109 浏览量
2022-07-01
21:32:42
上传
评论
收藏 1.89MB PDF 举报
温馨提示
试读
56页
人工智能-机器学习-组中选优机器学习问题建模和算法研究.pdf
资源推荐
资源详情
资源评论
Abstmct
4.Put
fo
r、)l,ard
me
proportion
metllod
iIl
group
for
da忸preprocessillg
mat
keeps
the
di仔.erences
between
tlle
s锄ples
wim
different
l
a.bels丘Dm
me
s锄e
group
a11d
weakens
the
comparing
influences
of
tlle
s锄ples
wim
s锄e
ldbel锄ong
groups.
5.Tlle印plication
of
G·SVMs
0n舭IPO
purchaSe
is
ca玎ied
om.The
IPO
mestnlent
iIl
Shellzllen
Stock
Exch觚ge
is
a咖ical
SBG
problem.111e
comparison
experiments
on
IPO
iIⅣesnllent
pmblem
uSing仃aditiollal
SVM锄d
G·SVMs
show
tlle
e恐ctiVeness锄d
adV锄_tage
of
G-SVMs.
When
the
group
number
is
l,G—SVMs
become舰ditional
SVM.nlerefore,
G—SVMs
are
tlle
generalization
of仃aditior试SVM.ne
study
of
sBG
problem丽ll
rich
t:he
eXiSting
maclline
learning
model
aIld
algorithm,eXtentⅡle印plications
of
maChine
leanling
at
tlle
s锄e
time.
Key
Words:
support
vector
machine;
stmctural
risk
millimization
principle;
sequential
minimal
optimization;SBG
maclline
learning
第一章绪论
第一章绪论
1.1课题研究背景及意义
在信息爆炸时代,各种类型的数据指数增长,挖掘或发现这些信息背后的规
律,学习其中所蕴含的知识是当今信息社会最重要的课题之一。机器学习是“计
算机利用经验改善系统自身性能的行为"【l】。其核心是学习,即学习现有数据中
所蕴含的知识,然后对新数据进行预测。
随着人工智能的深入发展,机器学习取得了长足的进步,以人工神经网络
(AnificiaJ
Neural
Net、Ⅳorks,砧叮Ns)【2.7】和支持向量机(Support
Vector
Machine,
SVM)【8捌】等为代表的一批现代机器学习方法的成功,使机器学习成为人工智能
最活跃的一个研究领域,在智能信息处理、图像识别、生物信息学、计算金融学、
工业自动化、故障诊断等领域获得了很多令人瞩目的成功应用。
虽然机器学习已取得很大的进步,学习的问题也已从原来的有监督学习(分
类、回归)和无监督学习(聚类),扩展到半监督学习、多示例学习和多标签学
习等,但是自然、经济和社会领域依然存在许多有待机器学习解决的共性问题。
我们在研究中发现,实际工作中存在样本以组为单位出现,分类任务为学习训练
集中每组“最优”样本的规律,然后用它预测未见样本组或测试样本组的最优
样本问题;例如,由于深圳证券交易所的新股发行采用一次同时发行几只股票的
形式,导致投资者遇到每次选购“最优"股票的问题(即选出一支期望收益最高
或涨幅最高的股票)。新股的投资收益受多方面不确定因素(如发行价、市盈率、
发行规模、市场景气度、中签率等)的综合影响,利用机器学习方法挖掘其中的
规律是一个可行的途径。然而仅从一次新股发行的情况,掌握“最优”股票的规
律是不够的,因此就产生了如下的一个机器学习问题:给定历史上多次的新股发
行数据,从中学习“最优”股票的规律(每次发行的新股看成一组样本,收益或
涨幅最高的为最优样本),然后用它来预测目前发行的“最优’’股票,以取得最
高的投资收益。类似的例子还有很多,比如网店营销中从一组商品选择最具潜力
商品的问题,视频监控中从一个连续时段的视频中选择一个代表图像(代表图像
可以是最能代表该时段信息的图像,或是具有某些特定监控事件的图像)的问题。
这些学习问题具有样本以组为单位出现,分类任务为从训练集中学习每组
“最优”样本的共同特点,然后用它推断未见样本组(或测试样本集)中的“最
l
组中选优机器学习问题建模和算法研究
优”样本。而现有机器学习问题的样本都以个体为单位出现,鲜有考虑成组出现
和组中选优的情况。组中选优是机器学习尚待研究具有挑战性的新问题,具有常
规机器学习所没有的新特点。我们将该类问题称为组中选优的机器学习问题.
针对该新的机器学习问题,本文将开展它的建模、算法和应用研究。本文的
研究可以丰富现有机器学习的模型和算法,拓广现有机器学习的应用范围,有较
强的创新性和应用价值。
1.2研究现状
机器学习是计算机模拟人类的学习能力,重新组织已有的知识结构,进而不
断改善自身性能的行为。自二十世纪八十年代以来,机器学习己得到了飞速的发
展,是人工智能最为活跃的一个研究领域。下面从学习问题性质的角度,介绍机
器学习近年的发展和现状。
机器学习中最常见的方法是有监督学习和无监督学习。在传统的有监督学习
中,学习器通过对大量有标签的(1abeled)训练例进行学习,从而建立模型用于
预测未见示例的标签。这里的“标签’’(1abel)是指示例所对应的输出,在有监
督分类问题中标签就是示例的类别,而在有监督回归问题中标签就是示例所对应
的实值输出。有监督分类是智能系统最常见的任务之一【321。常见的有监督学习技
术包括:人工神经网络(√6州N)f2~、支持向量机(SvM)【8。311、K最近邻算法(Ⅺ州)
【33431、决策树Ⅲ4羽、随机森林(RF)【49。5q等等。
神经网络起源于20世纪40年代,McCulloch和Pitts【2】总结生物神经元的一
些基本特性,提出形式神经元的数据结构,即M.P模型,迈出了人类研究神经
网络坚实的第一步。1958年,Ibsenblatt【3】提出了第一个智能的人工神经网络——
感知器模型网络,掀起了研究ANN的高潮。然而,Minsky等人【4】于1969年出
版了《感知器》一书,从数学上证明了感知器不能实现异域逻辑问题而使神经网
络的研究陷入低谷。标志着砧呵N第二次研究高潮到来的是1982年Hopfield【5】
在美国科学院刊上提出了新的仿人脑神经网络模型,即著名的Hopfield模型。该
网络模型实现了电子线路,并运用于旅行推销商(TSP)问题的求解。该模型的
成功开拓了神经网络用于联想记忆和优化计算的新道路,神经网络的研究从此走
向科学的发展之路。1
986年,mllIlelhan等人【6】提出的Back-propagation(BP)算
法的成功,使舢州s成为现代机器学习最广泛使用的一种模型。然而由于ANNs
2
第一章绪论
致力于最小化经验风险,存在泛化性能不强,容易陷入局部极小点,以及网络结
构和参数凭经验设置等不足。针对这些不足,HanSen和Sal锄on【。7J提出了神经网
络组合方法,通过训练多个ANN并将结果进行组合,以提高系统的泛化性能和
稳定性。
针对最小化经验风险原则,存在泛化性能无法保证的不足,20世纪90年代
vapnm【8】提出了机器学习的结构风险最小化(S仃uctl玳雕sk
M证IIlization,SRM)原
则,机器学习的目标为最小化结构风险。结构风险包括经验风险和置信风险,其
中经验风险表征训练精度,置信风险表征泛化性能。Vapnik等人【&10】同时也给出
SRM原则的一个具体实现技术——支持向量机(Support
vector
Machine,SVM),
其中置信风险用分类超平面的几何间隔定量度量,并用核方法(Kemel
M弛od)
有效地处理非线性可分问题。S1w原则和核方法使SVM模型获得了强的泛化性
能和强的非线性处理能力,此外由于SVM模型是个凸二次规划问题,SVM亦不
存在陷入局部极小点的问题。正是由于SVM的这些优点,SVM获得了巨大的成
功。从20世纪90年代至今,众多学者对SI洲、SVM和核方法进行了广泛的研
究、改进和扩充,形成了机器学习研究和应用的一个熟潮。
针对SvM的经验风险和置信风险的折中参数C难以选择的问题,Schcjlkopf
等人【ll】提出了v.SVM,由于参数v可控制间隔错误样本个数和支持向量个数,
它的选择具有比C更直观的依据;张春华和邓乃扬等【12】提出了对C的一个新解
释,为C的选择提供了参考。针对k折交叉验证模型参数选择方法耗时的缺点,
chapelle和Vapnil【等人【13】讨论了根据泛化误差的各种上界(Jaakkola-HauSsler、
Opper-Winther、RadiuS.M雄洫和SpaIl界等)的多种参数选择方法,然而这些界
在SVM的实际应用中,一直没有取得特别理想的效果。在核函数选择方面,
Lallcl(rict等人【14】提出了基于半定规划的核矩阵学习,将核函数的选择问题转变
为一个多核的组合学习问题,并用半定规划技术求解;Sonnenburg等人L15J进一
步将LaIlcl(riet等人的工作归结为半无穷线性规划问题,大大提高了模型求解的
效率,并将其拓广到回归和一类问题。在大规模问题的处理方面,吕宝粮等人【16,17】
提出了Min.maX
Modular
Support
Vector
Machine,给出了大规模二类问题的一种
分解策略和模块集成规则;TSaIlg等人【18】提出了Core
Vector
MachiIles(CVM),
取得了比传统SVM更好的时间和空间复杂度;袁玉波等人【19】提出了多项式光滑
支持向量机,将SVM模型转化为一个无约束的最优化问题。在样本的重要性方
3
组中选优机器学习问题建模和算法研究
面,LiIl和w|觚g【20】提出了模糊支持向量机(FSVM),用模糊隶属度实现样本对分
类超平面的不同贡献,可用于时间序列数据和类不平衡数据的分类中;Tao
Qing
等人【2l】提出PPSVM①osterior
probabilit)r
support
vector
machiIle)处理非平衡数据,
相比于FSVM,PPSvM是SVM的一个自然扩展,且可用于训练样本没有误分
的情形。在模型求解算法方面,Platt∞1提出了快速求解SVM模型的序贯最小化
(Sequemial
111i11imal
optimization,SMO)算法;Keertlli等人【231和FaIl等人【24】
分别对SMO的最小工作集选择规则进行了改进。在应用研究方面,Guyon等人
Iz5J提出了基于SVM的递归特征选择方法,用于基因表达谱数据的基因选择;Lu0
Linkai等【26l应用SVM的不敏感损失函数提出了基因表达谱数据的一个前向特征
选择方法;“等人【27】应用SvM进行纹理分类;Li
Jing等人【2明应用Multitrairling
SVM进行图像检索;Zh趾g
Yin和zhou
Zhihua【29】提出用mcKLR(multi.claLss
coSt-sensi!tive
kerrlellogistic
regresSion)进行人脸识别,取得了比cost-blind更好
的性能。
K最近邻算法(KNN)是一个理论上比较成熟的有监督学习分类算法,最
初由Cover和Han【33】于1967年提出。l心Ⅲ的思路非常直观,即根据距离函数计
算待分类样本和每个训练样本的距离,选择与待分类样本距离最近的K个样本
作为待分类样本的K个最近邻,从而判断待分类样本的类标。KNN分类方法是
一种非参数的分类技术,对于未知的非正态分布的数据可以取得较高的准确率,
具有概念清楚,思路直观,容易实现等优点。但是,也存在分类过程中相似性计
算量过大,对样本库过于依赖,以及度量相似性的距离函数不适用等问题。针对
Ⅺ州存在的问题,众多学者进行了广泛的研究、改进和扩充。
针对相似性计算量大的问题,为了减小计算开销从而提高计算效率的改进方
法主要有Hart㈣提出的Condensing算法、、Mlson【351的Editing算法和DeVijver【36】
的MutiEdit算法等。针对KNN算法过于依赖样本库的问题,为了使样本库满足
KNN算法的需要,许多学者开展了对训练样本库进行维护的研究。对样本库的
维护包括对训练样本库的样本进行添加(符合条件的样本加入库里)和删除(对
样本库里已有符合条件的样本进行删除)。文献【37。391从不同的角度对样本库进行
了维护,提高了KNN算法的分类精度。在度量相似性的距离公式方面,许多学
者也进行了优化。如在度量相似度的距离公式中给特征赋予不同的权重【4叫21,也
有考虑加入匹配系数,以进行相似性度量公式优化的【431。
4
剩余55页未读,继续阅读
资源评论
programyp
- 粉丝: 88
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功