数据科学与工程技术丛书
统计学习导论
基于
R
应用
[美]
An
Introduction
to Statistical
Learning
with Applications
in
R
力口雷斯·詹姆斯(
Gareth J ames )
丹妮才主·成滕
(Daniela
Witten)
非
特雷弗·哈斯帖
(Trevor
Hastie)
叫
罗伯特·提布施瓦尼(
Robert Tibshirani)
王星等译
〈
P
在盯且
iM
£
图书在版编目
(CIP)
数据
统计学习导论
基于
R
应用/
(美)詹姆斯
(James
,
G.)
等著;王星等译.
北京:机械
工业出版社,
2015.6
(数据科学与工程技术丛书)
书名原文:
An
1ntroduction
to
Statistical
Learning:
with
Applications
in
R
1SBN
978-7-111-49771-4
1.统…
1
1.①詹…
②王…
II
1.统计学一研究
1V.
C8
中国版本图书馆
C1P
数据核字(
2015)
第
059665
号
本书版权登记号:图字:
01-2013-7855
Translation
from
English
language
edition:
An
lntroduction to Statistical
Learning
by
Gareth
]ames
,
Daniela
Witten
,
Trevor
Hastie
and
Robert
Tibshirani
Copyright
(
2013
Springer_
Verlag
New
York
,
Inc
Springer
is
a
part
of
Springer
Science+
Business
Media
All
rights
Reserved
本书中文简体字版由
Springer
Science+
Business
Media
授权机械工业出版社独家出版。未经
出版者书面许可,不得以任何方式复制或抄袭本书内容。
本书是一本统计学习方法的概要书,提供了理解大数据和复杂数据必不可少的工具,数据来自近
20
年来生物学、金融学、市场营销学和天体物理学等领域。书中介绍了一些重要的建模方法和预测技
术以及它们的相关应用。内容涉及线性回归、分类、再抽样方法、压缩方法、树方法、聚类、支持向
量机等。书中使用大量案例来阐释相关方法,每章都有如何在
R
中实现所述方法的指导实验。
本书读者对象是那些希望运用统计学习前沿技术分析数据的人士,既包括统计学专业的师生,也包
括非统计学专业的从业者。
出版发行:机械工业出版社(北京市西城区百万庄大街
22
号邮政编码
100037
)
责任编辑:明永玲 责任校对:董纪丽
印
刷:
版 次
2015
年
5
月第
1
版第
1
次印刷
开本
185mm
x
260mm
1/16
印
张
20.25
(含l.
5
印张彩插)
书号
ISBN
978-7-111-49771-4
定价
79.00
元
几购本书,如有缺页、
1f'J
页、脱页,由本社发行部调换
客股热线:
(010) 88378991 88361066
投稿热线:
(010) 88379604
购书热线:
(010) 68326294 88379649 68995259
读者信箱
hzjsj@hzbook.com
版权所有·侵权必究
封底无防伪标均为盗版
本书法律顾问:北京大成律师事务所
韩光/邹晓东
中文版序
When
we
wrote
An
Introduction
to
St
α
tistic
α
1
Le
α
rning
,
we
had
a
single
goal:
to
make
key
concepts
in
statistical
machine
learning
accessible
to
a
very
broad
audience.
We
are
thrilled
that
Professor
Xing
Wang
has
taken
the
time
to
translate
our
book
into
Chinese
,
so
that
these
concepts
will
be
made
accessible
to
an
even
broader
audience.
We
hope
that
the
readers
of
this
Chinese
translation
will
find
our
book
to
be
a
useful
and
informative
introduction
to
a
very
exciting
and
im-
portant
research
area.
Sincerely!
回想当初在编写《统计学习导论》这本书的时候,我们
4
位作者心中只有一个梦
想:让更多的读者能够聆听到统计机器学习里的基本概念。中国人民大学的王星教授
花了很多时间将这本书翻译成中文,这令我们十分欣慰,相信会有更多的朋友可以通
过这本书涉足该领域。我们希望中文版的读者会被书中的内容丰富和案例实用所吸引,
并由此进入一个令人兴奋且颇具影响的研究领域。
真诚地祝福!
Gareth
James
,
Daniela
Witten
,
Trevor
Hastie
and
Robert
Tibshirani
译者序
数据是对事物及其量的记录,有存储字节的记录就是数据。数据是研究各种问题
的基础,数据的形态种类繁多,
1
旦有两类数据在分析中常常是不能忽略的,一类是测
量数据,另一类是系统数据。前者主要是指用合适的工具对给定研究对象某个属性上
的量进行测定,主要用于提供有关研究对象量的实验证据,一般需要针对研究目标进
行特定的科学设计、抽样计算、数据采集、相关整理、参数估计和模型检验等。这类
数据的产生过程严格,规则明确,数据质量受实验环境影响较大,建模的主要目的是
分析估计目标的误差来源和相关影响。后者则是计算机体系架构为高效传输文件而产
生的记录,比如日志、
IP
地址等,这类记录中既包含了系统的运行程序也包含了所传
递对象的流通属性,其特点是,模块结构化程度高,程序繁理很快,高消耗低效能特
证明显。这两类数据在巨大的网络平台上各自位于相对独立的体系并在自有协议中运
行。另一方面,两类数据丰管着人、机、物二元世界的信息交换,比如在个性化医疗
实施方案中,既需要测量数据的支持也需要系统数据的支持,比如通过普查数据可以
了解老龄人口的分布情况,通过互联网监测系统可以对其中的孤寡老人开展危险分层
建模和有效的社区医疗服务。后者又为高危人口的进一步分析提供监测的抽样框,所
以统一分析非常必要。在这些动态、价值密度有待开发的高维大数据上发展协同自序
的新数据应用模型,统计学习方法是必要的工具,它用于协调大数据重组结构中差异
的发现和分离,并维护整体分析的同一性。
本书
4
佳作者都是统计学习领域的先行者,作者
Trevor
Hastie
和
Robert
Tibshirani
在
十几年前主导了《统计学习基础}
(The
Elements
of
Statistical
Learning
,
ESL)
的出版,
这本书堪称学术经典,系统阐述了统计学习理论,培养了大批数据分析专业人士。而
这一次,两位作者提携了两位年轻教授共同推动统计学习在复杂数据分析领域作为模
型建立和数据理解的工具的应用。这些工具模型在
R
软件中可以任意组合,具有很强
的实用性和灵活性。与传统统计模型重点关注单一结构的数据统计特征不同,统计学
习模型重点关注数据分布结构的提取和程序分析的建构思维。书中例子丰富有趣,涉
足诸多领域,包括体育、市场营销、金融等热门领域,案例深入浅出、实验特色鲜明。
本书适用于数据分析、机器学习以及统计学等专业方向高年级本科生和研究生,同时
也可作为非统计学专业数据分析发烧友的手边参考书。
本人多年从事统计学习、
R
软件的教学和科研,一个切身的体会是国内大数据分析
市场化程度较低,有价值的研究常常无法获得高质量的分析数据,而公共数据的开发
还有待深化,一些钟情于数据分析的发烧友其实更迷恋国外结构化较高且内涵丰富的
数据,比如
Pl
山时
d
等。一个原因是具备数据提供能力的人往往不能正确评估手中数据
的分析价值,换句话说,是对统计学习方法的实践能力不足。相信这本书将再次掀起
国内大数据分析和
R
实践爱好者参与设计新的学习模型的热潮,从而共同推动国内大
数据分析合作市场的建立。正因为如此,我和我的团队牺牲了多半年本该属于其他重
点课题研究的宝贵时间,
f
项情专注于这本书的翻译和校对,除我之外,还有以下同学
参与了初稿的翻译:颜娅婷、王人福、
f
耳金菁、李雅菁、张慧婷、许泳择、王聪、、郑
轶、马璇、李政寰,其中颜娅婷和王人福还参与了部分初稿的修改工作,王星负责全
书的统稿和审核。本书受中国人民大学"
985
工程"支持和中国人民大学科学研究基
金项目人文学科跨界关系网络跟踪评价研究编号
13XNI011
资助,在此一并感谢。
其实早在
10
年前我们开始研读《统计学习基础》时就希望有机会参与这个新方向
经典作品的翻译,可惜迟到一步。这次翻译弥补了多年的缺憾,能够获得翻译专业经
典的机会是我和整个团队的殊荣,相信其他读者也能够从中感受到我们传递给大数据
分析爱好者的一份热忱与真诚。
王星
2015
年
1
月
中国人民大学应用统计研究中心&统计学院
V
- 1
- 2
前往页