没有合适的资源?快使用搜索试试~ 我知道了~
资源详情
资源评论
资源推荐
“
网络
爬
虫
与
数
据
采
集
”
课
程
第
1
章
网络
数
据
采
集
概
述
1
课
前
引
导
“网络数据采集”是面向大数据技术与应用方向硕士生的一门专业技术课程。在大数据技术与应用的学科
方向中占据重要位置。
1.1
课
程
目
标
我们这门课的总目标有以下三点:
了解网络数据获取的基本方式、基本要求和技术要点;
掌握Web信息爬取、内容解析、数据存储的基本技能;
理解“website is the API”这一理念。
1.2
课
程
内
容
1 网络数据采集概述
2 网络爬取相关的Web技术
3 Web页面爬取
4 Web页面解析
5 跨越身份认证
6 RIA网站数据爬取
7 构建健壮的爬虫系统
8 构建高性能的爬虫系统
2
本
节
课
程
主
要
内
容
内容列表:
数据的来源与采集方法
网络爬虫的基本概念
网络爬虫的工作原理
网络爬虫的需求分析
网络爬虫的发展历程
学习建议
本节总结
课后练习
2.1
本
节
目
标
使学生理解网络数据采集的基本概念、基本原理和基本方法。
重点:
爬虫的工作原理
爬虫的需求分析
爬虫的发展历程
难点:
爬虫的需求分析
2.2
数
据
的
来
源
与
采
集
方
法
数据科学是一个跨学科的领域,它使用科学的方法、过程、算法和系统,从各种形式的数据中提取知识
和信息。数据科学类似于数据挖掘,但也与传统的数据挖掘有差异。事实上,数据科学是一个将统计
学、数据分析、机器学习及其相关方法相统一的概念和学科,它的目的是“用数据理解和分析客观现
象”。
2.2.1
知
识讲
解
图灵奖得主吉姆•格雷认为数据科学将成为科学的“第四个范式”,即经验、理论、计算和数据驱动,并且
断言“在信息技术和数据泛滥的影响下,有关科学的一切正在发生改变”。2012年,《哈佛商业评论》杂
志将数据科学称为“21世纪最性感的职业“,随后“数据科学”这个词变得流行起来。与此同时,与数据科
学相关的工作岗位也快速增多,薪资水平也逐年攀升。
大数据相关的工作岗位,一般被称为数据工程师或数据科学家,数据工程师的要求是利用数据工具做出
新东西,而科学家主要是利用数据和工具解释数据说明了什么,为什么会这样。
无论是数据工程师或是数据科学家,从事数据科学工作时的基本业务流程大致是相同的。数据科学的业
务流程可被描述成一个迭代模型,如图所示:
数据科学的基本业务流程依次是:问题定义、数据获取、数据清洗、建模分析、展现报告、决策辅助。
之后可能会出现新的问题,或是老问题的重新定义,经过多次迭代,知识会不断更新,对事物本质认识
呈螺旋型上升。从中我们可以发现,数据获取是基础环节。所谓数据获取就是通过各种技术手段和人类
活动,感知能反映事物状态和变化发展的数据,并将它们收集起来,为后续基于数据的分析奠定基础。
从就业市场上的反馈来看,数据科学从业者往往被要求有多项技能,而数据获取能力往往是不可或缺的
一部分。那么如何获取数据呢?
现实中,可供我们使用的数据,主要来自4个方面:
数据的第1种来源,是单位自有的历史数据,包括文档、数据库、表格等格式;
数据的第2种来源,是定量/定性的市场调研,例如:通过网络、街头、电话方式进行问卷调查而得
到的数据。
数据的第3种来源,是专业机构的长期积累:许多互联网公司、咨询机构都非常擅于收集数据。随
着大数据时代的来临,数据的获取与供给成为一门大生意,有从事这类业务的机构:
第1种专业机构是互联网企业:例如:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指
数;
第2种专业机构是数据交易平台:例如:数据堂、国云数据市场、贵阳大数据交易平台;
剩余12页未读,继续阅读
UEgood雪姐姐
- 粉丝: 31
- 资源: 319
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0