没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
SQL 和数据分析——对数据分析师和高等教育的一些启示
Marin Fotache
a
*, Catalin Strimbei
b
a,b
Al. I. Cuza University, B-dul Carol 1 nr.22, Iasi, 700505, Romania
摘要
不管是不是炒作,大数据、NoSQL、数据分析、商业智能、数据科学确实
需要利用各种各样的统计方法和工具,用复杂且多样化的方式来处理大量数据。
市场对拥有管理数据库和数据仓库的技术性技能,和破译隐藏在大量数据中的业
务模式及趋势的技能的毕业生需求也逐渐增加。本文介绍了当今数据处理的主要
方法和对学术课程的一些启示。本文表明了数据分析和商业智能专业人员如果受
过培训获得适当程度的 SQL 和数据仓库知识,是受益匪浅的。
关键词:大数据;统计;数据分析;SQL;OLAP
1. 简介:数据泛滥和随之而来的炒作 - 大数据
在 IT 和商业世界中,炒作和潮流都以极快的节奏涌现和消失。炒作更新最
快的时候每隔几个月就改变一次。几乎所有科技公司的营销部门都在竞相重新包
装旧产品和品牌重塑,以暗示其产品的凉爽和可取性(Buhl et.al,2013)。这战
略看起来是有用的,至少对某些人来说有用。
正如 Stonebraker(2012)所说,大数据是“当天的流行语”。和其他流行语一
样,这个术语没有严格的定义。这数据有多大(Jacobs, 2009;Borkar et el.,
2012)?同样是处理大量数据(Borkar et al.,2012),大数据、数据库和数据仓
库之间有什么差异?
电子商务网站、传感器、相机、移动应用程序都会产生大量不同的周期性数
据。这些大量的数据必须进行处理和分析,以便检测模式、解释商业现象和进行
预测。我们可以从数据中学习到有关大数据的基本假设(Cron et al.,2012)。
根据 Jacobs(2009)的观点,大数据在任何时间点都应该定义为数量大到促
使我们不断超越当时流行的已尝试过的方法的数据,然而对于 Cuzzocrea et al.
(2011)来说,大数据是指在一系列广泛而驳杂的应用场景下,高性能的应用程
序产生的大量非结构化数据:从科学计算应用到社交网络,从电子政务应用到医
疗信息系统等等。
Stonebraker(2012)定义了大数据的四种类型:
数据量大但分析量小
对大量数据进行大量分析
大速度
大种类
数据量大但分析量小通常意味着在大型数据集上可使用常规 SQL 语句查询
(含有 MIN, MAX, SUM, COUNT, AVG, GROUP BY, HAVING 函数和子句的
SELECT 语句)。所有类型的 SQL(关系型)数据库、商业软件(Oracle,IBM
DB2,Microsoft SQL Server)或开源软件(PostgreSQL,MySQL)都可以是这种
处理方式所使用的平台或工具。
对大量数据进行大量分析需要将 ETL(Extract(提取)-Transform(转换)-
Load(加载))工具与统计软件包相结合。大量的分析意味着回归、数据挖掘、
机器学习和其他更复杂的处理方式。数据可以使用 SQL 查询和/或 ETL 工具从各
种数据源中提取。复杂的分析则需要诸如 SPSS、R、SAS 等软件包,有时需要
大量的代码编辑。
大速度是指从股票交易所、电子交易、移动社交网络、网站等处吸收高速流
动的数据的能力。
大种类与数据源和数据格式(XLS,关系数据库,CSV,平面文件等)的异
构性有关,异构性指数据必须被输入和转换后才能进行处理和分析。
管理大数据意味着管理三种类型的操作:收集数据,存储数据和处理数据。
因此,大数据的关键是数据库和统计软件包。
2. SQL 和统计软件包
有大量的统计软件包专门用于数据分析和其他类型的复杂处理。部分最受欢
迎的商业产品是:SPSS,SAS,Stata,S-PLUS,Minitab。它们通常使用对常规
用户(非程序员)非常友好的接口,以提供各种各样的统计函数和选项。但其中
至少有一部分因其成本高而“臭名昭著”。中小型企业和很大一部分高校,不会花
费数千美元购买数量不多的许可证。当然价格和许可证制度不同,但根据我们的
经验,价格仍然是影响人们使用的最常见障碍。尽管如此,许多大学仍通过捐赠、
研究补助金和行业项目等获得了 SPSS,SAS 等软件包的使用权。
近年来,高等教育和研究领域见证了开源统计软件逐渐变为大势所趋,主要
是 R 软件。由于高校、公司和研究人员无法在软件上花费太多,尤其是在当前
的金融危机下,因此 R 逐渐成为了数据分析的主流平台。R 拥有庞大的发烧友开
发者群体,在统计、数据挖掘、机器学习等领域不断地做出改进,故其他用户无
需承担任何费用。
R 要达到适用于这些论文的目标有两个主要限制。一个是 R 特有的,并且涉
及到用户界面,虽然某些开源拓展包(例如 RStudio)以某种方式使对话框变得
柔和,R 还是基于命令提示符和脚本进行编程的,即使这使编程变得十分容易。
换句话说,R 仍然与商业产品的优雅有着很大差距。
第二个限制是所有统计软件包固有的,并且涉及到数据源。调查和实验室数
据可以直接输入统计软件包,但在现实世界中,公司要分析的数据大部分存在于
以下平台范围内:SQL 数据库,Web 日志,传感器,移动应用程序,Excel 文件
等。因此在大多数情况下,R 和其它软件包需要一些提取-转换-加载(ETL)机
制来收集数据。
统计软件包通常使用以下一个或多个方法来加载要处理的数据:
使用菜单直接从外部数据文件(Excel,用逗号作为分隔值的 CSV,文本
文件等)导入(如果有可直接使用的文件的话)。
将数据源(数据库,Excel 等)的中间结果保存到通用格式的文件中,然
后将这些中间文件导入到包中;最流行的交换格式是 XML,CSV和JSON。
使用 ODBC(开放数据库连接)或 JDBC(Java 数据库连接)驱动程序
创建数据源然后直接将程序包连接到 ODBC/JDBC 数据源。不需要中间
文件,数据直接导入包中的变量/表。
近年来,有一些新的数据导入的选项可供使用,例如:
使用为数据源和目标包定制的特殊 ETL 机制。
连接到提供格式易于导入的数据集的特殊 API(应用程序编程接口)或
Web/数据服务器。谷歌分析就是这样的服务器,并且多年来越来越受欢
迎。
使用用户定义或标准 ETL 过程从 Web 服务器日志中导入数据。在这个
领域 NoSQL 系统起到了很大的作用。
除了通过 ODBC/JDBC 连接进行普通的导入外,有时还可以在数据库服
务器中直接从统计包中执行数据库查询。例如,R 用户可以直接查询
SQLLite 数据库并将表中的结果导入 R 工作区。
3. SQL 用于数据分析的功能
基本上,SQL 基于关系代数从大型数据库中提取记录集。SELECT 是核心
SQL 语句,为过滤记录、列/属性,计算,分组等赋予了功能强大的命令语句。SQL
的巨大受欢迎程度(Michael Stonebraker 曾经将 SQL 称为星系间都可使用的数据
语言)主要是由于它的高级语法(大多数查询不需要编程)以及所有类型的数据
库管理系统都适用,从桌面(Access)到开源软件(MySQL,PostgreSQL)和商
业软件(Oracle,IBM DB2,Microsoft SQL Servers)。SQL 通过 ISO、ANSI 和
各种国家机构标准化后,得到了广泛的使用。第一个 SQL 标准发布于 1986 年
(ANSI)和 1989 年(ISO),然后在 1992 年,1999 年,2003 年,2008 年和 2011
年。
正如前一节所指出的,SQL 查询(SELECT 命令)的结果可以保存/存储在
剩余11页未读,继续阅读
资源评论
litianyistudin
- 粉丝: 0
- 资源: 143
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于matlab开发的根据rvm回归模型自己编的matlab程序.rar
- 高效C++学生成绩管理系统:教育技术+C++17编程+数据管理+教务自动化
- 基于matlab开发的Tipping的相关向量机RVM的回归MATLAB程序,有英文注释,可以运行.rar
- 一个点击正反转程序实例,可实现案件电机正反转
- 搜索链接淘特搜索引擎共享版-tot-search-engine.rar
- 第十八届全国大学生智能汽车竞赛 摄像头组/镜头组
- 基于matlab开发的AUV惯性导航系统matlab仿真程序,包括轨迹生成、gps和sins组合、gps和dvl组合.rar
- 基于SSM的“个性化电子相册”的设计与实现.zip
- 如何在撰写科研文献时,使用ai工具辅助去完成科研工作
- 吉林大学计组笔记 自用 基于b站翼云图灵的课.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功