数据工程云-源码


-
数据工程云 Inmon和Kimball这两个模型有什么区别? Inmon模型需要长期的工作,才能从不同的数据源(OLTP)构建系统来创建数据仓库,该模型可以供不同部门(数据集市)使用。 缺点:基于应用程序的Kimball模型从数据源中查找所需的数据。 更动态。 OLTP和OLAP? OLTP:用于RDBMS的在线事务处理:增加,修改,删除,检查(搜索)OLAP:用于数据仓库的在线分析处理 数据库? 为相关应用准备了数据,这些数据将直接使用。 Data Lake是什么意思? 加载机器学习中使用的数据时,不必关心数据类别。 IaaS,PaaS,SaaS? IaaS:基础架构即服务PaaS
1.25MB
食谱:数据工程食谱-源码
2021-02-26如果您喜欢这本书并需要更多帮助: 在LearnDataEngineering.com上查看我的数据工程学院和个人指导 请访问learndataengineering.com: 每周都有新内容! 从研究职位发布,创建和执行项目到职位申请技巧的分步课程 完整的AWS Data Engineering示例项目(Azure开发中) 1小时以上的数据工程终极入门课程 数据工程基础课程 数据平台和管道设计课程 Apache Spark基础知识课程 选择数据存储课程 私有成员松弛工作区(终生访问) 每周问答直播和存档 目前有超过24小时的视频 免费支持本书! 亚马逊:,使用此链接*,您可以从亚马逊购买任何东西(也请查看我完整的播客设备和书籍) 内容: , 完整目录: 介绍 基本工程技能 先进的工程技能 动手课程 实例探究 最佳实践云平台 超过130个免费的数据科学数据源 1001面试题 推
2.4MB
Udacity-Data-Engineering-Projects:与数据工程相关的项目很少,包括数据建模,云上的基础设施设置,数据仓库和数据湖开发-源码
2021-01-30数据工程项目 项目1:使用Postgres进行数据建模 在这个项目中,我们将数据建模与Postgres结合使用,并使用Python构建ETL管道。 一家初创企业希望分析他们在新音乐流应用程序上收集的有关歌曲和用户活动的数据。 当前,他们正在以json格式收集数据,分析团队对了解用户正在收听的歌曲特别感兴趣。 链接: 项目2:使用Cassandra进行数据建模 在这个项目中,我们将Data Modeling与Cassandra结合使用,并使用Python构建ETL管道。 我们将围绕要获取答案的查询建立数据模型。 对于我们的用例,我们需要以下答案: 获取在特定会话期间在音乐应用程序历史记录中出现的歌曲的详细信息。 获取用户在音乐应用程序的特定会话期间播放的歌曲。 从音乐应用程序历史记录中获取所有听过特定歌曲的用户。 链接: 项目3:数据仓库 在此项目中,我们将应用我们学到的数据仓库架构,并在AWS云上构建数据仓库。 我们构建了一个ETL管道,以提取和转换s3存储桶中以json格式存储的数据,并将数据移至Amazon Redshift上托管的Warehouse中。 使用红移I
14.12MB
capstone:才云与InfoQ合作推出的Capstone课程项目。此处放置课程大纲,数据及源码-源码
2021-03-23顶石 才云与InfoQ合作推出的Capstone课程项目。此处放置课程大纲,数据及源码 目录结构 ├── code 代码 │ ├── 0.keras-lstm.ipynb 基于keras开发的LSTM模型 │ ├── 0.keras-lstm.py │ ├── 0.tflearn-lstm.ipynb 基于tflearn开发的LSTM模型 │ ├── 0.tflearn-lstm.py │ ├── 1.data-analysis.ipynb 数据分析 │ ├── 1.data-preprocessing.ipynb 数据预处理 │ ├── 1.data-visualization.ipynb 数据可视化 │ ├── 2.feature-engineering.ipynb 特征工程 │ ├── 3.at
1.91MB
数据云工程项目:用于构建数据湖,数据仓库和分析平台的数据管道-源码
2021-02-12数据/云工程项目 项目1:使用Postgres进行数据建模 在这个项目中,我将数据建模与PostgreSQL结合使用,并使用Python构建了ETL管道。 一家初创公司希望分析他们在新音乐流应用程序上收集的歌曲数据和用户活动数据。 当前,数据以JSON格式收集,并且分析团队对了解用户正在收听的歌曲特别感兴趣。 链接: 项目2:使用Cassandra进行数据建模 在这个项目中,我将Cassandra应用于数据建模,并使用Python构建了ETL管道。 我围绕要获取答案的查询建立了数据模型。 对于我们的用例,我们要执行以下操作: 获取在特定会话期间在音乐应用程序历史记录中出现的歌曲的详细信息。 获取用户在音乐应用程序的特定会话期间播放的歌曲。 从音乐应用程序历史中获取所有听过特定歌曲的用户。 链接: 项目3:数据仓库 在这个项目中,我应用了我们学到的数据仓库架构,并在AWS云上
10KB
awesome-data-engineering:面向软件开发人员的精选数据工程工具列表-源码
2021-02-28很棒的数据工程 面向软件开发人员的精选数据工程工具清单 内容清单 资料库 关系型 使用Raft共识协议的复制SQLite 世界上最受欢迎的开源数据库。 TiDB是与MySQL协议兼容的分布式NewSQL数据库 Percona XtraBackup是一个免费,开源,完整的在线备份解决方案,适用于所有版本的Percona Server,MySQL:registered:和MariaDB:registered: Pinterest MySQL管理工具 MySQL的增强的直接替代品。 世界上最先进的开源数据库。 Amazon RDS使您可以轻松地在云中设置,操作和扩展关系数据库。 具有NOSQL优点的可扩展SQL数据库。 核心价值 一种开放的,BSD许可的高级键值缓存和存储。 分布式数据库,旨在通过在多个服务器之间分布数据来提供最大的数据可用性。 一种快速灵活的NoSQL数据库服务,适用于所有需要任何规模的一致
19.84MB
数据工程纳米学位:Udacity.com在数据工程纳米学位中完成的项目-源码
2021-01-30数据工程纳米学位 在完成的项目 课程1:数据建模 数据建模导论 ➔了解数据建模的目的 ify确定不同类型的数据库和数据存储技术的优缺点 in在Postgres和Apache Cassandra中创建一个表 关系数据模型 ➔了解何时使用关系数据库 ➔了解OLAP和OLTP数据库之间的区别 ➔创建标准化数据表 ➔实现非规范化模式(例如STAR,Snowflake) NoSQL数据模型 ➔了解何时使用NoSQL数据库以及它们与关系数据库的区别 for为给定用例选择适当的主键和聚类列 in在Apache Cassandra中创建NoSQL数据库 项目:使用Postgres和Apache Cassandra进行数据建模 课程2:云数据仓库 数据仓库简介 了解数据仓库架构 ➔运行ETL流程以对数据库进行非规范化(将3NF转换为Star) from根据事实和维度创建OLAP多维数据集 ➔比较列式和行式方法 AWS的云简介 了解云计算 ➔创建一个AWS账户并了解其服务 ➔设置Amazon S3,IAM,VPC,EC2,RDS PostgreSQL 在AWS上实施数据仓库 ➔识别Redshift架构的
22KB
aliyun-tianchi-datamining-heartbeatclassification:数据挖掘-心跳信号分类-源码
2021-03-16阿里云天池数据挖掘心跳分类 数据挖掘-心跳信号分类 Task1赛题理解及baseline学习2天 完成基础上的方案,并成功运行提交结果。 Task2探索性数据分析(EDA)(3天) EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得的数据集可以用于接下来的机器学习或深度学习使用。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。的探索性分析,并对于数据进行一些图表或文字总结并打卡。 Task3特征工程3天 对于特征工程的分析,并对于数据进行一些图表或者文字总结并打卡。 Task4建模与调参3天 了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程。完成相应学习打卡任务。 Task5模型融合3天 对于多种模型的融合,提交融合结果并打卡。
1KB
danilodioliveira:数据科学存储区-源码
2021-02-15你好呀 :waving_hand: 我叫Danilo,我是计算机工程师,最近我开始研究数据科学领域。 我一直在平衡理论和实践的基础上不断增加我的知识,专注于实际业务问题。 在过去的这一年(2020年),我专注于一些我认为至关重要的事情,这些事情对于获得开始我的旅程的必要基础是: 数据科学专业认证-IBM 数据科学训练营-IGTI 机器学习训练营-IGTI 我打算在2021年完成: Google Cloud Platform和Big Query进行大数据,数据科学和ML-数据科学学院 大数据MBA-FIAP,计划于03/2022完成。 此外,我还是Meigaron的DS社区的成员,该社区每个月我们都会解决实际的业务案例项目。 项目: 如果我在数据科学领域的项目,可以在这里找到我的简短列表。 Rossmann预测销售:使用Heroku云平台部署机器学习模型。 该模型预测了所有罗斯曼商店的未来6周收
13KB
udacity-data-engineering-nanodegree-sparkify-data-house:一家虚构的音乐初创公司Sparkify扩大了用户群,并希望将其流程和数据库移至云中。 作为数据工程师,任务是将数据从S3移动到Amazon Redshift并将数据转换为维度模型-源码
2021-02-21数据工程纳米数据仓库 一家虚构的音乐初创公司Sparkify已扩大了用户群,并希望将其流程转移到云中。 作为他们的新数据工程师,任务是将驻留在Amazon S3上的日志文件中的数据移到Amazon Redshift登台表中。 然后将对数据进行预处理,并将其从登台表移至维模型。 项目目标 该项目的目的是将获得的知识应用于实际项目。 概念包括: 专用于Amazon Redshift的云数据仓库建模 将数据从S3存储桶移至Redshift 使用云技术进行故障排除和调试 项目结构 sql_queries.py 该脚本包含将在Amazon Redshift上执行的所有SQL查询。 查询包括: 创建所有登台表 创建数据仓库模型 将数据从S3复制到登台表 将数据从登台表移至数据仓库模型 所有查询均保存到python变量中,并重新分组为列表。 create_tables.py 该脚本使用dwg.
62.81MB
davinci:Davinci是DVsaaS(数据可视化即服务)平台-源码
2021-02-05Davinci-DVaaS(数据可视化即服务)解决方案 文件 介绍 Davinci面向产品经理,业务人员,数据工程师,数据分析师,数据科学家等。它旨在提供一站式数据可视化解决方案,该解决方案既可以独立用作公共云/私有云,又可以集成到第三方云中。派对系统作为插件。 达芬奇用户界面上的简单配置可以满足多种可视化要求。 它还支持其他可视化功能,例如高级交互,行业分析,模式搜索,社交智能等。 设计哲学 专注于两个关键概念,数据视图(达芬奇中的视图)和可视组件(达芬奇中的小部件) 结构数据以Davinci View的形式呈现,从中得出所有逻辑,授权和服务。 视觉数据显示在Davinci Widget
9.90MB
around-dataengineering:数据工程和机器学习知识中心-源码
2021-03-20关于数据工程和机器学习的长期学习,永无止境 每周文摘 数据工程 0级 1级 迦安 基础设施 机器学习 MLOPS 项目 有见地 纸 分布式系统 疯狂的 不适用 云
184KB
Redshift_Data_Warehouse:这是来自数据工程Udacity课程的项目3-源码
2021-02-21项目描述 音乐流媒体创业公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及其应用程序中的歌曲上具有JSON元数据的目录中。 Sparkify希望数据工程师构建执行以下操作的ETL管道: - Extracts their data from S3 - Stages them in Redshift - Transforms data into a set of dimensional tables - Continue finding insights in what songs their users are listening to. 项目数据集 这两个数据集位于S3中。 歌曲数据集 第一个数据集是“百万歌曲”数据集中的真实数据的子集。 每个文件均为JSON格式,并包含有关歌曲
76.57MB
davinci 最新源码
2020-02-24Davinci 是一个 DVAAS(Data Visualization as a Service)平台解决方案,面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。
61KB
dend-project-3:Udacity数据工程纳米学位项目3:具有S3和Redshift的AWS ETL管道-源码
2021-02-17| | 2020-11-23 项目3:AWS数据仓库 音乐流媒体创业公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 他们要求数据工程师建立一个ETL管道,该管道从S3提取数据,在Redshift中进行分级,然后将数据转换为一组维度表,供其分析团队使用,以继续寻找用户正在收听的歌曲的见解。 通过运行Sparkify分析团队提供给您的查询,并将您的结果与预期结果进行比较,您将能够测试数据库和ETL管道。 项目概况 在这个项目中,我将在数据仓库和AWS上学到的知识应用到Redshift上托管的数据库中构建ETL管道。 为了完成项目,我将数据从S3加载到Redshift上的登台表,然后将它们插入一组针对分析进行了优化的维度表。 最终
1.2MB
Google-Cloud-Platform-Associate-Cloud-Engineer:Google-Cloud-Platform-Associate-Cloud-Engineer-源码
2021-03-21GUIA COMPLETA-从零到助理云工程师 塞萨尔·卡斯蒂略 特马里奥 1.-设置云解决方案环境 1.1.-设置云项目和帐户 1.2.-管理计费配置 1.3.-安装和配置命令行界面(CLI),特别是Cloud SDK(例如,设置默认项目)。 2.-规划和配置云解决方案 2.1.-使用定价计算器计划和估算GCP产品使用情况 2.2.-规划和配置计算资源 2.3.-规划和配置数据存储选项 2.4.-规划和配置网络资源 3.-部署和实施云解决方案 3.1.-部署和实施Compute Engine资源 3.2.-部署和实施Kubernetes Engine资源 3.3.-部署和实施App Engine和Cloud Functions资源 3.4.-部署和实施数据解决方案 3.5.-部署和实施网络资源 3.6.-使用Cloud Launcher部署解决方案 3.7.-使用Deployment
1.66MB
回流:用于云中分布式增量数据处理的语言和运行时-源码
2021-02-01回流是在云中用于增量数据处理的系统。 Reflow使科学家和工程师可以使用普通的编程结构来组合现有工具(打包在Docker映像中)。 然后,Reflow在云环境中评估这些程序,透明地并行化工作并记录结果。 Reflow是在上创建的,用于管理我们在上的NGS(下一代测序)生物信息学工作负载,但也已用于许多其他应用程序,包括模型训练和临时数据分析。 回流包括: 一种功能性的,惰性的,类型安全的领域特定语言,用于编写工作流程程序; 运行时,用于评估Reflow程序,协调集群执行和透明的备忘录; 集群调度程序,以动态配置和拆除云提供商的资源(当前支持AWS)。 因此,回流允许科学家和工程师编写简单的程序,然后在云环境中透明地执行它们。 程序自动并行化并分布在多台计算机上,其备忘缓存消除了冗余计算(甚至跨运行和用户)。 Reflow评估其程序:只要输入数据或程序发生更改,就仅重新计算依赖于更改后的数据或代码的那些输出。 除了默认的群集计算模式外,还可以使用本地计算机的Docker守护程序(包括Docker for Mac)在本地运行Reflow程序。 Reflow旨在支持复杂的大规
22.15MB
金蝶ERP v3标准版 php完整源码
2016-11-29金蝶ERP v3标准版 php完整源码,某宝118买的
122KB
dengnano.project3-源码
2021-02-10数据工程纳米学位-项目3 云数据仓库 介绍 这是Udacity的数据工程纳米学位计划的第三个项目。 Sparkify是一家提供音乐流应用程序的初创公司。 他们想分析到目前为止收集的数据。 通过分析他们的数据,他们将能够识别简单的事物,例如最常播放的歌曲和最活跃的用户。 通过扩展其数据收集和存储功能,他们可以使用数据分析来建模保留率,经常性收入,甚至预测诸如免费用户是否以及何时转换为付费用户之类的事情。 数据源 Sparkify已经开始从其应用程序收集事件日志,并已将两种形式的日志输出到S3存储桶。 第一组日志是已添加到应用程序中的歌曲的元数据。 该元数据存储在每首歌曲的单独JSON文件中。 它们通过歌曲ID的前三个字母在存储桶中分为三个级别的键。 这是一个示例歌曲文件: {“ num_songs”:1,“ artist_id”:“ ARJIE2Y1187B994AB7”,“ arti
33.70MB
team2059-scouting-android:用于收集,分析和共享机器人竞赛数据的Android应用-源码
2021-02-11FRC侦察 收集,分析和共享FIRST机器人竞赛数据的Android应用。 产品特点 自动同步以从任何FIRST事件中提取团队列表和化身。 即开即用,提供当前游戏季节的模板 根据搜寻条目即时查看团队排名,无需导出或使用数据库 根据众多过滤条件对团队进行排序:例如排名得分,OPR,自动力量计数,伸缩得分,残局得分 离线使用能力 无缝蓝牙共享,以允许多个侦察员整合数据 暗模式 发展历程 IDE:Android Studio 核心技术包括Firebase,特别是Firestore和Cloud Functions。 查看云功能代码! 活动数据和头像由 想要贡献或有建议? 大! 创刊号 :exclamation_mark: 或叉子 :fork_and_knife: 此仓库并提交拉取请求↑
-
下载
山东省新泰市第二中学2020-2021年高一下学期第一次月考政治试卷 Word版含答案.doc
山东省新泰市第二中学2020-2021年高一下学期第一次月考政治试卷 Word版含答案.doc
-
下载
山东省泰安市宁阳一中2020-2021学年高一下学期第一次考试历史试题 Word版含答案.doc
山东省泰安市宁阳一中2020-2021学年高一下学期第一次考试历史试题 Word版含答案.doc
-
下载
宁夏银川市2021届高三下学期4月教学质量检测(高考模拟)文科综合地理试题 Word版含答案.docx
宁夏银川市2021届高三下学期4月教学质量检测(高考模拟)文科综合地理试题 Word版含答案.docx
-
下载
云南省丽江市第一中学2020-2021学年高二下学期3月月考历史试题 Word版含答案 (1).docx
云南省丽江市第一中学2020-2021学年高二下学期3月月考历史试题 Word版含答案 (1).docx
-
下载
天津市河北区2021届高三下学期总复习质量检测(一)(一模)语文试题 Word版含答案).doc
天津市河北区2021届高三下学期总复习质量检测(一)(一模)语文试题 Word版含答案).doc
-
下载
山河联盟2020学年第二学期联考高二历史.docx
山河联盟2020学年第二学期联考高二历史.docx
-
下载
江西省宜春市2020-2021学年下学期高三4月模拟考试语文试卷 Word版含答案.pdf
江西省宜春市2020-2021学年下学期高三4月模拟考试语文试卷 Word版含答案.pdf
-
下载
上海市宝山区2021届高三下学期4月期中等级考质量监测(二模)化学试题 Word版含答案.docx
上海市宝山区2021届高三下学期4月期中等级考质量监测(二模)化学试题 Word版含答案.docx
-
下载
江西省南昌市第十中学2021届高三下学期第一次月考英语试题 Word版含答案.docx
江西省南昌市第十中学2021届高三下学期第一次月考英语试题 Word版含答案.docx
-
下载
22590基于单片机的智能搬运机器人系统设计.rar
22590基于单片机的智能搬运机器人系统设计.rar
