大数据简历项目 关于两个联通大数据项目和一个爬虫项目
大数据简历 内含三个项目: 项目一:联通大数据项目 项目名称: 移动终端上网数据实时分析处理系统; 开发环境: IDEA+eclipse+maven+jdk 系统架构: hadoop+zookeeper+flume+Spark+hive+mysql+sqoop+Oracle 项目二:联通大数据项目 项目名称: 信令数据实时分析处理系统; 开发环境: IDEA+eclipse+maven+jdk 系统架构: hadoop+zookeeper+Spark+hive+mysql+sqoop+Oracle 项目三:网络爬虫 项目名称: 爬取电商网站商品信息 开发环境: eclipse+mysql+maven+jdk+svn 系统架构: hadoop+zookeeper+httpclient+htmlcleaner+hbase+redis+solr+flume+kafka+storm 【大数据简历项目】展示了一位经验丰富的程序员,专注于大数据领域,尤其在Hadoop和Spark开发方面具有深厚的技术功底。他参与了两个联通大数据项目和一个网络爬虫项目,涉及实时数据分析处理和大规模数据采集。 在第一个联通大数据项目——移动终端上网数据实时分析处理系统中,开发环境包括IDEA、Eclipse、Maven、JDK,系统架构由Hadoop、Zookeeper、Flume、Spark、Hive、MySQL、Sqoop和Oracle组成。此项目中,数据通过FTP服务实时传输,利用Flume的spoolSource进行监控,接着通过SparkStreaming进行流式处理。手机号码加密、字段处理后,数据存储在HDFS上,再通过Hive进行外部分区表建立和定时任务分析,结果导入Oracle以生成报表。 第二个联通大数据项目——信令数据实时分析处理系统,同样基于Hadoop和Spark,但没有使用Flume。数据通过socket协议传给SparkStreaming进行实时解析和处理,包括手机号加密、字段筛选及基站信息关联。处理后数据存储在Hadoop上,通过FTP与其他系统交互。 网络爬虫项目则涉及电商网站商品信息的抓取,使用Eclipse、MySQL、Maven、JDK、SVN等工具,系统架构包括Hadoop、Zookeeper、HTTPClient、HTMLCleaner、HBase、Redis、Solr、Flume、Kafka和Storm。该项目中,爬虫用于获取网页信息,数据经过清洗后存储在HBase和Redis中,通过Kafka和Storm进行流处理。 这位求职者的技术能力包括: 1. 深入理解Spark源码和工作机制。 2. 熟练使用Scala编程。 3. 掌握Spark Streaming进行实时处理。 4. 熟悉Elasticsearch和Logstash。 5. 理解Hadoop的分布式文件系统和MapReduce原理。 6. 熟悉Hive的工作原理,能进行数据仓库构建和分析。 7. 熟练使用Sqoop进行数据互导。 8. 理解Hbase存储原理,能实现毫秒级检索。 9. 掌握Redis内存数据库和毫秒查询。 10. 熟悉Kafka、Flume的数据采集和流处理。 11. 理解Impala的快速查询机制。 12. 使用Scala和Spark SQL进行数据处理、查询和统计。 13. 良好的英文文档阅读能力和文档写作技能。 14. 熟练使用Linux操作系统和编写Shell脚本。 他的工作经验涵盖了Hadoop开发工程师的角色,曾在两家公司担任Java和Hadoop开发职责,负责搭建系统、优化处理、编写脚本和数据分析。 这些项目和技能展示了他在大数据领域的全面能力,包括数据采集、实时处理、存储、分析和优化,使其成为一位极具竞争力的Hadoop和Spark开发工程师候选人。
- 粉丝: 1
- 资源: 4
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助