大数据简历项目关于两个联通大数据项目和一个爬虫项目

需积分: 43 176 浏览量 2020-04-28 09:59:32 上传评论 6 收藏 53KB DOC 举报

大数据简历内含三个项目：项目一：联通大数据项目项目名称：移动终端上网数据实时分析处理系统；开发环境： IDEA+eclipse+maven+jdk 系统架构： hadoop+zookeeper+flume+Spark+hive+mysql+sqoop+Oracle 项目二：联通大数据项目项目名称：信令数据实时分析处理系统；开发环境： IDEA+eclipse+maven+jdk 系统架构： hadoop+zookeeper+Spark+hive+mysql+sqoop+Oracle 项目三：网络爬虫项目名称：爬取电商网站商品信息开发环境： eclipse+mysql+maven+jdk+svn 系统架构： hadoop+zookeeper+httpclient+htmlcleaner+hbase+redis+solr+flume+kafka+storm 【大数据简历项目】展示了一位经验丰富的程序员，专注于大数据领域，尤其在Hadoop和Spark开发方面具有深厚的技术功底。他参与了两个联通大数据项目和一个网络爬虫项目，涉及实时数据分析处理和大规模数据采集。在第一个联通大数据项目——移动终端上网数据实时分析处理系统中，开发环境包括IDEA、Eclipse、Maven、JDK，系统架构由Hadoop、Zookeeper、Flume、Spark、Hive、MySQL、Sqoop和Oracle组成。此项目中，数据通过FTP服务实时传输，利用Flume的spoolSource进行监控，接着通过SparkStreaming进行流式处理。手机号码加密、字段处理后，数据存储在HDFS上，再通过Hive进行外部分区表建立和定时任务分析，结果导入Oracle以生成报表。第二个联通大数据项目——信令数据实时分析处理系统，同样基于Hadoop和Spark，但没有使用Flume。数据通过socket协议传给SparkStreaming进行实时解析和处理，包括手机号加密、字段筛选及基站信息关联。处理后数据存储在Hadoop上，通过FTP与其他系统交互。网络爬虫项目则涉及电商网站商品信息的抓取，使用Eclipse、MySQL、Maven、JDK、SVN等工具，系统架构包括Hadoop、Zookeeper、HTTPClient、HTMLCleaner、HBase、Redis、Solr、Flume、Kafka和Storm。该项目中，爬虫用于获取网页信息，数据经过清洗后存储在HBase和Redis中，通过Kafka和Storm进行流处理。这位求职者的技术能力包括： 1. 深入理解Spark源码和工作机制。 2. 熟练使用Scala编程。 3. 掌握Spark Streaming进行实时处理。 4. 熟悉Elasticsearch和Logstash。 5. 理解Hadoop的分布式文件系统和MapReduce原理。 6. 熟悉Hive的工作原理，能进行数据仓库构建和分析。 7. 熟练使用Sqoop进行数据互导。 8. 理解Hbase存储原理，能实现毫秒级检索。 9. 掌握Redis内存数据库和毫秒查询。 10. 熟悉Kafka、Flume的数据采集和流处理。 11. 理解Impala的快速查询机制。 12. 使用Scala和Spark SQL进行数据处理、查询和统计。 13. 良好的英文文档阅读能力和文档写作技能。 14. 熟练使用Linux操作系统和编写Shell脚本。他的工作经验涵盖了Hadoop开发工程师的角色，曾在两家公司担任Java和Hadoop开发职责，负责搭建系统、优化处理、编写脚本和数据分析。这些项目和技能展示了他在大数据领域的全面能力，包括数据采集、实时处理、存储、分析和优化，使其成为一位极具竞争力的Hadoop和Spark开发工程师候选人。

资源推荐

资源评论