基于Spark2.2的新闻网大数据实时分析系统设计与实现.zip资源-CSDN文库

共403个文件

xml：364个

scala：14个

iml：6个

版权申诉

java

springboot

spark

毕业设计

35 浏览量 2023-08-03 17:44:22 上传评论收藏 262KB ZIP 举报

本项目经测试过，真实可靠，请放心下载学习。这两个技术在大数据处理和Java Web开发中扮演着重要的角色。在此次总结中，我将回顾我所学到的内容、遇到的挑战和取得的进展。首先，我开始了对Spark的学习。Spark是一个强大的分布式计算框架，用于处理大规模数据集。通过学习Spark，我了解了其基本概念和核心组件，如RDD（弹性分布式数据集）、Spark SQL、Spark Streaming和MLlib等。我学会了使用Spark编写分布式的数据处理程序，并通过调优技巧提高了程序的性能。在实践过程中，我遇到了一些挑战，比如调试复杂的数据流转和处理逻辑，但通过查阅文档和与同学的讨论，我成功地克服了这些困难。最终，我能够使用Spark处理大规模数据集，并通过并行化和分布式计算加速任务的执行。其次，我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot，我了解了其核心思想和基本原理，以及如何构建RESTful Web服务、使用数据库、进行事务管理等。我学会了使用Spring Boot快速搭建Java Web应用程序，并且能够运用Spring Boot的特性来简化开发流程。在学习的过程中，我遇到了一些挑战，比如配置文件的理解和注解的正确使用，但通过查阅官方文档和阅读相关书籍，我逐渐解决了这些问题。最终，我能够独立地使用Spring Boot开发Web应用程序，并运用其优秀的特性提高了开发效率。总结来说，本学期我在Spark和Spring Boot方面取得了一定的进展。通过学习Spark，我掌握了分布式数据处理的基本原理和技巧，并通过实践应用到了大规模数据集的处理中。通过学习Spring Boot，我了解了现代化的Java Web开发方式，并通过实践构建了一些简单的Web应用程序。我还意识到在学习过程中遇到的困难和挑战是正常的，通过不断的努力和学习，我能够克服这些困难并取得进步。在未来，我计划继续深入学习Spark和Spring Boot，扩展我的技术栈，提高自己的技能水平。我希望能够运用所学到的知识解决实际问题，并在项目中发挥作用。此外，我也希望能够不断拓宽自己的技术视野，学习其他相关的技术和框架，以便能够适应不同的项目需求。

资源推荐

资源详情

资源评论

收起资源包目录

基于Spark2.2的新闻网大数据实时分析系统设计与实现.zip （403个子文件）

.gitignore 301B

BigData_News_Project.iml 28KB

structured-streaming-demo.iml 28KB

flume-ng-hbase-sink.iml 14KB

hbase_flume.iml 14KB

BigData-News.iml 742B

main.iml 511B

KfkAsyncHbaseEventSerializer.java 6KB

ReadWriteLog.java 2KB

SimpleRowKeyGenerator.java 2KB

TestProducer.java 2KB

TestKafkaConsumer.java 1KB

README.md 16KB

README.md 6KB

MANIFEST.MF 7KB

Architecture.png 51KB

flume-hbase-kafka-conf.properties 2KB

flume-collect-conf.properties 719B

RedisSingle.scala 6KB

StructuredStreamingKafka.scala 2KB

JDBCSink.scala 2KB

StructuredStreamingOffset.scala 2KB

LoggerSimulation.scala 2KB

MySqlPool.scala 1KB

StreamingKafka10.scala 1KB

StreamingKafka8.scala 1KB

Test.scala 887B

Test1.scala 877B

MysqlSink.scala 718B

TestStructureNetwork.scala 703B

RedisWriteKafkaOffset.scala 690B

Constants.scala 116B

weblog-shell.sh 198B

flume-kfk-hb-start.sh 167B

flume-collect-start.sh 163B

kfk-test-consumer.sh 143B

classes.timestamp 1B

start-kafka-topic.txt 815B

split.txt 178B

workspace.xml 51KB

structured_streaming_demo_jar.xml 26KB

pom.xml 7KB

Maven__org_scala_lang_scala_library_2_11_8.xml 1KB

compiler.xml 928B

pom.xml 806B

Maven__org_apache_hadoop_hadoop_yarn_server_applicationhistoryservice_2_4_0.xml 783B

modules.xml 783B

Maven__org_glassfish_jersey_containers_jersey_container_servlet_core_2_22_2.xml 741B

Maven__org_apache_hadoop_hadoop_mapreduce_client_jobclient_test_jar_tests_2_4_0.xml 737B

Maven__org_apache_hadoop_hadoop_yarn_server_resourcemanager_2_4_0.xml 713B

Maven__org_apache_tephra_tephra_hbase_compat_1_1_0_9_0_incubating.xml 713B

Maven__org_apache_hadoop_hadoop_mapreduce_client_jobclient_2_4_0.xml 706B

Maven__org_apache_hadoop_hadoop_mapreduce_client_jobclient_2_6_0.xml 706B

Maven__org_glassfish_jersey_containers_jersey_container_servlet_2_22_2.xml 706B

Maven__org_apache_hbase_hbase_hadoop2_compat_test_jar_tests_0_98_2_hadoop2.xml 705B

Maven__org_apache_directory_server_apacheds_kerberos_codec_2_0_0_M15.xml 704B

Maven__org_apache_hbase_hbase_hadoop_compat_test_jar_tests_0_98_2_hadoop2.xml 698B

Maven__com_fasterxml_jackson_module_jackson_module_scala_2_11_2_6_5.xml 694B

Maven__org_glassfish_hk2_external_aopalliance_repackaged_2_4_0_b34.xml 693B

Maven__org_apache_hadoop_hadoop_mapreduce_client_shuffle_2_6_0.xml 692B

Maven__org_apache_hadoop_hadoop_mapreduce_client_shuffle_2_4_0.xml 692B

Maven__org_apache_twill_twill_discovery_core_0_6_0_incubating.xml 688B

Maven__org_apache_spark_spark_streaming_kafka_0_10_2_11_2_2_0.xml 688B

Maven__org_apache_spark_spark_streaming_flume_sink_2_11_2_2_0.xml 688B

Maven__com_fasterxml_jackson_module_jackson_module_paranamer_2_6_5.xml 687B

Maven__org_scala_lang_modules_scala_parser_combinators_2_11_1_0_1.xml 686B

Maven__org_apache_hadoop_hadoop_mapreduce_client_common_2_4_0.xml 685B

Maven__org_apache_hadoop_hadoop_yarn_server_nodemanager_2_4_0.xml 685B

Maven__org_apache_hadoop_hadoop_mapreduce_client_common_2_6_0.xml 685B

Maven__org_apache_twill_twill_discovery_api_0_6_0_incubating.xml 681B

Maven__org_apache_spark_spark_streaming_kafka_0_8_2_11_2_2_0.xml 681B

Maven__org_apache_hadoop_hadoop_yarn_server_tests_test_jar_tests_2_4_0.xml 674B

Maven__org_apache_hbase_hbase_hadoop2_compat_0_98_2_hadoop2.xml 674B

Maven__com_github_stephenc_findbugs_findbugs_annotations_1_3_9_1.xml 673B

Maven__org_apache_hadoop_hadoop_yarn_server_web_proxy_2_4_0.xml 671B

Maven__org_apache_hadoop_hadoop_mapreduce_client_core_2_4_0.xml 671B

Maven__org_apache_hadoop_hadoop_mapreduce_client_core_2_6_0.xml 671B

Maven__org_apache_hbase_hbase_hadoop_compat_0_98_2_hadoop2.xml 667B

Maven__org_apache_hadoop_hadoop_mapreduce_client_app_2_6_0.xml 664B

Maven__org_apache_hadoop_hadoop_mapreduce_client_app_2_4_0.xml 664B

Maven__org_apache_calcite_calcite_avatica_1_2_0_incubating.xml 661B

Maven__org_apache_hbase_hbase_testing_util_0_98_2_hadoop2.xml 660B

Maven__org_apache_hadoop_hadoop_mapreduce_client_hs_2_4_0.xml 657B

Maven__org_apache_calcite_calcite_linq4j_1_2_0_incubating.xml 654B

Maven__org_glassfish_jersey_bundles_repackaged_jersey_guava_2_22_2.xml 654B

Maven__org_apache_spark_spark_network_shuffle_2_11_2_2_0.xml 653B

Maven__org_apache_spark_spark_streaming_flume_2_11_2_2_0.xml 653B

Maven__org_apache_hbase_hbase_prefix_tree_0_98_2_hadoop2.xml 653B

Maven__org_apache_twill_twill_zookeeper_0_6_0_incubating.xml 653B

Maven__org_apache_spark_spark_streaming_kafka_2_11_1_6_2.xml 653B

Maven__org_apache_hadoop_hadoop_yarn_server_common_2_4_0.xml 650B

Maven__org_apache_hadoop_hadoop_yarn_server_common_2_6_0.xml 650B

Maven__org_apache_hbase_hbase_common_test_jar_tests_0_98_2_hadoop2.xml 649B

Maven__org_apache_spark_spark_sql_kafka_0_10_2_11_2_2_0.xml 646B

Maven__org_apache_spark_spark_network_common_2_11_2_2_0.xml 646B

Maven__com_google_inject_extensions_guice_assistedinject_3_0.xml 645B

Maven__com_fasterxml_jackson_core_jackson_annotations_2_6_5.xml 644B

Maven__org_spark_project_hive_hive_metastore_1_2_1_spark2.xml 642B

Maven__com_github_stephenc_high_scale_lib_high_scale_lib_1_1_1.xml 641B

共 403 条

## 基于Spark2.2新闻网大数据实时系统项目 ### 1. 说明 [项目代码](https://github.com/pkeropen/BigData-News)是参考[基于Spark2.x新闻网大数据实时分析可视化系统项目](https://blog.csdn.net/u011254180/article/details/80172452) 或者[大数据项目实战之新闻话题的实时统计分析](http://www.raincent.com/content-10-11077-1.html)，谢谢作者分享心得！ ### 2.环境配置 ##### 2.1 CDH-5.14.2 (安装步骤可参考[地址](https://blog.51cto.com/kaliarch/2122467))，关于版本是按实际操作， CDH的版本兼容性很好。 |Service | hadoop01 | hadoop02 | hadoop03 |:----------|:----------|:----------|:--------- |HDFS | NameNode | DateNode | DataNode |HBase | HMaster、HRegionServer | HRegionServer| HRegionServer |Hive | Hive |Flume | Flume | Flume | Flume |Kafka | Kafka |YARN | ResourceManager | NodeManager | NodeManager |Oozie | Oozie |Hue | Hue |Spark2 | Spark |Zookeeper | Zookeeper |MySQL | MySQL ##### 2.2 主机配置 ``` 1.Hadoop01, 4核16G , centos7.2 2.Hadoop02, 2核8G, centos7.2 3.Haddop03, 2核8G, centos7.2 ``` ##### 2.3 项目架构 ![项目架构图](https://github.com/pkeropen/BigData-News/blob/master/pic/Architecture.png) ##### 2.4 安装依赖包 ``` # yum -y install psmisc MySQL-python at bc bind-libs bind-utils cups-client cups-libs cyrus-sasl-gssapi cyrus-sasl-plain ed fuse fuse-libs httpd httpd-tools keyutils-libs-devel krb5-devel libcom_err-devel libselinux-devel libsepol-devel libverto-devel mailcap noarch mailx mod_ssl openssl-devel pcre-devel postgresql-libs python-psycopg2 redhat-lsb-core redhat-lsb-submod-security x86_64 spax time zlib-devel wget psmisc # chmod +x /etc/rc.d/rc.local # echo "echo 0 > /proc/sys/vm/swappiness" >>/etc/rc.d/rc.local # echo "echo never > /sys/kernel/mm/transparent_hugepage/defrag" >>/etc/rc.d/rc.local # echo 0 > /proc/sys/vm/swappiness # echo never > /sys/kernel/mm/transparent_hugepage/defrag # yum -y install rpcbind # systemctl start rpcbind # echo "systemctl start rpcbind" >> /etc/rc.d/rc.local 安装perl支持 yum install perl* (yum安装perl相关支持) yum install cpan (perl需要的程序库，需要cpan的支持，详细自行百度) ``` ### 3. 编写数据生成模拟程序 ##### 3.1 模拟从nginx生成日志的log，数据来源（搜狗实验室[下载](https://www.sogou.com/labs/resource/q.php)用户查询日志，搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。） ##### 3.2 数据清洗 ##### 数据格式为:访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL其中，用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值，即同一次使用浏览器输入的不同查询对应同一个用户ID 1. 将文件中的tab更换成逗号 ``` cat weblog.log|tr "\t" "," > weblog2.log ``` 2. 将文件中的空格更换成逗号 ``` cat weblog2.log|tr " " "," > weblog.log ``` ##### 3.3 主要代码段 ``` public static void readFileByLines(String fileName) { FileInputStream fis = null; InputStreamReader isr = null; BufferedReader br = null; String tempString = null; try { System.out.println("以行为单位读取文件内容，一次读一整行："); fis = new FileInputStream(fileName); //// 从文件系统中的某个文件中获取字节 isr = new InputStreamReader(fis, "GBK"); br = new BufferedReader(isr); int count = 0; while ((tempString = br.readLine()) != null) { count++; //显示行号 Thread.sleep(300); String str = new String(tempString.getBytes("GBK"), "UTF8"); System.out.println("row:"+count+">>>>>>>>"+str); writeFile(writeFileName, str); } isr.close(); } catch (IOException e) { e.printStackTrace(); } catch (InterruptedException e) { e.printStackTrace(); } finally { if (isr != null) { try { isr.close(); } catch (IOException e1) { } } } } ``` #### 3.4 打包成weblogs.jar,[打包步骤](https://blog.csdn.net/xuemengrui12/article/details/74984731), 写Shell脚本weblog-shell.sh ``` #/bin/bash echo "start log......" #第一个参数是原日志文件，第二个参数是日志生成输出文件 java -jar /opt/jars/weblogs.jar /opt/datas/weblog.log /opt/datas/weblog-flume.log ``` #### 3.5 修改weblog-shell.sh可执行权限 ``` chmod 777 weblog-shell.sh ``` ### 4. Flume数据采集配置 ##### 4.1 将hadoop02, hadoop03中Flume数据采集到hadoop01中，而且hadoop02和hadoop03的flume配置文件大致相同 ``` flume-collect-conf.properties # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type =exec a1.sources.r1.command= tail -F /opt/datas/weblog-flume.log # Describe the sink a1.sinks.k1.type = avro a1.sinks.k1.hostname = hadoop01 a1.sinks.k1.port = 5555 # Use a channel which buffers events in memory a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 1000 a1.channels.c1.keep-alive = 5 # Bind the source and sink to the channel a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1 ``` ##### 4.2 hadoop01通过flume接收hadoop02与hadoop03中flume传来的数据，并将其分别发送至hbase与kafka中，配置内容如下: ``` a1.sources = r1 a1.channels = kafkaC hbaseC a1.sinks = kafkaSink hbaseSink a1.sources.r1.type = avro a1.sources.r1.channels = hbaseC kafkaC a1.sources.r1.bind = hadoop01 a1.sources.r1.port = 5555 a1.sources.r1.threads = 5 #****************************flume + hbase****************************** a1.channels.hbaseC.type = memory a1.channels.hbaseC.capacity = 10000 a1.channels.hbaseC.transactionCapacity = 10000 a1.channels.hbaseC.keep-alive = 20 a1.sinks.hbaseSink.type = asynchbase ## HBase表名 a1.sinks.hbaseSink.table = weblogs ## HBase表的列族名称 a1.sinks.hbaseSink.columnFamily = info ## 自定义异步写入Hbase a1.sinks.hbaseSink.serializer = main.hbase.KfkAsyncHbaseEventSerializer a1.sinks.hbaseSink.channel = hbaseC ## Hbase表的列名称 a1.sinks.hbaseSink.serializer.payloadColumn = datetime,userid,searchname,retorder,cliorder,cliurl #****************************flume + kafka****************************** a1.channels.kafkaC.type = memory a1.channels.kafkaC.capacity = 10000 a1.channels.kafkaC.transactionCapacity = 10000 a1.channels.kafkaC.keep-alive = 20 a1.sinks.kafkaSink.channel = kafkaC a1.sinks.kafkaSink.type = org.apache.flume.sink.kafka.KafkaSink a1.sinks.kafkaSink.brokerList = hadoop01:9092 a1.sinks.kafkaSink.topic = webCount a1.sinks.kafkaSink.zookeeperConnect = hadoop01:2181 a1.sinks.kafkaSink.requiredAcks = 1 a1.sinks.kafkaSink.batchSize = 1 a1.sinks.kafkaSink.serializer.class = kafka.serializer.StringEncoder ``` ##### 4.3 配置Flume执行Shell脚本 ``` flume-collect-start.sh 分发到hadoop02，hadoop03 ,/opt/shell/ #/bin/bash echo "flume-collect start ......" sh /bin/flume-ng agent --conf c

评论收藏

内容反馈

版权申诉