## 唐诗分析程序
### 1. 简介
唐诗分析程序主要是通过抓取互联网上的唐诗,然后进行数据的清洗,存储,数据分析,输出报告。
### 2. 背景
随着Java的发展,提供了流式处理(Stream)数据的能力,以及数据挖掘也是近年来比较热门的技术职业发展方向。通过初步学习,研究简单的数据采集,清洗,存储和分析,了解整个数据挖掘的基本流程。
### 3. 意义
+ 了解数据挖掘的基本流程
+ 熟悉数据分析方法
+ 锻炼应用技术解决问题的能力
### 3. 目标数据
数据采集主要来自:[古诗文网](https://www.gushiwen.org/)
### 4. 功能
+ 数据采集,清洗,存储
+ 数据分析,可视化展示
### 5. 技术
+ Stream流式处理
+ 文本分词和解决(`ansj`)
+ 多线程
+ 网络爬虫(`htmlunit`)
+ 数据库和JDBC编程
+ 数据可视化(`HTML/CSS/JavaScript`, `echarts`,`jQuery`)
+ SpringBoot快速构建web应用以及管理对象与配置信息
### 6. 实现
![](./report/tangshi_flow.png)
### 7. 分析结果
+ 唐诗创作数量排行
![](./report/report_1.png)
+ 唐诗用词云图
![](./report/report_2.png)
### 8. 部署运行
+ 打包
`mvn package -Dmaven.test.skip=true` 输出可执行程序`target/tangshi-analyze-1.0.0.jar`
+ 配置
`application.properties`
+ 运行-不启动爬虫
`java -jar tangshi-analyze-1.0.0.jar`
+ 运行-启动爬虫
`java -jar tangshi-analyze-1.0.0.jar crawler-run`
### 9. 参与开发
+ 下载源码
- `git clone https://gitee.com/secondriver/tangshi-analyze.git`
- `cd tangshi-analyze`
+ 导入数据库
- `mysql -u 数据库用户名 -p`
- `source tangshi\tangshi.sql`
+ 配置修改
- `src\main\resources\application.properties`
- `spring.datasource.username=数据库用户名`
- `spring.datasource.password=数据库密码`
+ 开发功能
- `src\main\java\com.bittech.tangshianalyze.TangshiAnalyzeApplication`程序入口
- `src\main\java\com.bittech.tangshianalyze.crawler`爬虫部分
- `src\main\java\com.bittech.tangshianalyze.analyze`数据分析
- `src\main\java\com.bittech.tangshianalyze.web`Web接口
没有合适的资源?快使用搜索试试~ 我知道了~
资源详情
资源评论
资源推荐
收起资源包目录
tangshi-analyze.rar (34个子文件)
pom.xml 3KB
tangshi
tangshi.sql 247KB
src
main
resources
application.properties 525B
static
assets
css
base.css 0B
js
jquery-3.3.1.min.js 85KB
echarts-wordcloud.min.js 125KB
echarts.min.js 727KB
api.js 3KB
echarts-gl.min.js 657KB
index.html 1000B
db.migrate
V1__Init_Database.sql 383B
java
com
bittech
tangshianalyze
config
CrawlerProperties.java 457B
crawler
pipeline
ConsolePipeline.java 412B
DatabasePipeline.java 2KB
Pipeline.java 249B
common
Page.java 1KB
DataSet.java 536B
prase
DocumentParse.java 1KB
Parse.java 232B
DataParse.java 2KB
Crawler.java 5KB
web
AnalyzeController.java 920B
TangshiAnalyzeApplication.java 2KB
analyze
dao
AnalyzeDaoImpl.java 1KB
AnalyzeDao.java 272B
service
AnalyzeServiceImpl.java 3KB
AnalyzeService.java 507B
entity
PoetryInfo.java 758B
report
tangshi_flow.png 82KB
report_1.png 33KB
report_2.png 145KB
.gitignore 24B
tangshi-analyze.iml 11KB
README.md 2KB
共 34 条
- 1
luozhonghua2000
- 粉丝: 7660
- 资源: 20
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0