# 数据虫巢官网源码
>> 范围包括: <a href="http://www.mite8.com" target="_blank">数据虫巢官网(www.mite8.com)</a>数据可视化站点源码,基础源数据抓取代码,以及重构的分词逻辑。
## 1、项目说明
>> 数据虫巢公众号(ID:blogchong),欢迎关注!
>> 联系邮箱:blogchong@qq.com
## 2、开源系列教程
* <a href="https://github.com/blogchong/mite8-com/blob/master/doc/mite-com%E9%A1%B9%E7%9B%AE%E8%AF%B4%E6%98%8E.docx">《mite-com项目说明.doc》//数据虫巢读者群群友整理的 2017-03-14</a>
* <a href="https://mp.weixin.qq.com/s/R6wymwBt4-KBUcPMAM6vDg">如何打造类似数据虫巢官网系列教程之三:网站架设 2017-03-07</a>
* <a href="http://mp.weixin.qq.com/s/k6f1l6kd7EWAO4ziAgK4Tg">如何打造类似数据虫巢官网系列教程之二:爬虫是怎么炼成的 2017-02-16</a>
* <a href="http://mp.weixin.qq.com/s/ij1m7AegCo5I2KyUAHCURg">如何打造类似数据虫巢官网系列教程之一:介绍以及准备工作 2017-02-14</a>
## 3、更新日志
>> 2017-04-27 补充了电影分析部分的数据,以及增加了开源项目的支持入口,哈哈,强烈建议拉到底部。
>> 2017-03-14 数据虫巢读者群一朋友,撰写了本地跑起这个项目的文档,见/doc/mite-com项目说明.doc
>> 2017-03-07 添加了外部依赖资源,位置在根目录下的myres,以及网站假设教程《如何打造类似数据虫巢官网系列教程之三:网站架设》,完整指导如何通过源码快速搭建起网站。
>> 2017-03-01 上传虫巢网站对应的数据表,只要把库建上,把表导入,设置一下配置文件,包括端口啊,数据库连接啊,跑动这个Application启动类,访问Host,就可以看到你的网站啦,不需要什么鬼tomcat。
>> 2017-02-20 持续更新《如何打造类似数据虫巢官网系列教程》,目前已经到二。
>> 2017-02-15 项目开源,站点源码更新。
## 4、谢谢支持
>> PS:如果这个开源项目对你有所帮助,欢迎友情支助,虫巢将继续开源更多对大家有用的项目。
金额随意,你的支持是虫巢努力的动力,哈哈~~
<img src="https://github.com/blogchong/mite8-com/blob/master/image/wx.jpg?raw=true" width="180" height="230" /><-或者-><img src="https://github.com/blogchong/mite8-com/blob/master/image/zfb.jpg?raw=true" width="154" height="230" />
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
数据虫巢官网(mite8.com)站点源码,包括站点基础数据爬取代码,以及重构的NLP分词工具等。.zip (168个子文件)
all.css 44KB
emotion.dic 828KB
emotion.dic 294KB
default.dic 42KB
dn_house.dic 485B
movie.dic 254B
movie.dic 176B
dn_house.dic 116B
default.dic 101B
default.dic 32B
df.dic 16B
movie.dic 13B
num.dic 6B
default.dic 6B
default.dic 0B
mite-com项目说明.docx 2.33MB
.gitignore 52B
favicon.ico 9KB
GovJxGzDnService.java 37KB
WpweixinService.java 26KB
AnalysisList.java 15KB
OptJDcomments.java 15KB
OptMovie.java 14KB
LoadDynamicDictionary.java 13KB
OtherService.java 13KB
LoadDictionary.java 11KB
AnalysisListShort.java 9KB
MovieTagOffLineService.java 9KB
CheckAndStore.java 8KB
BigdataService.java 8KB
CheckAndStore.java 8KB
SeeTopicTFIDF.java 8KB
SeeDicAnalysis.java 8KB
AnalysisDetail.java 7KB
AnalysisList.java 7KB
AnalysisDetail.java 7KB
AnalysisDetail.java 7KB
OptPolitics.java 6KB
OptHire.java 6KB
DataTopicService.java 6KB
OptResume.java 6KB
OptPraise.java 6KB
UpdateDFService.java 6KB
MiteGovJxGzDnJspController.java 5KB
CheckAndStore.java 5KB
MapSort.java 5KB
CheckAndStore.java 5KB
SegService.java 5KB
AnalysisList.java 4KB
AnalysisList.java 4KB
CollectionsSort.java 4KB
TransferTime.java 4KB
SeeTopicIDF.java 4KB
JDCommentsService.java 4KB
CheckAndStore.java 3KB
MovieUtils.java 3KB
AnalysisList.java 3KB
LoadEmotionDictionary.java 3KB
GovFinanceEntity.java 3KB
MiteInsightController.java 3KB
MiteOtherController.java 3KB
SegController.java 3KB
ResultFilter.java 3KB
LoadStopWordDic.java 2KB
MiteGovJxGzDnJsonController.java 2KB
MiteGovUtils.java 2KB
TypeService.java 2KB
JudgeWordDic.java 2KB
MovieController.java 2KB
MergeWordDic.java 2KB
UserMapForest.java 2KB
DefineOut.java 1KB
WordNatureFilter.java 1KB
MiteOtherJsonController.java 1KB
AnsjUtils.java 1KB
JDController.java 1KB
GovEmotionEntity.java 1KB
PraiseController.java 1KB
PoliticsController.java 1KB
ResumeController.java 1KB
HireController.java 1KB
MiteInsightJsonController.java 1KB
WechatController.java 1KB
SegBrandSpeOpt.java 1KB
DataTopicEntity.java 1KB
DefineDn.java 993B
PageUtils.java 955B
GetAddrHostUtils.java 841B
CutDoubleValue.java 831B
EmotionEntity.java 830B
MyWebAppConfigurer.java 806B
AnalysisPoliticsService.java 761B
HireService.java 749B
AskPoliticsService.java 748B
PublicPraiseService.java 742B
ResumeService.java 707B
MovieService.java 649B
CleanStr.java 540B
Application.java 384B
nyBg.jpg 240KB
共 168 条
- 1
- 2
资源评论
JJJ69
- 粉丝: 5967
- 资源: 5593
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功