没有合适的资源?快使用搜索试试~ 我知道了~
knowledge-distillation:知识图的站点爬虫
共349个文件
java:257个
xml:21个
properties:15个
需积分: 11 0 下载量 166 浏览量
2021-05-08
17:15:42
上传
评论
收藏 65.44MB ZIP 举报
温馨提示
1. knowledge-distillation是什么? 在很多垂直领域,都有搜索和与情分析的需求。虽然有很多开源的爬虫,搜索引擎,数据抽取,自然语言处理,文本挖掘的工具,但是没有一个完整的开源项目提供简单可用的系统。 knowledge-distillation的目标就是提供一个简单但是易于扩展的这样一个系统。不过目前knowledge-distillation只是提供了一个网站的定向抓取和抽取的工具。 2. 网站定向(SiteCrawler)抓取 要实现上面的目标,第一步就是获取数据。 和通用搜索引擎不同,我们的定向抓取是遵循一个有向无环图(也就是树)的抓取路径,这样的抓取效率更高效,可以跳过不关注的网页。而且可以自定义更新策略,比如列表页的刷新频率是一天,而内容页不需要刷新。 另外一个特点就是抓取和抽取同时进行,为了节省空间,我们可以不存储原始网页,而只是存储抽取出来感兴趣的属性,
资源推荐
资源详情
资源评论
收起资源包目录
knowledge-distillation:知识图的站点爬虫 (349个子文件)
1471507162405.txt.bak 0B
ViewWebPageMysql.class 9KB
ViewWebPageHbase.class 9KB
ConfigReader.class 2KB
conf 7B
conf 4B
conf 4B
.gitignore 12B
.gitignore 6B
mqtool-1.0-jar-with-dependencies.jar 18.61MB
ifeng_crawler-1.0-jar-with-dependencies.jar 53B
mqtool-1.0-jar-with-dependencies.jar 46B
SgdCrf.java 63KB
HttpClientFetcher.java 36KB
StandardTokenizerImpl.java 36KB
MysqlArchiver.java 34KB
Bytes.java 30KB
SCHbaseTool.java 25KB
DoubleArrayTrie.java 20KB
ClassicTokenizerImpl.java 18KB
UnicodeUtil.java 18KB
ProxyManager.java 15KB
ArrayUtil.java 14KB
HbaseTool.java 14KB
AttributeSource.java 13KB
CRFExplainer.java 13KB
BasicCrawlerWithFileFrontier.java 12KB
UrlPatternExtractor.java 11KB
FileUnfinishedScheduler.java 10KB
ViewWebPageHbase.java 10KB
ViewWebPageMysql.java 10KB
NekoHtmlParser.java 9KB
ChineseSegmenter.java 8KB
UnfinishedScheduler2.java 8KB
UnfinishedScheduler.java 8KB
CharTermAttributeImpl.java 8KB
BytesRef.java 8KB
HornetQTools.java 8KB
HbaseArchiver.java 8KB
BasicCrawlerWithFileFrontierHbaseArchiver.java 8KB
PreprocessArticle.java 7KB
BasicInfoExtractor.java 7KB
ActiveMqTools.java 7KB
UrlPatternExtractor4Hbase.java 7KB
PoolManager.java 7KB
Producer.java 7KB
XmlParser.java 7KB
ListPageExtractor.java 7KB
AnchorParser.java 6KB
MysqlInit.java 6KB
FileTools.java 6KB
ArticleSearcher.java 6KB
FileTools.java 6KB
ReviewScheduler.java 6KB
Driver.java 6KB
UrlUtils.java 6KB
Level0Extractor.java 6KB
TestHbaseTool.java 6KB
TestHttpClientFetcher.java 5KB
BasicCrawler.java 5KB
MysqlArchiver.java 5KB
StandardTokenizer.java 5KB
HornetQSender.java 5KB
HighFreqRangeCharacterMapping.java 5KB
ProxyManager2.java 5KB
PriorityQueue.java 5KB
FileFrontier.java 5KB
ArticleIndexer.java 5KB
SorterTemplate.java 5KB
XmlParser.java 4KB
ActiveMqSender.java 4KB
CharsRef.java 4KB
WebPage.java 4KB
WordSeg.java 4KB
HornetQReceiver.java 4KB
Template.java 4KB
VIntAndUtf8.java 4KB
RMMSeg.java 4KB
Block.java 4KB
CharsetDetector.java 4KB
ActiveMqReceiver.java 4KB
VIntEncoder.java 4KB
ProxyDiscover.java 4KB
DumpReviewUrl.java 3KB
MMSeg.java 3KB
Utf8CharacterMapping.java 3KB
IntsRef.java 3KB
DumpHtml.java 3KB
TrainingWeights.java 3KB
ImportReviewUrl.java 3KB
IfengReviewCrawler.java 3KB
IfengReviewCrawler.java 3KB
DBUtils.java 3KB
Constants.java 3KB
BESB1B2MTagConvertor.java 3KB
ActiveMqTopicReceiver.java 3KB
AttributeImpl.java 3KB
ActiveMqTopicSender.java 3KB
Writer.java 3KB
CompactedTroveFeatureDict.java 3KB
共 349 条
- 1
- 2
- 3
- 4
资源评论
Hsmiau
- 粉丝: 30
- 资源: 4653
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- mysql 5.7.15 安装配置方法图文教程.zip
- 基于springboot websocket 定制,主要完成的功能是WebSocket的状态管理,具备单机和集群能力.zip
- SpringBoot框架示例:整合SpringMVC、MyBatis、安全框架Shiro、页面布局框架Sitemesh.zip
- SpringBoot集成thumbnailator图片压缩.zip
- SpringBoot发送邮件神器,只需简单配置即可,支持自定义模板.zip
- SpringBoot的定时调用的加强工具,实现定时任务动态管理,后续加入可视化管理、调度日志、集群任务统一管理.zip
- springboot-starter-gemini 一个基于gemini提供的springboot sdk.zip
- springboot+vue实现简单的前后端分离.zip
- Springboot、SpringCloud开发脚手架,集合各种常用框架使用案例.zip
- SpringBoot 全家桶 - 本项目对目前Web开发中常用的各个技术,通过和SpringBoot的集成.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功