没有合适的资源?快使用搜索试试~ 我知道了~
dataFusion:非结构化和结构化数据集之间的匹配
共195个文件
scala:51个
md:24个
xml:20个
需积分: 10 0 下载量 93 浏览量
2021-04-30
09:01:26
上传
评论
收藏 37.11MB ZIP 举报
温馨提示
dataFusion 介绍 目的是通过将非结构化数据与结构化数据融合来提取有用的信息。 这个项目: 提取文本和元数据,并使用从多种非结构化文档格式(PDF,Word,Excel等)执行语言检测。 处理包括嵌入式文档,在图像的情况下,涉及使用 获取文本。 执行(NER); 提供对文档中已知实体的批量搜索,报告每个匹配项的位置; 建立实体的网络,这些实体在文档中紧密并排在一起,因此可能以某种方式相关联; 为上述和多线程命令行界面提供Web服务(访问相同功能的两种选择)。 下图描述了处理步骤和数据流。 请参阅,以获取每一步数据的详细信息。 项目结构 顶层目录为每个中的子项目提供构建: dataFusion-$name库的dataFusion-$name ; 和 Web服务的dataFusion-$name-service 。 该库项目的dataFusion- {tika,n
资源详情
资源评论
资源推荐
收起资源包目录
dataFusion:非结构化和结构化数据集之间的匹配 (195个子文件)
en-ner-organization.bin 5.05MB
en-ner-person.bin 4.97MB
en-ner-location.bin 4.87MB
en-ner-date.bin 4.8MB
en-ner-money.bin 4.58MB
en-ner-percentage.bin 4.51MB
en-ner-time.bin 4.51MB
en-token.bin 430KB
en-sent.bin 96KB
setenv.centos 1004B
application.conf 553B
application.conf 379B
application.conf 304B
application.conf 219B
application.conf 217B
application.conf 104B
application.conf 100B
application.conf 98B
application.conf 96B
application.conf 93B
index.css 2KB
graph.css 36B
Thumbs.db 35KB
dfus 1KB
doc002.doc 30KB
doc001.doc 26KB
Dockerfile-centos 681B
Dockerfile-ubuntu 898B
.dockerignore 36B
image002.gif 5KB
.gitignore 880B
index.html 6KB
html001.html 5KB
index.html 3KB
javax.imageio.spi.ImageReaderSpi 840B
javax.imageio.spi.ImageWriterSpi 831B
javamitie.jar 16KB
TesseractOCRParser.java 28KB
image003.jpeg 121KB
d3.v4.min.js 210KB
d3.v4.min.js 210KB
graph.js 6KB
form.js 6KB
network.js 5KB
bubble.js 5KB
d3-selection-multi.v1.min.js 2KB
index.js 1KB
data.json 9KB
edge.json 730B
node.json 477B
3rd-party-licenses.md 21KB
3rd-party-licenses.md 16KB
README.md 11KB
3rd-party-licenses.md 10KB
README.md 9KB
3rd-party-licenses.md 9KB
3rd-party-licenses.md 8KB
3rd-party-licenses.md 8KB
README.md 7KB
3rd-party-licenses.md 5KB
README.md 5KB
README.md 4KB
3rd-party-licenses.md 4KB
3rd-party-licenses.md 4KB
3rd-party-licenses.md 3KB
3rd-party-licenses.md 2KB
README.md 1KB
README.md 945B
README.md 755B
README.md 619B
README.md 480B
README.md 395B
README.md 359B
README.md 292B
Email001.msg 118KB
PDF004.pdf 483KB
PDF003.pdf 169KB
PDF001.pdf 167KB
PDF002.pdf 92KB
network.png 218KB
image004.png 169KB
datafusion.png 128KB
JSONFormatsUML.png 113KB
csiro-black.png 5KB
data61-logo.png 4KB
image001.png 659B
AAA.pptx 80KB
PDFParser.properties 1KB
TesseractOCRConfig.properties 1KB
build.properties 20B
rotation.py 2KB
rtf001.rtf 34KB
build.sbt 5KB
build.sbt 2KB
build.sbt 783B
build.sbt 663B
build.sbt 561B
build.sbt 550B
build.sbt 502B
build.sbt 502B
共 195 条
- 1
- 2
徐校长
- 粉丝: 706
- 资源: 4614
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 人、垃圾、非垃圾检测18-YOLO(v5至v11)、COCO、CreateML、Paligemma、TFRecord、VOC数据集合集.rar
- 金智维RPA server安装包
- 二维码图形检测6-YOLO(v5至v9)、COCO、CreateML、Darknet、Paligemma、TFRecord数据集合集.rar
- Matlab绘制绚丽烟花动画迎新年
- 厚壁圆筒弹性应力计算,过盈干涉量计算
- 网络实践11111111111111
- GO编写图片上传代码.txt
- LabVIEW采集摄像头数据,实现图像数据存储和浏览
- 几种不同方式生成音乐的 Python 源码示例.txt
- python红包打开后出现烟花代码.txt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0