========
DUKE
========
Duke is a fast deduplication and record linkage engine written in
Java, based on Lucene. No documentation is included in the
distribution. To see how to use it, see
http://code.google.com/p/duke/wiki/GettingStarted
instead.
You may also want to look at the examples in doc/example-data,
particularly dogfood.xml and countries.xml.
For a description of what's new in release 0.4, see
http://code.google.com/p/duke/wiki/ReleaseNotes
--- EXAMPLES
In the doc/examples directory are two examples. One finding duplicates
and one doing record linkage.
dogfood.ntriples contains data about papers presented at Semantic Web
conferences, with some inadvertent duplicates. Running
java no.priv.garshol.duke.Duke --testdebug --testfile=dogfood-test.txt dogfood-sparql.xml
shows the results of running deduplication.
countries-mondial.csv and countries-dbpedia.csv both contain basic
data about countries. Running countries.xml makes Duke pair each
country from one file with the corresponding country in the other.
Run:
java no.priv.garshol.duke.Duke --testdebug --testfile=countries-test.txt countries.xml
没有合适的资源?快使用搜索试试~ 我知道了~
小程序 重复数据删除 Duke(源码).zip
共17个文件
xml:4个
jar:4个
txt:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 43 浏览量
2023-02-03
13:34:11
上传
评论
收藏 5.02MB ZIP 举报
温馨提示
免责声明:资料部分来源于合法的互联网渠道收集和整理,部分自己学习积累成果,供大家学习参考与交流。收取的费用仅用于收集和整理资料耗费时间的酬劳。 本人尊重原创作者或出版方,资料版权归原作者或出版方所有,本人不对所涉及的版权问题或内容负法律责任。如有侵权,请举报或通知本人删除。
资源推荐
资源详情
资源评论
收起资源包目录
小程序 重复数据删除 Duke(源码).zip (17个子文件)
duke-0.6
duke-0.6.jar 181KB
duke-0.6-sources.jar 122KB
duke-0.6-javadoc.jar 576KB
doc
example-data
dogfood-test.sh 83B
countries.xml 3KB
dogfood.xml 2KB
dogfood-test.txt 10KB
countries-mondial.csv 9KB
countries-test.txt.orig 11KB
deichmann.xml 5KB
dogfood.ntriples 28.52MB
countries-test.txt 11KB
dogfood-sparql.xml 2KB
countries.xml.orig 3KB
countries-dbpedia.csv 22KB
README.txt 1KB
lucene-core-3.6.1.jar 1.47MB
共 17 条
- 1
资源评论
大富大贵7
- 粉丝: 317
- 资源: 8869
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功