#Paoding分词器基于Lucene4.x
原项目见 https://code.google.com/p/paoding/
#Paoding Analysis摘要
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。
采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析
用心的贡献,极其能鼓励人
----------------------!
分词示例如下:
TokenStream ts = analyzer.tokenStream("text", new StringReader(text));
//添加工具类 注意:以下这些与之前lucene2.x版本不同的地方
CharTermAttribute offAtt = (CharTermAttribute) ts.addAttribute(CharTermAttribute.class);
// 循环打印出分词的结果,及分词出现的位置
while (ts.incrementToken()) {
System.out.print(offAtt.toString() + "\t");
}
#编译说明
项目默认可以使用Maven直接编译.
如果使用Ant,可把依赖的lib放入 {pro_workspace}/target/dependency/ 下. 然后使用ant可以直接编译.
编译的结果存放在 {pro_workspace}/target/dist/{version}/ 下
可使用Maven的 copy-dependencies 命令直接copy依赖到{pro_workspace}/target/dependency/,然后使用ant编译
mvn dependency:copy-dependencies
#Solr4.x使用说明
Solr 4.x以上可以直接配置Lucene的Analyzer.
配置如:
<fieldType name="text_general" class="solr.TextField">
<analyzer class="net.paoding.analysis.analyzer.PaodingAnalyzer" />
</fieldType>
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。
资源推荐
资源详情
资源评论
收起资源包目录
zhzhenqin-paoding-analysis-master.zip (97个子文件)
paoding-analysis
pom.xml 9KB
dic
org-domestic.dic 0B
x-noise-charactor.dic 502B
x-for-combinatorics.dic 140B
x-confucian-family-name.dic 2KB
festival.dic 2KB
nation.dic 481B
name-foreign.dic 91B
x-unit.dic 912B
star-domestic.dic 346B
locale
fuzhou.dic 25KB
xiamen.dic 9B
beijing.dic 170B
quanzhou.dic 34B
readme.txt 30B
t-base.dic 2.14MB
x-noise-word.dic 521B
company.dic 242B
paoding-dic-names.properties 715B
star-foreign.dic 17B
contemporary-words.dic 37B
language.dic 126B
org-foreign.dic 189B
appellation.dic 229B
administrative.dic 197B
division
korea.dic 0B
oceania.dic 0B
america.dic 0B
japan.dic 0B
china.dic 64KB
europe.dic 0B
taiwan.dic 0B
readme.txt 76B
africa.dic 0B
comupter-science.dic 21B
build.xml 4KB
dist
paoding-analysis-2.0.4.jar 112KB
src
test
java
net
paoding
analysis
t
SplitTest.java 1KB
AnalysisCompare.java 1KB
InMemoryShortExample.java 3KB
main
resources
paoding-knives.properties 208B
paoding-analysis.properties 181B
paoding-dic-home.properties 438B
paoding-analyzer.properties 382B
paoding-knives-user.properties 253B
paoding-analysis-default.properties 213B
java
net
paoding
analysis
Constants.java 5KB
exception
PaodingAnalysisException.java 1KB
analyzer
PaodingAnalyzerBean.java 4KB
PaodingTokenizer.java 6KB
PaodingAnalyzer.java 4KB
TokenCollector.java 967B
estimate
TryPaodingAnalyzer.java 10KB
Estimate.java 5KB
impl
MostWordsModeDictionariesCompiler.java 9KB
SortingDictionariesCompiler.java 7KB
MostWordsTokenCollector.java 3KB
MaxWordLengthTokenCollector.java 2KB
CompiledFileDictionaries.java 9KB
dictionary
Dictionary.java 2KB
HashBinaryDictionary.java 6KB
support
detection
ExtensionFileFilter.java 1KB
Difference.java 3KB
Node.java 2KB
Snapshot.java 7KB
DifferenceListener.java 852B
Detector.java 3KB
filewords
SimpleReadListener.java 3KB
SimpleReadListener2.java 2KB
ReadListener.java 906B
FileWordsReader.java 4KB
Hit.java 5KB
BinaryDictionary.java 3KB
DictionaryDelegate.java 1KB
Word.java 2KB
ext
PaodingAnalyzerListener.java 567B
knife
Knife.java 6KB
CharSet.java 2KB
CJKKnife.java 17KB
FileDictionaries.java 14KB
NumberKnife.java 5KB
SmartKnifeBox.java 947B
Paoding.java 1KB
KnifeBox.java 2KB
Dictionaries.java 2KB
DictionariesCompiler.java 1KB
DictionariesWare.java 826B
PaodingMaker.java 22KB
Collector.java 2KB
FileDictionariesDifferenceListener.java 2KB
CombinatoricsKnife.java 10KB
Beef.java 4KB
LetterKnife.java 1KB
CollectorStdoutImpl.java 1KB
FakeKnife.java 2KB
.gitignore 74B
README.md 2KB
共 97 条
- 1
资源评论
朱moyimi
- 粉丝: 61
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功