没有合适的资源?快使用搜索试试~ 我知道了~
nlp_test:词和句子边界标记化的实现。 这是作为自然语言处理中的编程练习完成的
共47个文件
java:25个
xml:12个
txt:3个
需积分: 10 0 下载量 57 浏览量
2021-06-11
09:25:22
上传
评论
收藏 3.16MB ZIP 举报
温馨提示
nlp_test 词和句子边界标记化的实现。 这是作为自然语言处理中的编程练习完成的。 虽然句子边界检测在大多数情况下被认为是 NLP 文献中已解决的问题,但它仍然存在一些艰巨的挑战。 它本质上归结为检测句点是否标记句子边界(有时仅空格)标记句子边界。 所有句号都不会用英语标记句子边界,因为句号有多种拼写用法(例如缩写、首字母缩写、小数点、省略号等)。大多数高级算法执行单词和标点符号的第一遍标记化,然后通过使用注释句子边界一些预训练二元分类器之王。 分类器尝试学习用于做出此决定的正字法证据。 我首先对句子标记化方法进行了一些研究。 我遇到了以下论文: 阅读,乔纳森等人。 “句子边界检测:一个长期解决的问题?” 冷却(海报)。 2012. 这篇论文对句子边界检测提供了一个很好的客观调查,包括有监督和无监督的。 由于使用不同的数据集,它试图解决在比较不同论文之间的性能时遇到的一些问题。
资源推荐
资源详情
资源评论
收起资源包目录
nlp_test-master.zip (47个子文件)
nlp_test-master
.project 367B
.gitattributes 483B
src
nlp_test
PunktLanguageVariables.java 9KB
PunktSentenceTokenizer.java 466B
PunktTrainer.java 781B
NamedEntityMatcher.java 2KB
TokenNE.java 2KB
SentenceList.java 2KB
OrthoGraphFlag.java 954B
Sentence.java 1KB
SimpleNamedEntityMatcher.java 5KB
PunktToken (DaveMariLina's conflicted copy 2015-04-18).java 3KB
ZipProcessor.java 4KB
Tuple.java 1KB
NLPTestRunner.java 5KB
PunktTokenStream.java 5KB
PunktParams.java 4KB
PunktAlgoBase.java 6KB
SentenceTokenizer.java 740B
PunktFirstPassSentenceTokenizer.java 1017B
TokenStream.java 603B
SentenceTokenizerThread.java 3KB
Token.java 7KB
test_out
nlp_data.xml 35KB
nlp_data3
nlp_data
d02.txt.xml 36KB
d07.txt.xml 28KB
d04.txt.xml 45KB
d08.txt.xml 37KB
d06.txt.xml 34KB
d01.txt.xml 41KB
d09.txt.xml 50KB
d03.txt.xml 42KB
d10.txt.xml 56KB
d05.txt.xml 40KB
nlp_data2.xml 49KB
test
nlp_test
PunktLanguageVariablesTest.java 4KB
TokenTest.java 472B
PunktAlgoBaseTest.java 1KB
PunktTokenStreamTest.java 897B
README.md 5KB
data
nlp_data.zip 9KB
NER.txt 576B
my_nlp_data.txt 865B
nlp_data.txt 789B
brown.zip 3.13MB
.classpath 406B
.gitignore 502B
共 47 条
- 1
资源评论
Her101
- 粉丝: 19
- 资源: 4667
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功