没有合适的资源?快使用搜索试试~ 我知道了~
NLPIR-ICTCLAS分词系统开发手册2017版 1
需积分: 0 0 下载量 134 浏览量
2022-08-03
16:45:24
上传
评论
收藏 1.05MB PDF 举报
温馨提示
试读
50页
NLPIR Copyright :copyright: 2016 Kevin Zhang. All rights reserved.Public 公开Creation and fi
资源详情
资源评论
资源推荐
NLPIR/ICTCLAS 分词系统开发文档 http://ICTCLAS.nlpir.org
NLPIR Copyright © 2016 Kevin Zhang. All rights reserved. 3/50
Document Information
Document ID
NLPIR-ICTCLAS-2017-WHITEPAPER
Version
V4.0
Security level
Public 公开
Status
Creation and first draft
for comment
Author
张华平
Date
Aug 31, 2017
Publisher
/
Approved by
Version History
Note:The first version is”v0.1”. Each subsequent version will add 0.1 to the exiting version. The
version number should be updated only when there are significant changes, for example, changes
made to reflect reviews. The first figure in the version 1.x denotes current review status by. 1. x
denotes review process has passed round 1 etc .Anyone who create, review or modify the
document should describe his action.
Versio
n
Author/Revie
wer
Date
Description
V1.0
Kevin Zhang
2011-8-21
first complete draft for comment. ICTCLAS2010
V2.0
Kevin Zhang
2012-8-21
complete draft for comment.ICTCLAS2012
V3.0
Kevin Zhang
2012-12-19
complete draft for comment.ICTCLAS2013
V4.0
Kevin Zhang
2013-12-19
complete draft for comment.ICTCLAS2014
V5.0
Kevin Zhang
2014-8-3
complete draft for comment.ICTCLAS2014 add
some functions.
V6.0
Kevin Zhang
2014-12-25
complete draft for comment.ICTCLAS2014 add
some functions.
V6.1
Kevin Zhang
2015-2-1
complete draft for comment.ICTCLAS add some
functions.
V7.0
Kevin Zhang
2017-8-31
complete draft for comment.ICTCLAS add some
functions.
NLPIR/ICTCLAS 分词系统开发文档 http://ICTCLAS.nlpir.org
NLPIR Copyright © 2016 Kevin Zhang. All rights reserved. 4/50
目
目
录
录
NLPIR/ICTCLAS 分词系统开发文档 ............................................................................................ 1
目
目
录
录
.................................................................................................................................................. 4
1. NLPIR/ICTCLAS 分词系统简介 ................................................................................................ 5
2. NLPIR/ICTCLAS 分词系统主要功能介绍 ................................................................................ 6
3. NLPIR/ICTCLAS 分词系统评测 .............................................................................................. 11
3.1 NLPIR/ICTCLAS 在 973 评测中的测试结果 ......................................................... 11
3.2 第一届国际分词大赛的评测结果 .......................................................................... 12
3.3 NLPIR/ICTCLAS 的评测结果 ................................................................................ 12
4. NLPIR/ICTCLAS 大事记: ...................................................................................................... 13
5. 分词功能 C/C++接口 ............................................................................................................ 15
5.1 NLPIR_Init........................................................................................................................ 15
5.2 NLPIR_Exit ...................................................................................................................... 16
5.3 NLPIR_ParagraphProcess ................................................................................................. 17
5.4 NLPIR_GetLastErrorMsg ................................................................................................. 18
5.5 NLPIR_ParagraphProcessA .............................................................................................. 19
5.6 NLPIR_GetParagraphProcessAWordCount ...................................................................... 21
5.7 NLPIR_ ParagraphProcessAW ......................................................................................... 24
5.8 NLPIR_FileProcess ........................................................................................................... 24
5.9 NLPIR_ImportUserDict .................................................................................................... 25
5.10 NLPIR_AddUserWord .................................................................................................... 28
5.11 NLPIR_CleanUserWord() ............................................................................................... 29
5.12 NLPIR_SaveTheUsrDic .................................................................................................. 29
5.13 NLPIR_DelUsrWord ....................................................................................................... 30
5.14 NLPIR_GetUniProb ........................................................................................................ 32
5.15 NLPIR_IsWord ............................................................................................................... 32
5.16 NLPIR_IsUserWord ........................................................................................................ 33
5.17 NLPIR_GetWordPOS ..................................................................................................... 33
5.18 NLPIR_SetPOSmap ........................................................................................................ 34
5.19 NLPIR_FinerSegment ..................................................................................................... 35
5.20 NLPIR_GetEngWordOrign ............................................................................................. 35
5.21 NLPIR_WordFreqStat ..................................................................................................... 36
5.22 NLPIR_FileWordFreqStat ............................................................................................... 36
5.23 class CNLPIR .................................................................................................................. 37
5.24 GetActiveInstance ........................................................................................................... 38
5.25 NLPIR_FingerPrint ......................................................................................................... 39
6. 分词功能 JNA 接口 .................................................................................................................. 40
6.1 jna 使用分词说明 ............................................................................................................. 40
6.2 jna 使用分词示例 ............................................................................................................. 40
7. hadoop 平台使用分词 ................................................................................................................ 41
7.1 hadoop 使用分词说明 ...................................................................................................... 41
NLPIR/ICTCLAS 分词系统开发文档 http://ICTCLAS.nlpir.org
NLPIR Copyright © 2016 Kevin Zhang. All rights reserved. 5/50
7.2 hadoop 使用分词示例 ...................................................................................................... 41
8. C#接口说明 ................................................................................................................................ 44
8.1 说明 ................................................................................................................................... 44
8.2 接口示例 ........................................................................................................................... 44
9. NLPIR/ICTCLAS 运行环境 ...................................................................................................... 46
9.1 支持的环境 ...................................................................................................................... 46
9.2 Linux 如何调用 NLPIR .................................................................................................... 47
10. 常见问题(FAQ) .................................................................................................................. 47
Q1: Linux 调用 NLPIR 的时候,链接不上库 ...................................................................... 47
Q2: NLPIR 系统初始化老是失败 ......................................................................................... 47
Q3: NLPIR 系统是否支持多线程,没有显式的创建与销毁分词对象(句柄、上下文)的
接口,故不支持多线程和多实例 ......................................................................................... 48
Q4: 没有找到选择粗/细颗粒度的接口 .............................................................................. 48
Q5: 连续的空白符号是每个符号单独输出的,希望有合并输出的选项。 ..................... 48
Q6: 支持在一个应用中,同时进行 GB18030 和 UTF-8 的分词 ....................................... 48
Q7: NLPIR/ICTCLAS 的 JNI 调用实现过程 ........................................................................ 49
11. 作者简介 .................................................................................................................................. 49
1. NLPIR/ICTCLAS 分词系统简介
词法分析是自然语言处理的基础与关键。张华平博士在多年研究工作积累的
基础上,研制出了 NLPIR 分词系统,主要功能包括中文分词;英文分词;词性
标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。
NLPIR 系统支持多种编码(GBK 编码、UTF8 编码、BIG5 编码)、多种操作系
统(Windows, Linux, FreeBSD 等所有主流操作系统)、多种开发语言与平台
(包括:C/C++/C#,Java,Python,Hadoop 等)。
NLPIR 分词系统前身为 2000 年发布的 ICTCLAS 词法分析系统,从 2009 年
开始,为了和以前工作进行大的区隔,并推广 NLPIR 自然语言处理与信息检索
共享平台,调整命名为 NLPIR 分词系统。张华平博士先后倾力打造十余年,内
核升级十余次,先后获得了 2010 年钱伟长中文信息处理科学技术奖一等奖,2003
年国际 SIGHAN 分词大赛综合第一名,2002 年国内 973 评测综合第一名。全球
用户突破 30 万,包括中国移动、华为、中搜、3721、NEC、中华商务网、硅谷
动力、云南日报等企业,清华大学、新疆大学、华南理工、麻省大学等机构:同
时,ICTCLAS 广泛地被《科学时报》、《人民日报》海外版、《科技日报》等
多家媒体报道。您可以访问 Google 进一步了解 ICTCLAS 的应用情况。
我们提供各类二次开发接口,特别欢迎相关的科研人员、工程技术人员使用,
并承诺非商用应用永久免费的共享策略。访问 http://ictclas.nlpir.org/(自然语言处
理与信息检索共享平台),您可以获取 NLPIR 系统的最新版本,并欢迎您关注张
华平博士的新浪微博 @ICTCLAS 张华平博士 交流。
剩余49页未读,继续阅读
正版胡一星
- 粉丝: 16
- 资源: 304
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0