没有合适的资源?快使用搜索试试~ 我知道了~
资源详情
资源评论
资源推荐
NLPIR/ICTCLAS2014 分词系统开发文档 http://ICTCLAS.nlpir.org
NLPIR Copyright © 2014 Kevin Zhang. All rights reserved. 3/55
Document Information
Document ID
NLPIR-ICTCLAS-2013-WHITEPAPER
Version
V4.0
Security level
Public 公开
Status
Creation and first draft
for comment
Author
张华平
Date
Dec 19, 2013
Publisher
/
Approved by
Version History
Note:The first version is”v0.1”. Each subsequent version will add 0.1 to the exiting version.
The version number should be updated only when there are significant changes, for
example, changes made to reflect reviews. The first figure in the version 1.x denotes
current review status by. 1. x denotes review process has passed round 1 etc .Anyone
who create, review or modify the document should describe his action.
Versio
n
Author/Revie
wer
Date
Description
V1.0
Kevin Zhang
2011-8-21
first complete draft for comment.
ICTCLAS2010
V2.0
Kevin Zhang
2012-8-21
complete draft for comment.ICTCLAS2012
V3.0
Kevin Zhang
2012-12-19
complete draft for comment.ICTCLAS2013
V4.0
Kevin Zhang
2013-12-19
complete draft for comment.ICTCLAS2014
NLPIR/ICTCLAS2014 分词系统开发文档 http://ICTCLAS.nlpir.org
NLPIR Copyright © 2014 Kevin Zhang. All rights reserved. 4/55
目
目
录
录
NLPIR/ICTCLAS 2014 分词系统开发文档 .................................................................................. 1
目
目
录
录 .................................................................................................................................................. 4
1. NLPIR/ICTCLAS2014 分词系统简介 .......................................................................................... 5
2. NLPIR/ICTCLAS2014 分词系统主要功能介绍 .......................................................................... 6
3. NLPIR/ICTCLAS2014 分词系统评测 ........................................................................................ 11
3.1 NLPIR/ICTCLAS 在 973 评测中的测试结果 ......................................................... 11
3.2 第一届国际分词大赛的评测结果 .......................................................................... 12
3.3 NLPIR/ICTCLAS 的评测结果 ................................................................................ 13
4. NLPIR/ICTCLAS 大事记: ........................................................................................................ 15
5.C/C++接口 ............................................................................................................................. 17
5.1 NLPIR_Init ..................................................................................................................... 17
5.2 NLPIR_Exit ..................................................................................................................... 18
5.3 NLPIR_ImportUserDict ................................................................................................. 19
5.4 NLPIR_ParagraphProcess ............................................................................................. 21
5.5 NLPIR_ParagraphProcessA ........................................................................................... 22
5.6 NLPIR_FileProcess ......................................................................................................... 24
5.7 NLPIR_GetParagraphProcessAWordCount ................................................................... 25
5.8 NLPIR_ ParagraphProcessAW ....................................................................................... 28
5.9 NLPIR_AddUserWord .................................................................................................... 29
5.10 NLPIR_SaveTheUsrDic ................................................................................................ 30
5.11 NLPIR_DelUsrWord..................................................................................................... 31
5.12 NLPIR_GetKeyWords .................................................................................................. 32
5.13 NLPIR_GetFileKeyWords ............................................................................................ 34
5.14 NLPIR_GetNewWords ................................................................................................. 35
5.15 NLPIR_GetFileNewWords ........................................................................................... 36
5.16 NLPIR_FingerPrint ....................................................................................................... 37
5.17 NLPIR_SetPOSmap ...................................................................................................... 38
5.17 新词发现批量处理功能 ............................................................................................... 40
6. JNA 接口 .................................................................................................................................. 43
6.1jna 使用分词简介 ............................................................................................................ 43
6.2jna 使用分词示例 ............................................................................................................ 43
7. hadoop 平台使用分词 ............................................................................................................ 46
7.1 hadoop 使用分词简介 ...................................................................................................... 46
7.2 hadoop 使用分词示例 ...................................................................................................... 46
8. C#接口说明 ............................................................................................................................... 49
7.1 说明 ................................................................................................................................... 49
7.2 接口示例 ........................................................................................................................... 49
9 NLPIR2011 运行环境 .............................................................................................................. 51
9 常见问题(FAQ) ....................................................................................................................... 52
Q1: Linux 调用 NLPIR 的时候,链接不上库 ...................................................................... 52
NLPIR/ICTCLAS2014 分词系统开发文档 http://ICTCLAS.nlpir.org
NLPIR Copyright © 2014 Kevin Zhang. All rights reserved. 5/55
Q2: NLPIR 系统初始化老是失败 ......................................................................................... 52
Q3: NLPIR 系统是否支持多线程,没有显式的创建与销毁分词对象(句柄、上下文)的
接口,故不支持多线程和多实例 ......................................................................................... 52
Q4: 没有找到选择粗/细颗粒度的接口 .............................................................................. 52
Q5: 连续的空白符号是每个符号单独输出的,希望有合并输出的选项。 ..................... 53
Q6: 支持在一个应用中,同时进行 GB18030 和 UTF-8 的分词 ....................................... 53
Q7: NLPIR2010 的 JNI 调用实现过程 ................................................................................. 53
10 作者简介 ................................................................................................................................... 54
1. NLPIR/ICTCLAS2014 分词系统简介
词法分析是自然语言处理的基础与关键。张华平博士在多年研究工作积累的
基础上,研制出了 NLPIR 分词系统,主要功能包括中文分词;英文分词;词性标
注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR
系统支持多种编码(GBK 编码、UTF8 编码、BIG5 编码)、多种操作系统(Windows,
Linux , FreeBSD 等所有主流 操作 系 统 )、 多 种开 发 语 言与 平 台 ( 包括 :
C/C++/C#,Java,Python,Hadoop 等)。
NLPIR 分词系统前身为 2000 年发布的 ICTCLAS 词法分析系统,从 2009 年开
始,为了和以前工作进行大的区隔,并推广 NLPIR 自然语言处理与信息检索共享
平台,调整命名为 NLPIR 分词系统。张华平博士先后倾力打造十余年,内核升级
十余次,先后获得了 2010 年钱伟长中文信息处理科学技术奖一等奖,2003 年国
际 SIGHAN 分词大赛综合第一名,2002 年国内 973 评测综合第一名。全球用户突
破 30 万,包括中国移动、华为、中搜、3721、NEC、中华商务网、硅谷动力、云
南日报等企业,清华大学、新疆大学、华南理工、麻省大学等机构:同时,ICTCLAS
广泛地被《科学时报》、《人民日报》海外版、《科技日报》等多家媒体报道。
您可以访问 Google 进一步了解 ICTCLAS 的应用情况。
我们提供各类二次开发接口,特别欢迎相关的科研人员、工程技术人员使用,
并承诺非商用应用永久免费的共享策略。访问 http://ictclas.nlpir.org/(自
然语言处理与信息检索共享平台),您可以获取 NLPIR 系统的最新版本,并欢迎
您关注张华平博士的新浪微博 @ICTCLAS 张华平博士 交流。
剩余54页未读,继续阅读
我要WhatYouNeed
- 粉丝: 42
- 资源: 287
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0