计算所汉语词法分析系统ICTCLAS中的数据文件
使用须知:
1. 数据部分有:data1.zip和data2.zip。
2. data1.zip解压缩后,得到data文件夹;dctdata2.zip解压缩后,得到BigramDict.dct,应当将给文件BigramDict.dct拷贝到data文件夹中(因为我的主页一次只能传2M的文件,所以只好分开压缩,给您造成不便,深表歉意!);ICTCLAS_dll.zip解压缩后,data和软件部分的文件必须在同一目录下!
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
ICTCLAS分词软件和相关的说明、学习文档。 ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库),它们的文件格式是完全相同的,都使用CDictionary类进行解析。如果想深入了解ICTCLAS词典结构,可以参考sinboy的《ICTCLAS分词系统研究(二)--词典结构》一文,详细介绍了词典结构。我这里只给出SharpICTCLAS中的实现。
资源推荐
资源详情
资源评论
收起资源包目录
SharpICTCLAS_1.0.rar (95个子文件)
SharpICTCLAS分词系统 1.0
SharpICTCLAS
SharpICTCLAS
Tag
TagType.cs 2KB
Span.cs 35KB
Segment
DynamicArray
RowFirstDynamicArray.cs 4KB
ChainContent.cs 2KB
ChainItem.cs 2KB
ColumnFirstDynamicArray.cs 4KB
DynamicArray.cs 5KB
Segment.cs 33KB
WordLinkedArray.cs 2KB
AtomNode.cs 2KB
WordNode.cs 2KB
NShortPath
NShortPath.cs 11KB
CQueue.cs 4KB
PathNode.cs 2KB
EventInterface
SegmentEventArg.cs 2KB
SegmentEventHandler.cs 2KB
SegmentStage.cs 2KB
Utility
Utility.cs 32KB
ContextStat.cs 12KB
WordDictionaryElement.cs 4KB
WordDictionary.cs 40KB
ContextItem.cs 2KB
Predefine.cs 7KB
SharpICTCLAS.csproj.user 168B
WordSegment.cs 6KB
Properties
AssemblyInfo.cs 1KB
Unknown
UnknowWord.cs 7KB
SharpICTCLAS.csproj 3KB
SharpICTCLAS.sln 3KB
Samples
AddWords2Dict
AddWords2Dict.csproj 2KB
Properties
AssemblyInfo.cs 1KB
Program.cs 2KB
PreProcessUtility
PreProcessUtility.cs 17KB
PreProcessUtility.csproj 2KB
Properties
AssemblyInfo.cs 1KB
SegmentSample
Program.cs.bak 1KB
Properties
AssemblyInfo.cs 1KB
Program.cs 1006B
SegmentSample.csproj 2KB
TestWordSegment.cs 3KB
ConsoleTest
Properties
AssemblyInfo.cs 1KB
Program.cs 11KB
ConsoleTest.csproj 2KB
ConsoleTest.csproj.user 231B
SharpICTCLAS.suo 94KB
bin
Data
engstopwords.txt 607B
Readme.TXT 370B
BigramDict.dct 5.74MB
log.txt 2KB
tr.ctx 408B
lexical.ctx 10KB
ns.ctx 408B
nr.ctx 1KB
coreDict.dct 1.51MB
stopwords.txt 2KB
ns.dct 125KB
tr.dct 126KB
nr.dct 227KB
SharpICTCLAS.dll 72KB
PreProcessUtility.dll 28KB
SegmentSample.exe 16KB
AddWords2Dict.exe 16KB
ConsoleTest.exe 24KB
doc
SharpICTCLAS分词系统简介(1)读取词典库.htm 28KB
css
customercss.css 4KB
style.css 5KB
移植ICTCLAS到CSharp平台上.htm 17KB
SharpICTCLAS分词系统简介(2)初步分词.htm 15KB
SharpICTCLAS分词系统简介(8)其它.htm 44KB
SharpICTCLAS分词系统简介(5)NShortPath-2.htm 10KB
SharpICTCLAS分词系统简介(6)Segment.htm 46KB
SharpICTCLAS分词系统简介(7)OptimumSegment.htm 16KB
SharpICTCLAS分词系统简介(9)词库扩充.htm 6KB
images
0220002.gif 9KB
0308001.gif 8KB
0308005.gif 7KB
copycode.gif 1KB
0220004.gif 46KB
0220001.gif 4KB
0308008.gif 9KB
0308004.gif 6KB
0308007.gif 7KB
Thumbs.db 68KB
0308003.gif 3KB
0220003.gif 9KB
0220005.gif 4KB
copycodeHighlight.gif 1KB
0225008.gif 6KB
0225007.gif 3KB
0308006.gif 7KB
0220006.gif 10KB
0225009.gif 7KB
0308002.gif 3KB
SharpICTCLAS分词系统简介(3)DynamicArray.htm 28KB
SharpICTCLAS分词系统简介(4)NShortPath-1.htm 23KB
共 95 条
- 1
资源评论
- sirdan2013-07-22C#版的ictclas,但个人感觉,无论是使用上还是学习代码上,还是原版C++版本的好一些,虽然原版的代码也很凌乱。
- czm_javaer2015-06-23对改二元词典的词有点疑问,不像是生活用语,应该为 北京@中国类似的,但里面有些词的确让人不解,不知道是否是解析的有问题。 现@、:4 现@。:61 现@“:43 现@『:3 现@,:131 现@;:3 现@暴力:4 现@不:10 现@不良:6 现@不同:3 现@持续:5 现@赤字:4 现@错误:7 现@大:20 现@大幅:4
- atu_wen2012-11-07可惜没有源代码
xishazgh1
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 海尔H42E10 6i981BTA DH1PY600000 MBOOT usb.bin 程序.zip
- 网盘的功能实现之数据库搭建笔记
- 软件工程与软件测试阶段作业三.doc
- 软件工程中的人工智能辅助设计研究.pptx
- 海尔智能电视刷机数据 H42E07 机编DH1QR000H07 务必确认机编一致 强制刷机 整机USB升级主程序
- 4444444444444444444
- 基于PHP实现响应式创业园区管委会网站.zip
- 安卓手机用作电脑网络摄像头的工具文件
- 海尔智能电视刷机数据 H32E10 机编DH1QX000805 务必确认机编一致 强制刷机 整机USB升级主程序
- ComfyUI AI老照片修复上色工作流
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功