没有合适的资源?快使用搜索试试~
我知道了~
文库首页
后端
C
中文分词词典-54w条词语
中文分词词典-54w条词语
共1个文件
txt:1个
中文分词
正向最大匹配
自然语言理解
5星
· 超过95%的资源
需积分: 10
34 下载量
68 浏览量
2012-11-01
16:25:41
上传
评论
3
收藏
1.7MB
RAR
举报
温馨提示
立即下载
开通VIP(低至0.43/天)
买1年送3月
中文分词词典 适合最大正向匹配算法使用 共计548389条词语
资源推荐
资源详情
资源评论
中文分词词典
浏览:153
含有43万条非重复语料
中文分词用的词典文件
浏览:71
5星 · 资源好评率100%
花了几天从各大名牌分词软件中提出的中文词组,已经对词组进行了整理和排序,保存成了三个txt文件,精简:74248个词组、常用:118021个词组、全部:222685个词组、常用标点符号文件共四个文件。
30W+中文分词词典,覆盖广新增金融行业
浏览:21
标题提及的"30W+中文分词词典"是一个包含了三十万个以上词汇的资源库,这确保了在处理大量文本时能够涵盖广泛的语言现象,包括常见的词汇、成语以及特定领域的术语。 在NLP任务中,分词词典起着核心作用。词典通常...
新闻分词_leafk6w_分词_中文分词_
浏览:104
新闻分词是自然语言处理(NLP)领域的一项基础任务,其主要目的是将连续的汉字序列分割成具有独立语义的词语,便于后续的文本分析和理解。在本项目中,“新闻分词_leafk6w_分词_中文分词_”显然指的是使用名为...
中文分词+关键字提取.zip
浏览:74
中文分词是将连续的汉字序列切分成具有语义意义的词语的过程。与英文单词间的空格作为天然分隔符不同,中文没有明确的分词标志,因此需要借助特定算法来完成。常见的分词方法有基于词典的匹配法、统计模型如隐...
分词算法词库,搜狗词库(200W+27W+40W).7z
浏览:51
综上所述,分词算法词库,特别是搜狗词库,是中文自然语言处理的重要工具,它通过提供大量词汇信息,帮助分词算法更准确地理解和处理中文文本,对于提升各种NLP应用的性能至关重要。在使用时,我们可以根据实际需求...
中文分词词库,包含清华词库,360w词库,含词性、词频
浏览:34
5星 · 资源好评率100%
中文分词是自然语言处理(NLP)领域中的基础任务之一,它涉及到将连续的汉字序列分割成具有独立语义的词语。在这个压缩包中,包含了一系列的中文分词词库,这些词库对于进行精准的中文文本分析、信息检索、机器翻译...
中文分词字典,整理242764个词语
浏览:40
4星 · 用户满意度95%
中文分词字典,整理242764个词语,由网上众多辞典拼合并过滤重复词语而来,需要的朋友可以下载去看看。
带词性标注的中文分词词典
浏览:12
人民日报统计出来的用于自然语言处理的中文词典
30万字中文分词词典
浏览:159
一个30万字的中文分词词典,从网站码农场中提供的词典分割的一部分,需要说明的是词典不是最新的,仅供参考使用。
分词中文停止词词典
浏览:88
分词 中文 停止词 词典 分词 中文 停止词 词典 分词 中文 停止词 词典 分词 中文 停止词 词典
纯文本词典 中文分词 分词文本 文本词典
浏览:11
4星 · 用户满意度95%
文本词典 中文分词 分词文本 纯文本词典 中文分词 分词文本 文本词典 信息检索
VicWord 一个纯php的分词
浏览:97
//$arr 是一个数组 每个单元的结构[词语,词语位置,词性,这个词语是否包含在词典中] 这里只值列出了词语 $arr = $fc->getShortWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒'); //北京|大学|生喝|进口|...
自然语言处理NLP中文分词之成语词库.zip
浏览:11
在NLP中,中文分词是预处理步骤的关键环节,因为中文句子不像英文那样有明显的空格分隔单词,因此需要通过特定算法将连续的汉字序列分割成具有独立语义的词语。 本资源“自然语言处理NLP中文分词之成语词库”是一个...
基于统计方法的Web新词分词方法研究
浏览:82
在中文信息处理领域,自动分词是一项基础而关键的技术,其主要目标是将连续的中文文本序列切分为一个个有意义的词语单元。然而,传统基于规则的方法往往依赖于事先构建的词典,在面对新词尤其是网络用语时表现不佳。...
python使用jieba实现中文分词去停用词方法示例
浏览:26
在Python中处理中文文本时,jieba库是一个非常重要的工具,尤其对于中文分词任务。jieba是一个开源的Python库,专门设计用于处理中文文本,它提供了简单易用的接口和高效的操作方式。本文将详细介绍如何使用jieba库...
自然语言处理分词_中英日文名字库Chinese_Names_Corpus_Gender(120W).txt
浏览:91
基于规则的方法依赖于预设的词典,例如本文件中提到的“Chinese_Names_Corpus_Gender(120W).txt”文件,可能就包含了一个用以中文名字分词和性别的词典。基于统计的方法则会从大量的文本数据中学习词语出现的模式...
中文分词代码及词典(同博客代码)
浏览:134
中文分词源代码,java语言。以及词典txt文本。代码通过读词典获取数据,进行中文分词。将词典读取的数据利用map去重,然后进行前缀扫面,详情见博客:https://blog.csdn.net/qq_40142391/article/details/82945556#commentsedit
中文地名分词+地名词典创建工具
浏览:129
5星 · 资源好评率100%
学习了部分分词原理和方法,做了相应的改进: 1、创建了两种词典树,做了性能上的比较 2、改进数字词组的分词方法,加入语法的判断 3、提供地名词典创建工具。将地名全名词典分词获得分词后的地名词典,减少词条数目,增加查找速度。程序用一个中等省会城市测试,模糊查询和精确查询效果都不错。 4、加入地名输入提示的工具。 代码采用C#,为学习成果,尚有很多不完善地方,欢迎
中文分词词典UserDict.txt
浏览:31
在使用jiba分词的情况下,使用这个词典有助于提高你的分词准确度,因为这个分词词典包含了众多领域词汇,这些词汇出自某dog的几十个细胞词库。已使用转换器转换成txt,欢迎下载。
支持lucene的词典机械中文分词
浏览:64
采用反向机械分词算法。 对数字、英文进行特别的处理。 支持中英文数字混合词的处理。 分词速度快。
baidu.rar_ baidu_dictionary_中文分词_中文分词 词典_分词词典
浏览:127
5星 · 资源好评率100%
百度以前用的中文分词词典,希望对大家有一点帮助
几乎最全的中文NLP资源库.zip
浏览:58
5星 · 资源好评率100%
语料/数据集、变量命名神器、分词语料库+代码、任务型对话英文数据集、ASR 语音数据集 + 基于深度学习的中文语音识别系统、笑声检测器、Microsoft多语言数字/单位/如日期时间识别包、中华新华字典数据库及api(包括...
自然语言处理分词_中英日文名字库English_Names_Corpus(2W).txt
浏览:136
在自然语言处理中,分词(Tokenization)是一个非常基础且关键的步骤,它是将连续的文本切割成有意义的最小单位——词语或符号。分词技术的好坏直接关系到后续处理步骤的效率和准确度。 分词技术主要用于中文、日文...
26.9万条公司名字简称,用于分词,或者实体归一处理
浏览:171
这个名为“26.9万条公司名字简称”的压缩包文件,就是专门为这些目的设计的——分词和实体归一化。 分词是NLP的基础步骤,它涉及到将连续的文本序列切分成具有语义意义的单元,比如词语。在中国,由于汉字的独特性...
Python中文分词工具之结巴分词用法实例总结【经典案例】
浏览:132
**Python中文分词工具——结巴分词** 在Python中,处理中文文本时,分词是必不可少的步骤。结巴分词(Jieba)是一款非常流行的开源中文分词库,它提供了简单易用的API,能够高效地进行中文文本的分词任务。下面将...
chineseDic.txt
浏览:70
该词典可用于指导分词工具识别正确的词语边界。 2. **词性标注** - 基于词典中的词性信息,可以辅助进行更准确的词性标注。 3. **命名实体识别** - 通过词典中的人名、地名、机构名等信息,可以帮助识别文本中的...
收起资源包目录
dictionary.rar
(1个子文件)
dictionary.txt
4.39MB
共 1 条
1
评论
收藏
内容反馈
立即下载
开通VIP(低至0.43/天)
买1年送3月
资源评论
资源反馈
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~
联系上传者
评论
wangling08
2013-08-13
比较好,可以重扩展
lara_croft_china
2015-07-24
太大了,好多词都成短语了。不过总的来说还是大点好
倒影丶年华
2014-04-16
很大,不错。还可以自己扩展用
ethandot
2012-12-17
很大,不错。还可以自己扩展用。
sduonline
粉丝: 2
资源:
1
私信
上传资源 快速赚钱
我的内容管理
展开
我的资源
快来上传第一个资源
我的收益
登录查看自己的收益
我的积分
登录查看自己的积分
我的C币
登录后查看C币余额
我的收藏
我的下载
下载帮助
前往需求广场,查看用户热搜
最新资源
js+jquery实现找不同小游戏
STM32F401,串级pid程序
TA-Lib-0.4.28-cp310-cp310-win-amd64.whl
NBU实施方案及维护手册
js加jquery实现跳一跳小游戏
基于Go语言的IP地址定位库ip2region设计源码及跨平台实现
基于Java语言的Struts2_06版本WildCard Mapping设计源码解析
基于Python全栈知识的学习与应用设计源码
基于Java与多语言融合的综合性知识题库设计源码
基于Java语言的NLChat设计源码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功