没有合适的资源?快使用搜索试试~
我知道了~
文库首页
人工智能
深度学习
分词训练语料
分词训练语料
自然语言处理
深度学习
需积分: 34
25 下载量
127 浏览量
2018-08-28
09:53:15
上传
评论
收藏
12.71MB
TXT
举报
温馨提示
立即下载
用于深度学习NLP分词训练,训练模式BEMS,已经标注好,可直接使用
资源推荐
资源评论
汉语分词语料库
浏览:65
CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
中文自然语言处理中文分词训练语料
浏览:25
5星 · 资源好评率100%
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。
搜狗中文分词语料
浏览:119
3星 · 编辑精心推荐
搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料库
icwb2-data等分词语料
浏览:6
分词相关训练语料数据icwb2-data icwb2-data icwb2-data
微软亚洲研究院中文分词语料库
浏览:49
4星 · 用户满意度95%
微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词
使用HMM进行中文分词的train训练trainCorpus.txt文件
浏览:18
Python在Jupyter上使用HMM进行中文分词,将新闻文本分词后提取其中的高频词,HMM训练所需的trainCorpus.txt文件
华为Y220T by SYJ v1.1刷机包New-3
浏览:167
5星 · 资源好评率100%
1、更新3D图库; 2、主屏提示; 3、精减了大量软件,移动定制; 4、更换桌面壁纸; 5、更新搜狗输入法为4.1去推荐版; 6、删除谷歌输入法; 7、超级用户为 3.2,二进制文件为3.2; 8、精减 我的收藏夹; 9、精减 Email,用到时可用第三方替代; 10、精减防火墙,功能太少,不能停用,占用系统资源,360安全卫士就有; 11、更新华为最新补丁包; 12、本刷机包已做刷机试用,运行3
text8.train.txt
浏览:126
word2vec的训练语料库text8.train.txt。一个很长的字符串,用来训练词向量。文件大小大约62M。
基于深度学习的分词系统 kcws.zip
浏览:35
这是一个基于深度学习的分词系统和语料项目。背景97.5%准确率的深度学习中文分词(字嵌入 Bi-LSTM CRF)构建安装好bazel代码构建工具,clone下来tensorflow项目代码,配置好(./configure)clone 本项目地址到tensorflow同级目录,切换到本项目代码目录,运行./configure编译后台服务bazel build //kcws/cc:seg_backe
CRF,LSTM,最大后向匹配法实现中文分词
浏览:149
3种中文分词方法:最大后向匹配法,CRF,LSTM。其中LSTM又用了三种方法输入,glove向量,Word2vec向量,还有将字映射成整数再通过embedding层映射成字向量作为输入。还包含中文分词的评分脚本。
crf分词标注训练语料
浏览:186
5星 · 资源好评率100%
用与crf分词,标注训练语料。 nlpcc2015任务一的数据
分词词性标记语料
浏览:5
分词词性标记语料
训练语料生成器
浏览:116
4星 · 用户满意度95%
用于生成训练语料,供文本分类器使用。在控制台操作,简单易用
cppjieba:对中文语料进行分词
浏览:31
cppjieba源码地址 : 这个是我在自己Linux系统上为了方便使用,做了部分设置,只copy了源码的一部分代码: cppjieba\include\ 下的cppjieba文件夹 cppjieba\ 下的dict文件夹 cppjieba\deps\ 下的limonp 把dict文件夹和limonp文件夹都放到拷贝的cppjieba文件夹下 把cppjieba文件夹拷贝到系统目录/usr/loc
中文分词及词性标注语料
浏览:6
中文分词及词性标注语料,包含微软亚研院、搜狗、北京大学等的语料库
人民日报中文分词语料库
浏览:155
4星 · 用户满意度95%
用于HMM中文分词训练,代码可以参见:https://blog.csdn.net/qq_38593211/article/details/81637029
微软亚洲研究院中文分词语料___icwb2-data
浏览:134
微软亚洲研究院中文分词语料_icwb2-data_自然语言处理_科研数据集
搜狗语料库(已分词)
浏览:110
4星 · 用户满意度95%
搜狗语料库,自己用结巴分词分好的。(为什么摘要必须大于50个字)
微软亚洲研究院中文分词语料_icwb2-data
浏览:139
5星 · 资源好评率100%
微软亚洲研究院中文分词语料库_自然语言处理_科研数据集
维基百科中文语料(已分词)
浏览:104
4星 · 用户满意度95%
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
中文分词包.txt
浏览:34
IK分词器jar包,可用于solr或者ElasticSearch进行中文分词,国内大牛专为国人写的中文分词包。
人民日报语料库(中文分词语料库)
浏览:36
人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料 人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料
中文文本分类语料(复旦)训练集+测试集(100M)完整版
浏览:109
4星 · 用户满意度95%
中文文本分类语料(复旦)训练集+测试集(100M)完整版
自然语言处理-汉语分词技术概述
浏览:68
北大教授的课程ppt,阐述汉语分词的基本知识和基本方法对比等。
北京大学28288句分词语料
浏览:166
4星 · 用户满意度95%
非常权威的北京大学分词语料 可用于大规模的中文文本分词
word2vec训练中文语料1
浏览:85
word2vec训练中文语料1
问答系统训练语料
浏览:111
5星 · 资源好评率100%
保险领域的问答系统训练语料,可以用来训练chatbot,希望有帮助
文本文档分类训练语料集
浏览:108
4星 · 用户满意度95%
第一列是类别,每一行是一个文本。包括是个类,体育,艺术,计算机,军事等
文本训练语料集.rar
浏览:184
文本训练语料集.rar
评论
收藏
内容反馈
立即下载
资源评论
资源反馈
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~
联系上传者
评论
xuchunguang2014
粉丝: 0
资源:
5
私信
上传资源 快速赚钱
我的内容管理
展开
我的资源
快来上传第一个资源
我的收益
登录查看自己的收益
我的积分
登录查看自己的积分
我的C币
登录后查看C币余额
我的收藏
我的下载
下载帮助
前往需求广场,查看用户热搜
最新资源
后端开发h264流头部结构,iOS开发安卓开发Java开发,后端开发
第十届大唐杯本科A,截图
单片机如何精简代码量以及提升运行速度技巧介绍.docx
第十一届大唐杯本科A,仿真真题是物理层过程
三次样条插值在C语言如何实现步骤介绍.docx
SD6084电流模式同步降压转换器固定频率1.5MHz二极管封装SOT23-5
NokoPrint-wifi蓝牙USB连接打印机[安卓免费App]
20211115aMmF9NbS.zip
解线性方程组-直接解法:(Gauss)高斯消去法、列主元、全主元 - 北太天元
MapReduce单词统计 hadoop集群
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功