没有合适的资源?快使用搜索试试~ 我知道了~
bleve-sego-tokenizer:使用sego作为分割器的bleve的中文标记器
共10个文件
go:5个
txt:3个
gitignore:1个
需积分: 10 2 下载量 154 浏览量
2021-05-20
01:06:46
上传
评论
收藏 1.83MB ZIP 举报
温馨提示
sego-tokenizer for bleve 使用了 作为分词器. 为了适配 bleve 的 analysis.Tokenizer 接口, 我 fork 了, 有一些修改和修正. 借用了 的测试用例. 测试过程中, 发现 sego 和 jiebago 的分词结果会有少量的差异, 主要集中在一个分词结果包含多个子分词的情况下. 比如 中华人民: jieba 的分词结果是 中华, 华人, 人民, sego 的分词结果是 中华 人民. 全部测试样本中大约有10来例. 粗略看了一下, 这大概和 sego 有关 sego 看上去已经挺久没有维护. 我会尽量排除 fork 过来的版本在使用过程中出现的 bug 非常感谢 和 提供了 golang 的中文分词实现. 使用方法参考: package main import ( "fmt" "log" "os" "github.com/
资源推荐
资源详情
资源评论
收起资源包目录
bleve-sego-tokenizer-master.zip (10个子文件)
bleve-sego-tokenizer-master
.gitignore 550B
tokenizer.go 3KB
test_dict2.txt 63B
segmenter_test.go 557B
test_dict1.txt 69B
README.md 5KB
dict.txt 4.84MB
example
main.go 4KB
tokenizer_test.go 114KB
segmenter.go 567B
共 10 条
- 1
资源评论
HMI前线
- 粉丝: 22
- 资源: 4590
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- unity开发教程.docx
- 代码使用Pygame库实现了一个简单的烟花模拟 核心逻辑包括烟花和粒子类的定义,处理位置、爆炸、尾迹和绘制等操作
- Matlab Simulink 电力电子仿真-Flyback(反激电路)电路分析
- tudou-android-release.apk
- 数据分析教程.docx
- 基于matlab实现用有限元法计算电磁场的Matlab工具 .rar
- 基于matlab实现有限元算法 计算电磁场问题 边界条件包括第一类边界和第二类边界.rar
- 基于matlab实现用于计算不同车重下的电动汽车动力性和经济性.rar
- 基于matlab实现遗传算法求解多车场车辆路径问题 有多组算例可以用.rar
- 浏览器.apk
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功