# 说明
基于[scws](https://github.com/hightman/scws/)的golang的开源的中文分词系统,特点:
1. 支持编译安装,纯golang代码,无需要第3方的静态和动态库(和scws已经混合编码)
2. docker / docker swarm / k8s 部署
3. 支持多个自定义词库,格式可以和txt也可以是xdb格式(参考 [scws](https://github.com/hightman/scws/) 的词典生成工具scws-gen-dict)
4. 支持规则文件
5. etc/dict下面可以把百度输入法的词库转换成txt分词词库的工具
6. rest api接口进行分词,也支持实时reload词库操作
具体可以参考etc下的配置文件,或者Makefile的示例
## Docker & Swarm/Composer
```bash
docker pull hetao29/scws:latest
```
## 编译
```bash
make build
```
## 运行
```bash
make start
```
## 自定义字典(格式)
1. <词> <词频(TF)> <词重(IDF)> <词性(北大标注)>
2. 用空格或者制表符分开,tf,idf,attr不是必须
3. 词性参考 http://www.xunsearch.com/scws/docs.php#attr
```ini
#<word>[\t<tf>[\t<idf>[\t<attr>]]]
新词
新地 5 1 n
```
## 测试
```bash
make test
```
结果
```json
{"message":"pong","words":["关于","幼教","体系","组织","结构调整","结构","调整","等","的","通知"]}curl "http://127.0.0.1:8020/words?key=外国钱币硬币银铌世界纸钞爱藏"
{"message":"pong","words":["外国","钱币","硬币","银","铌","世界","纸钞","爱","藏"]}curl "http://127.0.0.1:8020/words?key=矮人火枪地狱兽残酷角斗士的军刺"
{"message":"pong","words":["矮人","火枪","地狱兽","地狱","残酷","角斗士","角斗","的","军","刺"]}
```
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
golang中文分词服务(基于scws的c语言分词算法),提.zip (100个子文件)
scws-lib\Makefile.am 457B
etc\dict\baidu_dict\艺术名人.bdict 1.75MB
etc\dict\baidu_dict\魔兽世界.bdict 1.56MB
etc\dict\baidu_dict\绘画美术.bdict 1.47MB
etc\dict\baidu_dict\历史人物名录.bdict 1.3MB
etc\dict\baidu_dict\名人词库.bdict 176KB
etc\dict\baidu_dict\中国哲学.bdict 135KB
etc\dict\baidu_dict\书法词汇.bdict 113KB
etc\dict\baidu_dict\古玩收藏.bdict 80KB
etc\dict\baidu_dict\中国历代职官.bdict 79KB
etc\dict\baidu_dict\全国省市区县地名.bdict 34KB
etc\dict\baidu_dict\影视明星.bdict 30KB
etc\dict\baidu_dict\诸子百家.bdict 24KB
etc\dict\baidu_dict\我国古代地名集锦.bdict 19KB
etc\dict\baidu_dict\陶瓷词库.bdict 18KB
etc\dict\baidu_dict\历代状元.bdict 15KB
etc\dict\baidu_dict\颜色名称.bdict 15KB
etc\dict\baidu_dict\英雄联盟.bdict 12KB
etc\dict\baidu_dict\篆刻家.bdict 10KB
etc\dict\baidu_dict\金属工艺.bdict 10KB
etc\dict\baidu_dict\民间工艺.bdict 9KB
etc\dict\baidu_dict\历代官制名词.bdict 9KB
etc\dict\baidu_dict\集邮术语.bdict 7KB
etc\dict\baidu_dict\玉石翡翠.bdict 3KB
etc\dict\baidu_dict\印章名词.bdict 3KB
etc\dict\baidu_dict\模型收藏.bdict 2KB
etc\dict\baidu_dict\考古学常用词组.bdict 1004B
scws-lib\scws.c 36KB
scws-lib\xdb.c 13KB
scws-lib\rule.c 9KB
scws-lib\xdict.c 8KB
scws-lib\xtree.c 6KB
scws-lib\lock.c 5KB
scws-lib\crc32.c 4KB
scws-lib\charset.c 3KB
scws-lib\pool.c 2KB
scws-lib\darray.c 703B
Dockerfile 1KB
etc\dict\baidu_dict\Makefile 101B
.git\config 298B
.git\description 73B
.git\HEAD 23B
.git\index 7KB
.git\info\exclude 240B
.git\logs\HEAD 186B
.git\logs\refs\heads\master 186B
.git\logs\refs\remotes\origin\HEAD 186B
.git\packed-refs 114B
.git\refs\heads\master 41B
.git\refs\remotes\origin\HEAD 32B
.gitignore 33B
scws-lib\goscws.go 7KB
scws\info.go 2KB
server.go 1KB
scws\config.go 173B
scws-lib\scws.h 3KB
scws-lib\rule.h 2KB
scws-lib\xdict.h 2KB
scws-lib\xdb.h 2KB
scws-lib\lock.h 2KB
scws-lib\xtree.h 1KB
scws-lib\pool.h 1KB
scws-lib\config_win32.h 395B
scws-lib\darray.h 390B
scws-lib\charset.h 320B
scws-lib\crc32.h 259B
scws-lib\version.h 134B
.git\objects\pack\pack-fd7e72f481b1d26f2caba9c60172a26ad5e728c3.idx 8KB
scws-lib\Makefile.in 22KB
scws-lib\version.h.in 128B
etc\dict\rules.utf8.ini 5KB
etc\config.json 204B
scws-lib\libscws.la 942B
Makefile 663B
README.md 2KB
go.mod 1KB
scws\go.mod 24B
scws-lib\go.mod 0B
.git\objects\pack\pack-fd7e72f481b1d26f2caba9c60172a26ad5e728c3.pack 20.71MB
etc\dict\baidu_dict\convert.py 3KB
.git\objects\pack\pack-fd7e72f481b1d26f2caba9c60172a26ad5e728c3.rev 1KB
.git\hooks\pre-rebase.sample 5KB
.git\hooks\fsmonitor-watchman.sample 5KB
.git\hooks\update.sample 4KB
.git\hooks\push-to-checkout.sample 3KB
.git\hooks\sendemail-validate.sample 2KB
.git\hooks\pre-commit.sample 2KB
.git\hooks\prepare-commit-msg.sample 1KB
.git\hooks\pre-push.sample 1KB
.git\hooks\commit-msg.sample 896B
.git\hooks\pre-receive.sample 544B
.git\hooks\applypatch-msg.sample 478B
.git\hooks\pre-applypatch.sample 424B
.git\hooks\pre-merge-commit.sample 416B
.git\hooks\post-update.sample 189B
scws-lib\Makefile 22KB
go.sum 8KB
etc\dict\user.utf8.txt 2.41MB
sample.txt 89B
etc\dict\dict.utf8.xdb 13.65MB
共 100 条
- 1
资源评论
学习开源项目成就精彩人生
- 粉丝: 1033
- 资源: 1471
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功