1、seg_text方法主要是分词使用。可以调用scseg包下的seg_text方法进行分词。例如:seg_text(u'第四十七中学')
2、keywords是生成关键字使用,列出所有的分词可能,此功能是做term时候防止漏词而设计,可以枚举出所有的分词结果。例如:keywords(u'研究生命起源')
3、另外提供个自学习的小工具,可以根据文本提取词组。提供个以\n字符作为分割的语料,输入learn命令,即可以学习出词组。
4、learn命令说明:learn 3 /home/xxx/corpus.txt /home/xxx/save_file.txt,其中3代表出现的次数,即两个字连续出现次数大于3次的我们认为是一个词。/home/xxx/corpus.txt代表的是语料库的位置,/home/xxx/save_file.txt代表的是学习结果存储的位置。
5、用户可以自定义词库,只需将词库的扩展名为dic,的文件放入scseg/data目录下即可,格式参考原有词库。也可以调用word模块下Dictionary的load函数,自定义词典目录位置。
PyPI 官网下载 | scseg-1.4.5.tar.gz
版权申诉
156 浏览量
2022-01-16
03:08:42
上传
评论
收藏 3.09MB GZ 举报
挣扎的蓝藻
- 粉丝: 13w+
- 资源: 15万+
最新资源
- vscode-1.64.1.tar源码文件
- vscode-1.64.0.tar源码文件
- vscode-1.52.0.tar源码文件
- Music-Player +PlayerActivity+ rockplayer+ SeeJoPlayer 播放器JAVA源码
- vscode-1.46.0.tar源码文件
- 最近很火植物大战僵尸杂交版2.08苹果+安卓+PC+防闪退工具V2+修改工具+高清工具+通关存档整合包更新
- 超级好用的截图工具PixPin,可录制Gif图
- Screenshot_2024-05-21-17-06-42-64_2332cb9b27b851b548ba47a91682926c.jpg
- 毕业设计参考 - 基于树莓派、OpenCV及Python的人脸识别
- node-v18.20.2-linux-arm64
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈