## 基于字典检索、RMM算法的分词处理
- 版本: v0.10 Beta
- 编译
+ `Data/base.ct` 必须存在,但可以为空
+ 新增加的词可以以 `.ct`结尾的文件并放在 `Data/addones` 下而无须理会名字,编译时将自动合并。
+ 新增词可以是中文、数字、英文、中英文数字组合(其它语言系未测试,理论上是可行的),一行一个方式增加
+ 允许手动设定 `Data/addones` 在位置或重新定义路径
+ 编译后的目标文件默认位置 `Bin/compile.ctx`, 手动设置时不带后缀 `.ctx`
```sh
php -f $PATH/Compile.php
```
- 分词
```php
$splitword = \Lib\Splitword::getInstance();
$splitword->initRetrieval('Bin/compile.ctx');
$splitword->exec('金蝉脱壳百里挑一金玉满堂背水一战霸王别姬、');
print_r($splitword->getRetrieved());
Array
(
[664c5f] => 霸王别姬
[c9aeb4] => 背水一战
[21d5d9] => 金玉满堂
[6ca208] => 百里挑一
[2fddc8] => 金蝉脱壳
)
```
```php
$splitword = \Lib\Splitword::getInstance();
$splitword->initRetrieval('Bin/compile.ctx');
$splitword->setType('max'); // 最大可能的检索出所有存在于字典的词, 默认: general (小写)
$splitword->exec('金蝉脱壳百里挑一金玉满堂背水一战霸王别姬、');
print_r($splitword->getRetrieved());
Array
(
[664c5f] => 霸王别姬
[c9aeb4] => 背水一战
[21d5d9] => 金玉满堂
[6ca208] => 百里挑一
[2fddc8] => 金蝉脱壳
[b138c8] => 霸王
[06f557] => 金玉
[00c20f] => 百里
[a7645d] => 一战
[097d0f] => 满堂
[aa82f9] => 挑一
[caab23] => 脱壳
[0c789c] => 金蝉
)
```
- 检索
```php
$retrieval = \Lib\Retrieval::getInstance();
$retrieval->setFile('Bin/compile.ctx')->init();
var_dump($retrieval->match('测试'));
$retrieval->end();
```
- 编码
```php
$compile = new \Lib\Compile();
$compile->encode('测试');
$code = $compile->getCode();
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【项目资源】: 包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。 包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。
资源推荐
资源详情
资源评论
收起资源包目录
基于字典检索、RMM算法的分词处理.zip (14个子文件)
资料总结
LICENSE 11KB
Buffer
Filec.php 4KB
Folder.php 2KB
Char.php 5KB
Compile.php 430B
Lib
Consts.php 256B
Splitword.php 6KB
Compile.php 2KB
Make.php 7KB
Retrieval.php 6KB
Bin
compile.ctx 1.5MB
.gitignore 80B
README.md 2KB
Data
base.ct.sample 1.59MB
共 14 条
- 1
资源评论
妄北y
- 粉丝: 1w+
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Picasso_v3.1 2.ipa
- chromedriver-mac-arm64.zip
- 蓝zapro.apk
- chromedriver-linux64.zip
- UCAS研一深度学习实验-MNIST手写数字识别python源码+详细注释(高分项目)
- 基于Python和PyTorch框架完成的一个手写数字识别实验源码(带MINIST手写数字数据集)+详细注释(高分项目)
- 基于Matlab在MNIST数据集上利用CNN完成手写体数字识别任务,并实现单层CNN反向传播算法+源代码+文档说明(高分项目)
- NVIDIA驱动、CUDA和Pytorch及其依赖
- 基于SVM多特征融合的微表情识别python源码+项目说明+详细注释(高分课程设计)
- html动态爱心代码一(附源码)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功