文件说明:
1、base_dic_full.dic
hash索引 -- 字典带有词频和词性标志。
2、words_addons.dic
s 开头的表示停止词 u 后缀词(地名后缀、数学单位等) n 前导词(姓、汉字数词等) a 后导词(地区,部门等)
3、 not-build/base_dic_full.txt
没编译过的词典源码
4、重新编译词典的方法:
<?php
header('Content-Type: text/html; charset=utf-8');
require_once('phpanalysis.class.php');
$pa = new PhpAnalysis('utf-8', 'utf-8', false);
$pa->MakeDict( sourcefile, 16 , 'dict/base_dic_full.dic');
echo "OK";
?>
没有合适的资源?快使用搜索试试~ 我知道了~
PHP简易中文分词
共9个文件
txt:4个
php:3个
dic:2个
需积分: 39 5 下载量 84 浏览量
2018-08-04
14:03:59
上传
评论
收藏 2.78MB ZIP 举报
温馨提示
PHP简易中文分词,免组件分词 $ca = new cls_analysis(); //把一段短文本进行拆分 $str = "把一段短文本进行拆分"; $ca->SetSource( $str, 'utf-8', 'utf-8'); $ca->StartAnalysis(); $okstr = $ca->GetFinallyResult(' '); //指定分隔用的字符,默认是空格 //从一段长文本里提取出现次数最高的关键字 $str = "输入一段稍为长一点的文本"; $ca->SetSource( $str, 'utf-8', 'utf-8'); $ca->StartAnalysis(); $keywords = $ca->GetFinallyKeywords( 10 ); //参数指定的是关键字提取的个数
资源推荐
资源详情
资源评论
收起资源包目录
phpanalysis.zip (9个子文件)
phpanalysis
demo.php 6KB
dict
words_addons.dic 3KB
base_dic_full.dic 8.05MB
not-build
base_dic_full.txt 2.49MB
readme.txt 603B
phpanalysis.php 37KB
readme
license.txt 24KB
readme.txt 305B
dict_build.php 1KB
共 9 条
- 1
资源评论
qq_39817055
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功