没有合适的资源?快使用搜索试试~ 我知道了~
官方首页: https://code.google.com/p/friso下载地址: https://code.google.com/p/friso/downl
资源详情
资源评论
资源推荐
Friso 开发帮助文档
(注:该文档只适合 friso 1.2 及以上的版本)
一. 关于 friso:
Friso 是使用 c 语言开发的一款中文分词器,使用流行的 mmseg 算法实现。完全基于模
块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP 等。源码无需修
改就能在各种平台下编译使用,加载完 20 万的词条,内存占用稳定为 14.5M。
官方首页: https://code.google.com/p/friso
下载地址: https://code.google.com/p/friso/downloads/list
Friso 最新版本功能说明:(可以略过)
1。目前最高版本:friso 1.6.0,同时支持对 UTF-8/GBK 编码的切分。
2。mmseg 四种过滤算法,分词准确率达到了 98.41%,请参考本算法的原作:
http://technology.chtsai.org/mmseg/。
3。支持自定义词库。在 dict 文件夹下,可以随便添加/删除/更改词库和词库词条,并
且对词库进行了分类。
4。简体/繁体/简体混合支持, 可以方便的针对简体,繁体或者简繁体切分。同时还可以
以此实现简繁体的相互检索。
5。支持中英/英中混合词的识别(维护词库可以识别任何一种组合)。例如:卡拉 ok, 漂
亮 mm, c 语言,IC 卡,哆啦 a 梦。
7。很好的英文支持,英文标点组合词识别, 例如 c++, c#, 电子邮件,网址,小数,百
分数。
8。(!New)自定义保留标点:你可以自定义保留在切分结果中的标点,这样可以识别出
一些复杂的组合,例如:c++, k&r,code.google.com。
9。(!New)复杂英文切分的二次切分:默认 Friso 会保留数字和字母的原组合,开启此
功能,可以进行二次切分提高检索的命中率。例如:qq2013 会被切分成:qq/ 2013/
qq2013。
10。支持阿拉伯数字/小数基本单字单位的识别,例如 2012 年,1.75 米,5 吨,120
斤,38.6℃。
11。自动英文圆角/半角,大写/小写转换。
12。同义词匹配:自动中文/英文同义词追加. (需要在 friso.ini 中开启 friso.add_syn
选项)。
13。自动中英文停止词过滤。(需要在 friso.ini 中开启 friso.clr_stw 选项)。
14。多配置支持, 安全的应用于多进程/多线程环境。
15。提供 friso.ini 配置文件, 可以依据你的需求轻松打造适合于你的应用的分词。
升级的详细功能变化,请查看附件里面的 CHANGES.md 文件。
二. 安装 friso:
先到 friso 官方网站下载最新版本的 friso: friso-{version}-src-dict.zip, {version}
表示版本号, 下同.
解压 friso-{version}-src-dict.zip 到{path}, 设{path}为你的解压后 friso 的根目录,
下同:
1. Linux, 在终端 cd 到{path}/src 目录后, 然后依次运行:
make
sudo make install
2. WinNT:
(1). 使用 VS 编译得到 dll 和 lib 文件,具体可以参考 Friso 讨论:
http://www.oschina.net/question/853816_135216
(2). 直接使用{path}/lib/win32 下的 friso.dll (默认使用编译(推荐))
(3). 使用 cygwin 从源码编译, 安装好 cygwin 后, 删除原有的 Makefile, 更改
Makefile.cygwin 为 Makefile, 打开 cygwin 的终端, cd 到{path}/src 下:
运行: make
在{path}/src 下即可得到 friso.exe 和 friso.dll
三. 配置 friso:
Friso 要做的配置工作很简单: 打开{path}目录, 找到 friso.ini 配置文件, 使用文本编
辑器打开即可.
找到 friso.lex_dir, 修改其值为词库目录绝对地址, ”并且必须以 /”结尾. 即:
friso.lex_dir = {path}/dict/GBK 或者 UTF-8/
例如: (回想第二步)假设你的 friso 解压在/opt/friso 下,使用 UTF-8 编码, 则:
friso.lex_dir = /opt/friso/dict/UTF-8/
friso.ini 配置文件:(可以不用理会)
#Friso 使用的切分编码。(0 表示 UTF-8, 1 表示 GBK, Friso-1.6.0)
friso.charset = 0
#词库绝对路径(注意词库分为 UTF-8 和 GBK)
friso.lex_dir = /c/products/friso/dict/UTF-8/
#最大匹配长度
friso.max_len = 5
#是否开启中文姓名识别(目前还不支持)
friso.r_name = 1
#英中混合词中文词数
friso.mix_len = 2
#中文姓氏修饰词长度
friso.lna_len = 1
#是否追加同义词
friso.add_syn = 1
# 是否保留不识别的词条 (1 保留, 0 直接过滤)
#@date 2013-06-13
friso.keep_urec = 0
#是否启用 sphinx 定制输出(1 开启, 0 关闭)
#@date 2013-10-25
friso.spx_out = 0
#是否过滤停止词
friso.clr_stw = 0
# 开启复杂英文的二次切分 (Friso-1.6.0)
friso.en_sseg = 1
#二次切分 sub Token 最小长度 (Friso-1.6.0)
friso.st_minl = 2
# 英文切分过程中默认保留的标点 (Friso-1.6.0)
friso.kpuncs = @%.#&+
#用于姓名识别中的阙值.
friso.nthreshold = 2000000
剩余14页未读,继续阅读
金山文档
- 粉丝: 24
- 资源: 306
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0