# Introduction
基于 Nagao 算法统计词频,可以用于可能成词的词频统计,也可快速构建领域词典。
x=(c_1c_2...c_n), 判断成词的依据:
词频(n_freq)
左邻, 右邻较小值(n_av): min(l_av,r_av)
左邻,右邻均衡值(n_eta): 2*l_av*r_av/(l_av*l_av+r_av*r_av)
最小词长度(n_size)
最大词频(n_gram)
最小成词概率(n_threshold): sqrt(n_freq) /(1/l_av + 1/r_av)*min_{1<=i<=n-1}(n_freq(c_1...c_i)*n_freq(c_(i+1)...c_n))
# 使用
当前只测试 Python3。使用方法
```bash
python3 newword.py input_file output_file [newword.conf]
```
默认字符编码为 UTF8, 如果字符编码为 GBK, 则需指定配置文件,及对应的分隔符。
# 注意事项
1. 分隔符文件中的字符不会出现在可能成词中,如果需要包含,则在分隔符文件中删除。
2. 因为需要统计左邻,右邻,文件需读取两次。所以,在程序执行完毕之前,不要对语料进行移动,修改,删除等操作。
3. 本代码基于 python 的 dict 实现,读取语料与使用内存占比约为 1:100。
4. 如果分隔符分隔得到的为数字字母组合,则不参与成词统计,而是直接统计词频。
没有合适的资源?快使用搜索试试~ 我知道了~
基于Nagao的统计词频项目(免费提供全部源码)
![preview](https://csdnimg.cn/release/downloadcmsfe/public/img/white-bg.ca8570fa.png)
共10个文件
md:5个
dat:2个
conf:2个
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
需积分: 1 0 下载量 73 浏览量
2024-06-11
00:09:41
上传
评论
收藏 5KB ZIP 举报
温馨提示
频。该项目采用C++语言编写,目标是实现快速、准确的词频统计功能,适用于大规模文本数据的分析。 Nagao算法是一种基于统计的词频计算方法,通过对文本进行切分和词频统计,可以快速提取文本中的高频词汇,并生成详细的词频分布表。与传统的词频统计方法相比,Nagao算法具有更高的效率和准确性,尤其适用于处理复杂的语言结构和大规模文本数据。 在项目中,C++代码实现了从文本读取、分词到词频统计的整个流程。用户可以通过简单的配置和命令行操作,快速对指定文本文件进行词频统计。项目还提供了详细的注释和文档,解释了Nagao算法的原理和实现步骤。 项目免费提供全部源码,用户可以自由下载和使用这些资源。无论是初学者还是有经验的开发者,都可以通过这个项目深入理解Nagao算法,并掌握文本分析的基础知识和实践技巧。该项目非常适合用于自然语言处理、数据挖掘和文本分析等领域,帮助用户高效地进行文本数据的分析和处理。
资源推荐
资源详情
资源评论
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![7z](https://img-home.csdnimg.cn/images/20210720083312.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
收起资源包目录
![package](https://csdnimg.cn/release/downloadcmsfe/public/img/package.f3fc750b.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
共 10 条
- 1
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/default.jpg!1)
阿吉的呓语
- 粉丝: 2553
- 资源: 374
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- 创新MOM培训文档_物料主数据之包材_240625.pptx
- 医学图像分类数据集:CT胸部扫描癌症分类(4分类)【包括划分好的数据、类别字典文件、python数据可视化脚本 】
- 基于C51单片机设计四位数字频率计数码管显示实验Proteus仿真及软件实例源码.zip
- 基于C51单片机设计MAX7221数码管动态显示程序Proteus仿真及软件实例源码.zip
- DS18B20温度传感器实战应用与源码解析.zip
- python-leetcode面试题解之第384题打乱数组.zip
- python-leetcode面试题解之第383题赎金信.zip
- python-leetcode面试题解之第380题O1插入删除和获取随机元素.zip
- python-leetcode面试题解之第375题猜数字大小II.zip
- python-leetcode面试题解之第374题猜数字大小.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)