# 基于TF-IDF的中文关键词提取
## requirements
默认环境python3,需要结巴分词器的支持
```bash
$ pip install jieba
```
## IDF(逆文档频率)生成
用法:
```bash
$ python gen_idf.py -i <inputdir> -o <outputfile>
```
- `-i <inputdir>` : 语料库目录,程序会扫描目录下的所有文件
- `-o <outputfile>` : 保存idf到指定文件
## TF-IDF关键词提取
用法:
```bash
$ python tfidf.py -i <idffile> -d <document> -t <topK>
```
- `-i <idffile>` : idf文件路径
- `-d <document>` : 所需处理文档路径
- `-t <topK>` : 返回topK结果
### 示例
```bash
$ python tfidf.py -i idf.txt -d test.txt -t 20
```
返回结果:
```
核
处理器
服务器
系统核心
封装
系列
插槽
核心
主频
产品
伊斯坦布尔
英特尔
功耗
多处理器
低仅
折合
浮点运算
性能
构建
吹起
```
> 注:该repo中提供的idf.txt由清华NLP组的新闻数据集训练获得。
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
NLP:基于TF-IDF的中文关键词提取.zip (7个子文件)
segmenter.py 342B
idf.txt 33.59MB
LICENSE 1KB
test.txt 2KB
tfidf.py 2KB
README.md 964B
gen_idf.py 2KB
共 7 条
- 1
方案互联
- 粉丝: 18
- 资源: 967
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页