中英文关键词提取方法与 Python 示例
关键词提取是自然语言处理(NLP)中的一个重要任务,它有助于理解文本的主题和内容。
在处理中英文关键词提取时,可以使用不同的方法和工具。本文将介绍一些常用的中英文关
键词提取方法,并提供 Python 示例代码。
中文关键词提取
1. 基于 TF-IDF 的关键词提取
TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用于关键词提取的统计方法。
在 Python 中,你可以使用 jieba 库进行中文分词和 TF-IDF 计算。
首先,确保已安装 jieba 库:
pip install jieba
然后,可以使用以下代码进行中文关键词提取:
import jieba.analyse
# 输入文本
text = "这是一段中文文本,我们要从中提取关键词。"
# 中文分词
words = jieba.cut(text)
# 提取关键词
keywords = jieba.analyse.extract_tags(text, topK=10)
print("中文关键词:", keywords)
2. 基于 TextRank 的关键词提取
TextRank 是一种图算法,用于关键词提取和摘要生成。你可以使用 jieba 库的 TextRank 实现
来提取关键词:
import jieba.analyse
# 输入文本
text = "这是一段中文文本,我们要从中提取关键词。"
# 提取关键词
keywords = jieba.analyse.textrank(text, topK=10)
print("中文关键词:", keywords)