stopwords_zh
中文停用词:收集中文停用词,只为去除常见的无用词。
用
可以用于等中文文本分词,只需比较单词是否在列表中即可。
Python代码:
#! /usr/bin/env python
# encoding: utf-8
import codecs
import jieba
if __name__ == "__main__":
str_in = "小明硕士毕业于中国科学院计算所,后在日本京都大学深造"
stopwords = codecs.open('stopwords', 'r', 'utf-8').read().split(',')
seg_list = jieba.cut_for_search(str_in)
for seg in seg_list:
if seg not in stopwords:
pr