用python编写的文本聚类代码

preview
需积分: 0 1 下载量 172 浏览量 更新于2024-01-18 收藏 4KB PY 举报
用python编写的文本聚类代码,部分代码如下: import re # 去除文本中的表情字符(只保留中英文和数字) def clear_character(sentence): pattern = re.compile('[^\u4e00-\u9fa5^a-z^A-Z^0-9]') line = re.sub(pattern, '', sentence) new_sentence = ''.join(line.split()) return new_sentence train_text = [clear_character(data) for data in df["data"]] train_text[:1] #分词的过程较为缓慢,请耐心等待 import jieba train_seg_text = [jieba.lcut(s) for s in train_text] train_seg_text[:1]
Mrji1995
  • 粉丝: 159
  • 资源: 24
上传资源 快速赚钱
voice
center-task 前往需求广场,查看用户热搜

最新资源