中文文本预处理，Word2Vec训练计算文本相似度.zip

共3个文件

py：2个

csv：1个

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

word2vec

文本预处理

文本相似度

5星 · 超过95%的资源 1 下载量 125 浏览量 2024-01-07 13:22:20 上传评论 1 收藏 1.19MB ZIP 举报

温馨提示

中文文本预处理&Word2Vec 1. 首先运行文本预处理.py 包括数据导入、匹配清洗、分词等 2. 然后运行词向量训练.py 利用word2vec，计算文本相似度

资源推荐

资源详情

资源评论

收起资源包目录

中文文本预处理，Word2Vec训练计算文本相似度.zip （3个子文件）

Word2vec-with-Chinese-character-master

文本预处理.py 1KB

词向量训练.py 400B

datasets

ChnSentiCorp_htl_all.csv 2.77MB

共 3 条

# -*- coding: utf-8 -*- import pandas as pd raw_data = pd.read_csv('./datasets/ChnSentiCorp_htl_all.csv') #观察数据分布 #print('评论总数：%d' % raw_data.shape[0]) #print('积极评论：%d' % raw_data[raw_data.label==1].shape[0]) #print('负面评论：%d' % raw_data[raw_data.label==0].shape[0]) #得到文本数据 #text = raw_data.drop(['label'], axis=1) text = [] for i in range(raw_data.shape[0]): text.append(str(raw_data.review[i])) comment = '\n'.join(text) #清洗文本数据-用正则表达式删去数字、字母、标点符号、特殊符号等 import re symbols = "[A-Za-z0-9\!\%\[\]\,\。\.\，\、\~\?\(\)\（\）\？\！\“\”\:\：\;\"\"\；\……&\-\_\|\．\Ａ．Ｂ．Ｃ\*\^]" comments = re.sub(symbols, '', comment) #分词 import jieba comments_list = jieba.cut(comments)#精确模式 #comments_list = jieba.cut_for_search(comments)#搜索引擎模式 x_train = ' '.join([x for x in comments_list]) #用空格连接分好的词 #保存数据 open('./datasets/train.txt', 'w+',encoding='utf8').write(x_train)

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

资源评论