第四次作业
文本分类
姓名:李书铮
导师姓名;杨伏洲
一、算法流程
数据预处理:对文本数据进行清洗、分词等预处理操作。
特征提取:将文本转换为特征向量表示,常用的方法包括词袋模型、TF-IDF 等。
模型训练:选择两种以上的文本分类算法进行模型训练,如朴素贝叶斯、决策树等。
模型评估:使用测试集对训练好的模型进行评估,计算精度、召回率、F1-measure 和混淆
矩阵等指标。
二、数据预处理
在文本分类任务中,数据预处理是一个重要的步骤,它可以对原始文本数据进行清洗和转换,
以提取有用的特征并减少噪声的影响。以下是数据预处理的步骤:
1. 去除数字
在文本中,数字通常对文本分类任务没有太大的贡献,因此我们可以去除文本中的数字。通
过使用正则表达式,可以方便地去除文本中的数字,例如使用 re.sub(r"\d+", "", text)将所有
数字替换为空字符串。
2. 去除非中英文字符
除了中文和英文字符,文本中可能包含各种特殊符号、标点符号或其他语言的字符,它们对
文本分类任务也没有太大的意义。因此,我们可以使用正则表达式去除非中英文字符,例如
使用 re.sub(r"[^\u4e00-\u9fa5a-zA-Z]", "", text)将非中英文字符替换为空字符串。
3. 分词处理
在中文文本处理中,将文本分成一个个词语是必要的,因为词语是文本的基本单位。通过使
用中文分词工具,如 jieba 库,可以将文本进行分词处理。使用 jieba.lcut(text)可以将文本进
行分词,返回一个词语列表。