实验一:文本的分类
1. 实验目的
观察网页结构,利用爬虫算法爬取某网站的几类新闻网页内容,通过对其进行预
处理、分词以及特征选择等,建立特征词典,构建每个文章的特征向量。之后利用分
类算法,如朴素贝叶斯、 等,针对训练集的特征向量以及类标签进行训练,得到
分类模型,并通过计算在测试集上的预测准确率、召回率等对不同分类器的分类效果
以及不同参数影响进行性能评估,且通过 曲线直观对比分类效果。
2. 实验进度
本实验由一人完成,所以在此列出实验进度完成时间表。
时间 内容
学习 基本语法
了解爬虫算法,掌握操作 的 和网页解析器 ,观察
新浪几类新闻资讯网页结构的 标签,编写代码,抓取 类共 万多
篇文本的新闻内容,保存到本地。
了解常用的几种分词方法,选用 ! 分词和词性提取包作为本实验的分词
工具,并去除停用词、无关词"自己加入的#等仅仅保留 $ 为名词的词
语,保存到文本中。
%
统计每篇文章中的出现词语的词频信息、每个类别中出现词语的词频信
息、每个类别中出现的词各自在多少篇文章中出现的信息,以便之后进行
卡方检验以及 & 计算。
'
掌握卡方检验的原理并完成代码实现,得到每个类别中的 () 值较大的前
*的词语作为此类的关键词,保存到文本中。
+,
搜 索 了 解 学 习 中 进 行 科 学 计 算 和 文 本 分 类 的 库 , 如
、-.、-/ 等,并通过学习 & 代码掌握使用的基本方法。
,
针对以上过程保留的所有文章中的所有关键词,作为当前特征词典,利用
-/ 的 01. 包计算所有词语 & 值并归一化作为特征向
量。并利用 -/ 的 01. 包中 . 再次筛选特征词进行降
维。
自行编写实现朴素贝叶斯算法代码,并了解掌握 -/ 包中分类器的调用
方式。
搜索博客查看前人的分类实现经验,了解性能评估方式,掌握交叉验证、
准确率、召回率等相关概念及代码实现,测试不同分类算法的分类效果。
并得到混淆矩阵。
%
了解 曲线 实现方法,直观对比不同分类器的分类效果。
'+
撰写实验报告。
3. 实验环境
2,3" 位#
43," 位#、4. 可视平台
评论0
最新资源