首都师范大学
Capital Normal University
目 录
中文提要 .....................................................................................................................1
外文提要 .....................................................................................................................2
目 录 ...........................................................................................................................3
第一章 绪 论 ...........................................................................................................4
1.1 文本自动分类研究的背景和意义 .............................................................4
1.2 问题的描述 .................................................................................................6
1.3 国内外文本自动分类研究动态 .................................................................6
第二章 中文文本分类技术研究 .............................................................................8
2.1 文本预处理 .................................................................................................8
2.1.1 文本半结构化 ...................................................................................8
2.1.2 自动分词 ...........................................................................................8
2.1.3 特征选择
[12]
.......................................................................................8
2.2 分类模型 .....................................................................................................9
2.2.1 贝叶斯(Naive Bayes)方法
[14]
.......................................................9
2.2.2 K-近邻(KNN)方法 ......................................................................9
2.2.3 决策树(Decision Tree)分类.....................................................10
2.2.4 基于投票的方法 ...........................................................................10
2.2.5 支持向量机(SVM)方法
[17]
......................................................11
2.3 分类性能评价 .........................................................................................11
第三章 基于支持向量机的中文文本分类 .........................................................12
3.1 统计学习理论..........................................................................................12
3.2 支持向量机原理 .....................................................................................14
3.3 支持向量机的特点 .................................................................................16
第四章 基于支持向量机的中文文本分类器的实现 .........................................17
4.1 系统体系结构..........................................................................................17
4.1.1 文本训练模块设计 ..........................................................................18
4.1.2 文本分类模块设计 ..........................................................................18
第五章 系统的性能测试 .....................................................................................19
5.1 开发环境和数据集 .................................................................................19
5.2 测试结果及分析 .....................................................................................19
第六章 总结与展望 ...............................................................................................21
6.1 全文总结 .................................................................................................21
6.2 进一步工作及展望 .................................................................................21
附录(附图) .........................................................................................................22
参考文献 .................................................................................................................25
致 谢 .....................................................................................................................27