对文本自动做SVM模型的训练。包括Libsvm、
Liblinear包的选择,分词,词典生成,特征选择,
SVM参数的选优,SVM模型的训练等都可以一步完
成。
该系统可以做什么
利用生成的模型对未知文本做预测。可自动识别
libsvm和liblinear的模型。
自动分析预测结果
计算多分类以及二分类的微观分类准确率,宏观分类准
确率,所有类的分类准确率。如果二分类中得到的结果
是预测的类标签,也可以用该函数计算。
计算多分类以及二分类中所有类别的F值、召回率、准确
率。
计算多分类以及二分类中对指定的类别,对特定阈值下
的F值、召回率、准确率。
多分类以及二分类中计算所有类别的在阈值区间中的每
个阈值每个类别的F值、召回率、准确率,旨在为用户分
析出每个类别最好的阈值
分词。对文本利用mmseg算法对文本进行分词。
特征选择。对文本进行特征选择,选择最具代表性的词。
SVM参数的选择。利用交叉验证方法对SVM模型的参数进行
识别,可以指定搜索范围,大于大数据,会自动选择子集做
粗粒度的搜索,然后再用全量数据做细粒度的搜索,直到找
到最优的参数。对libsvm会选择c,g(gamma),对与liblinear会
选择c。
对文本直接生成libsvm、liblinear的输入格式。libsvm、
liblinear以及其他诸如weka等数据挖掘软件都要求数据是具
有向量格式,使用该系统可以生成这种格式:label
index:value
SVM模型训练。利用libsvm、liblinear对模型进行训练。
利用LSA对进行Feature Extraction,从而提高分类效果
- 1
- 2
- 3
前往页