论文研究-面向多通道的文本特征选择方法分析 .pdf

所需积分/C币:7 2019-08-15 12:29:45 386KB .PDF

面向多通道的文本特征选择方法分析,冯莎莎,王秀文,随着Internet的迅猛发展,信息发布和传播通道(比如新闻、论坛、博客等)日益增加,话题跟踪技术也相应地从单通道模式扩展到多通道�
国武技论文在线 它度量一个特征能够给分类系统带来多少信息。得到的是在正例样本中出现频率高而在 反例样本中出现频率低的特征,以及那些在反例样本中出现频率高而在正例样本中出现频率 低的特征 ,期望交叉熵) 公式为 它反映了文本类别的概率分布和在出现了某个特征项的条件下文本类别的概率分布之 间的距离 ,文本证据权) ∑ 公式为: 它比较了类出现的概率和在给定特征下类出现的条件概率之间的差别 ,几率比) 几率比公式为 在公式中,表示正样本的情况,表示负样本的情况 特点是:只关心文本特征对于目标类的分值。只适用于二元分类的情况。 多通道实验数据集的分析 传统语料是来自单一通道的,涉及多个类别,文档数量在类别间分布不均匀,即类别不 平衡。多通道语料,是来自多个通道的语料,涉及多个类别。那么在同一类别中,来自不同 通道的文档数目是否平衡?忽略类別,不同通道的文档数目、文档平均长度是否平衡?在本 文中,我们暂且不考虑第一点,上要硏究第二点,以及由此引发的问题 为了探究上面的问题,本人从新闻、博客、论坛三个通道获取了某一时间段内涉及城乡 建设、工业、科技教育、能源、商业贸易五个类别的文档,共篇。文档数日的类别和通 道分布见表下文中提到的双通道语料,是由新闻通道和博客通道的 文档做训练集, 篇文档做测试集;三通道语料是由新闻、博客、论坛通道的篇做训练集,篇做 测试集。卜面我们将从通道间文档数量和文档平均长度以及由此引发的通道间特征数目三方 面进行分析。 国武技论文在线 表2文档数目的类别和通道分布 文档数量」城乡建设」「业科技教育能源商业贸易总的 新闻 67 29 32 49 232 博客 61 75 292 论坛 8 31 76 总的 149 89 86 12I 155 600 通道间文档数量不平衡 在双通道语料中,训练集中,新闻、博客两个通道的文档数量分别是和,在 三通道语料中,来自新闻、博客、论坛通道的文档数量是 和,由此可见,在多 通道语料中,通道之间的文档数量存在不平衡现象 通道间文档平均长度不平衡 图从总类和各个类别两个角度显示了通道问文档长度的平均值。从图可以看出,博 客通道的文档长度比新闻通道和论坛通道中的文档的平均长度都要长。以科技教育类为例, 三通道语料中,博客通道文档集的平均长度约为新闻通道的倍,是论坛通道的倍; 在双通道语料中,博客通道文档集的平均长度约为新闻通道的倍。由此可见,在多通道语 料中,通道之间的文档平均长度存在很大的不平衡性。 2000 1800 1600 1400 1200 1000 ■新闻 80( 搏客 600 400 论坛 200 坂乡建设工业和技教育能源商业贸易总的 文鸡类别 图各通道文档平均长度 通道问特征数目的不平衡性 由上面两点可知,不同通道的文档数量和文档的平均长度都存在不平衡性。特征集合是 对所有文档经过分词和去停用词后得到的词语的集合。它和文档的长度、文档的数量都有密 切的关系。而文档的长度、文档的数量在通道间都存在不平衡性,由此推测通道间的特征数 目也存在不平衡性。对此,我们做了统计。图和图分别显示了双通道和三通道中特征数 目的分布情況。由图和图可知,不同通道的特征数目的确存在不平衡性,且不同通道的 特征数据有交叉和重叠。 从文本表示模型向量空间模犁来看,特征数对应着向量的长度,而来自三个通道的特 征数的不均衡,意味着经过特征选择之后的向量空间模型中,来自不同通道的特征的比例也 不尽相同。对于图和图来说,来自博客通道的特征占多数,一个直观的结论是:该语料 更有利」对来自博客逦道的文木进行分类,新闻通道次之,论坛通道最差。 国武技论文在线 248 72 299 新 2877 博 闻 4944 客闻 93 2467 图两个通道之间特征的交叉和覆盖 图三个通道之间特征的交叉和覆盖 实验 实验选用 做权重计算,利用在文本分类领域应用广泛且分类性能较好的最近 邻算法 分类算法。文中通过分类效果间接比较了七种特征选择方法在 多通道语料上的性能,为了更好的说明效果,我们做了两组实验:第一组用新闻和博客双 通道语料,第组采用新闻、博客和论坛三通道语料 性能评估 为了综合考虑各个类别的准确率和召凹率,全面评价系统性能,本文米用宏平均值 作为评判指标。其定义为 其中和分别是各个类的准 确率和召凹率,各自定义为: /+,各个参数的定义如表所小 表3参数定义 相关的不相关的 匚检索到的A 匚未检索到的C 实验结果 实验结果如图和图所示,由此我们得出以下结论: 在本次多通道语料实验中 和的效果较好,、 统计量 之,效果较差。 之所以效果较差,原因是比较适合二元分类,在我们的多通道语料中,涉及 多个类别,而且语料不平衡,所以的效果较差。 和在本次实验中表现较好,性能相当。其中,的优势在三通道中当选取 的特征数为 时,尤为明显 对特征评佔的依据是一个特征能够给分类系统带来多少信息。它将整个文档集看做 符合一定规律的信息源,而不考虑具体的文本,这样就可以很好的避免了多通道的各种不平 衡性。它选择在正例样本中出现频率高而在反例样本中出现频率低的特征,以及那些在反例 样本中出现频率高而在正例样本中出现频率低的特征,从而选岀信息量丰富的特征。 公式中 是可信息,采用 加权,这样比一般的加权方法或 国武技论文在线 者都能更好的避廾由多通道的文档数量的不平衡性引发的类别不平衡性,采用条件機率 加权,避免使用绝对概率,这是胜出的地方。 C.9 0.8 日0 20.75 0.7 0.55 C.6 1003005031000200030004000500050007000 迩定的特征数目 -docFreq-rtermFreg -G-X2-1-OR--ECE-WET 图双通道实验结果 当特征维数从到变化时,宏平均值的变化较大,而在特征维数大于 后,宏平均值趋于平稳。在特征数之后,方法 统计量和有些许震 荡,说明当特征数増加的时侯,“噪音”对这些方法的影响较人 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 1003005001000200030c04000500060007000 选择的特行数目 一 dor Freg k Freq一一X2-0R-ECE=WET 图 通道实验结果 结论 本文给出了在多通道模式下比较了七种特征选择方法,现有的方法和语料都有一定的限 制,而随着网络的迅速发展,面向多通道必不可少。我们日后需要进一步进行一下工作 枃建规模更大、覆盖类别更广泛的多通道语料库,进一步分析特征选择等传统文本分析方法 的有效性;在现有特征提取方法的基础上,将通道因素引入到特征选择中,提出新的适 合多通道特征选择的方法。 参考文献 国武技论文在线 刘斌黄铁车程车高文一种新的基于统计的自动文本分类方法中文信息学报 胡仹妮,徐蔚然,郭军等中文文夲分类中的咭征选择算法研究[],光通信硏究,年第期

...展开详情
img

关注 私信 TA的资源

上传资源赚积分,得勋章
最新资源