第27卷 第3期 湖 南 城 市 学 院 学 报 (自然科学版) Vol. 27 No.3
2018年5月 Journal of Hunan City University (Natural Science) May 2018
收稿日期:2018-04-27
作者简介:何春辉(1991-),男,湖南永州人,工程师,硕士,主要从事数据挖掘及信息处理研究﹒E-mail: xtuhch@163.com
基于描述文本和实体标签的网络视频分类算法
何春辉
(湘潭大学 数学与计算科学学院,湖南 湘潭 411105)
摘 要:目前,各大社交平台和视频点播网站的网络视频数量出现了爆炸式的增长,如何快速准确地对
这些网络视频进行归类和管理成为了研究的热点问题﹒为了较好地解决这种分类任务,文中提出了基于描述
文本和实体标签的网络视频分类算法,该算法结合了描述文本内容和知识图谱中的实体标签来构造文档-特征
矩阵﹒实验结果表明使用了实体标签的视频分类算法性能更好,平均精确率和平均召回率以及平均F
1
值比未
使用实体标签的视频分类算法要高2%以上﹒
关键词:特征提取;视频分类;实体标签;SVM
中图分类号:TP391 文献标识码:A doi:10.3969/j.issn.1672-7304.2018.03.0010
文章编号:1672
–
7304(2018)03
–
0046
–
03
Web Video Classification Algorithm Based on Description Text and Entity
Tag
HE Chunhui
(School of Mathematics and Computational Sciences, Xiangtan University, Xiangtan, Hunan 411105, China)
Abstract: At present there has been an explosive growth in the number of web video on major social
platforms and video on demand web sites. How to quickly and accurately classify and manage these web
videos has become a hot spot of research. In order to solve this classification task, a web video classification
algorithm based on description text and entity tag was proposed in this paper. The algorithm combines the
description text and the entity tags in the knowledge graph to construct a document-feature matrix. The
experimental results show that the video classification algorithm using the entity tag shows better performance,
and the average precision and average recall and the average F
1
value are higher 2% than the video
classification algorithm of the unused entity tag.
Key words: feature extraction; video classification; entity tag; SVM
随 着 互 联 网 和 大 数 据 技 术 的 发 展 , 像
YouTube、推特和腾讯视频这种大型社交视频网
站的网络视频数量出现了爆炸式的增长﹒大量的
网络视频造成了数据堆积
[1-2]
,且目前无法及时准
确对它们进行有效管理和应用﹒于是,快速准确
地给出网络视频的分类
[3-4]
,对于提升用户的体验
效果和发现潜在的商业价值有重要意义﹒网络视
频分类是指将未分类的视频数据通过某种分类算
法自动划分到事先指定类别的过程
[5]
﹒在常见的
网络视频数据中,视频所含内容的重要信息都可
以通过文本形式
[6-7]
来进行描述﹒这些文本信息
经常出现在视频的简介部分、社交信息
[8]
以及一
些实体标签数据中,通过分析挖掘与视频相关联
的文本信息,可以间接对网络视频进行快速有效
的分类
[9]
﹒由上述分析,本文提出了基于描述文
本和实体标签的网络视频分类算法,它同时结合
描述文本和实体标签来构造分类算法的特征,可
以快速准确地完成网络视频分类任务﹒最后在相
应的公开网络视频数据集上对算法的性能进行了
测试,并给出了相应的结论﹒
1 特征提取
首先是计算文本中词语的权重,然后才可以
根据权重对词语进行筛选得出特征词
[10]
﹒本文
采用了 TF-IDF 算法来计算文本中所有词语的权
重﹒其中 TF 是词频,用来统计文本中词出现的
次数;IDF 为逆文档频率,它可以有效过滤一些
无意义的词﹒TF 的计算如公式(1)所示﹒
i
i
k
TF
, (1)
评论0