传 统社会媒体,其发展态势相当之强劲,已逐渐成为人们 生活中不
可缺少的一部分。微博 2018 年第二季度财报发布的数据显示,微博
月活跃用户数 4.31 亿,年度净增用户约 7000 万,同比增长 19%,季
度净增用户 2000 万,环比增长 5%,其中,93%为移动端用户;日活
跃用户数 1.90 亿,年度净增用户约 3100 万,同比增长 15%,季度净
增用户约 600 万,环比增长 3%,DAU 占比 MAU 44.1%;微博移动
端 MAU 已持续 2 年高于总体 MAU 增速,18Q2 移动端 MAU 为 4 亿,
同比增长 21%,用户稳定转向移动社交,本季度移动端用户占比仍维
持在 93%。可见,微博平台上集聚着非常庞大的用户群体和海量的文
本信息资源。这些文本信息资源与其他媒体的商品描述、论坛评论、
博客留言和网络即时消息等类似,表现为片段性的描述说明、观点评
论或情感抒发,是一种典型的短文本,具有很短的文字内容。
近几年在各种国际国内重要刊物和会议上出现了越来越多的关于
微博短文本的研究成果。目前,关于微博短文本的研究主要从两个方
面展开:一是研究微博短文本的预处理技术,即研究原始数据的压缩、
筛选、表示和选择等一系列过程的处理方法,为后续微博短文本学习
及应用研究提供良好的数据环境;二是通过分析微博数据的特点构建
分类、聚类或其他学习模型,以充分挖掘出短文本内容之间的内在联
系,从而帮助用户发现隐藏在微博数据中的潜在规律或解决生活中的
现实问题,例如热点事件发现、意见领袖识别、网络内容监测、消极
网络舆情检测等。
本文通过对近几年出现在国内外重要期刊和会议上的短文本研究
评论0
最新资源