【搜索引擎的媒体倾向性研究】是一项探讨搜索引擎如何影响媒体信息传播和用户观点形成的学术研究。在互联网时代,搜索引擎已经成为人们获取信息和表达观点的主要平台。这项研究由清华大学的李智超进行,旨在揭示搜索引擎在展示新闻和信息时可能存在的媒体倾向性。 在【相关工作】部分,研究提到了多种文本倾向性分析方法。早期的研究包括基于机器学习的技术,如支持向量机、朴素贝叶斯和最大熵模型,以及基于图的最小切割方法。同时,还有基于词典的方法,如利用Hownet的情感词典进行无监督学习,以及结合句法信息进行更精确的分析。 【数据集合】选取了2007年1月至11月间关于各大搜索引擎的22565篇新闻网页,从中随机抽取了441篇进行人工标注,以评估新闻报道的倾向性。 【倾向性分析】阶段,研究者采用了Hownet发布的中文情感词典,包括正面、负面和程度词典,以确定文本的情感倾向。特征选择过程涉及信息熵的计算,用于挑选出最具区分度的特征。文本评分则通过正向、负向和中性词频的统计来计算,采用贝叶斯分类器对新闻报道进行正面、负面和无倾向性的分类。 【参数估计】和【贝叶斯分类】是模型构建的关键步骤。通过对特征的加权求和,以及贝叶斯概率公式,确定文本属于某一类别的概率。分类器将根据这些概率将新闻分类为正面、负面或中立。 【实验结果】部分显示,在22124篇新闻文档中,分类器能够正确识别6294篇正面报道、5100篇负面报道和10730篇无倾向报道。在随机抽取的218篇人工标注的文档中,分类器的三分类正确率为75.23%,二分类正确率为81.19%。这些结果显示了该方法在识别媒体倾向性方面的初步成效。 总结来说,这项研究关注了搜索引擎在呈现新闻时可能存在的媒体倾向性,通过分析文本特征、使用情感词典和贝叶斯分类算法,有效地识别了新闻报道的情感倾向。这一工作对于理解信息传播的公正性、用户观点的形成,以及媒体在公众舆论中的影响力具有重要意义。未来的工作可能涉及到扩大数据集、优化分类模型以及探究更复杂的倾向性表现形式。
- 粉丝: 2
- 资源: 3
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助