没有合适的资源?快使用搜索试试~ 我知道了~
数学建模互联网用户识别.docx
0 下载量 67 浏览量
2022-10-24
15:34:26
上传
评论
收藏 148KB DOCX 举报
温馨提示
试读
20页
数学建模互联网用户识别
资源详情
资源评论
资源推荐
互联网论坛用户识别
中国互联网发展经历了 10 年的快速增长期,已经形成较为成熟的应用。现在的互联网正从信息单向
推送模式向互动模式转型,互联网论坛已经成为互联网企业与用户、用户与用户之间重要的互动平台。
在这样的互动氛围中衍生出了很多商业机会和运营难题。比如,企业如何通过论坛发掘出有商业价
值的用户?互联网公司如何通过激励用户来维持论坛热度?回答这些问题和解决运营难题的首要条件是,
企业能够对论坛内的用户进行有效识别。
这些识别需要达到如下四个结果:
1、言论领袖:发现论坛言论领袖,即最具影响力的论坛人物。
2、话题用户:精确定位关注某一特定话题的用户
3、活跃用户:识别论坛活跃用户。
4、关系圈:发掘论坛人际关系圈。
研究建议:
1. 言论领袖的发现可以从其所发帖子的跟帖数量、精华贴数、置顶时间、发帖总
数等变量切入,并进行综合评价。
2. 话题用户的定位可从其主要跟帖主题、谈论内容判断。不需要完全准确,大概
识别出范围即可。例如,diybbs.it168.com 论坛中对游戏话题非常关注的用户。
3. 活跃用户可从登录频率、参与话题数量等方面综合评价。
4. 关系圈可从帖子关联关系等方面综合评价。
5. 建模所用数据以你能在这些论坛上注册后能看到的所有内容为准,不限于文字、
数字、符号。例如,发帖时间、主帖跟帖数量(主帖楼高)、用户登录频率、用
户最后登录时间、发帖积分、帖子关键字。因为,你能看到的内容就是爬虫机
器人可获取的内容,在技术上以可完全实现,并进入到结构化数据库进行数据
挖掘。
研究对象包括但不限于如下论坛:
1、http://bbs.55bbs.com
2、http://diybbs.it168.com
3、http://club.autohome.com.cn/bbs
4、http://bbs.pchome.net/bbs
最后成果请提炼形成通用模型,并针对言论领导、话题用户、活跃用户、关系圈四
个要求提出实例说明。例如,在 http://diybbs.it168.com 论坛上关注游戏话题的话题用户
的识别,在 http://bbs.55bbs.com 论坛上的活跃用户等。考虑到各个论坛结构和内容上的
差异,通用模型使用的变量应尽量考虑各论坛间的通用性,定量和定性结合为佳,通用
模型配合文字或使用方法论说明为佳。
本题要说明识别所用数据获取途径或方法,包括数据挖掘技术以及程序代码。
第三届 BiZ-WiZ 杯华中地区大学生数学建模邀请赛
题目: 互联网论坛用户识别
【摘 要】
中国互联网发展经历了 10 年的快速增长期,已经形成了较成熟的应用。现在互联网论
坛已经成为企业与用户、用户与用户之间的重要互动平台。企业如何去发掘其中的商业价
值和解决运营难题关键在于企业能够对论坛内的用户进行有效识别。
本文给出如何运用火车采集器采集对论坛用户信息进行采集,并进行挖掘处理,然后
运用层次分析法进行建模,将数据进行优选,并提炼出通用模型,解决如何找出言论领袖、
话题用户、活跃用户及关系圈的问题。
模型的优点在于能系统地获取数据,挖掘数据以及处理数据,并考虑到各论坛间的通
用性。通过模型,互联网企业能够对论坛内的用户进行有效识别,从而解决运营难题以及
抓住其中的商业机会。
一、问题的背景
随着科学技术的发展,互联网的使用开始普及化,网络论坛也越来越多,论坛中用户
的人数也随之增加。现在互联网论坛已经成为企业与用户、用户与用户之间的重要互动平
台。互联网企业为了全面的掌握市场信息,解决运营难题,互联网公司需要对论坛中的用
户信息进行分析与处理,对用户进行有效的识别,进而有效的挖掘用户的商业价值,提高
用户在论坛中的活跃性,从而提高论坛热度,促进商业效应。
二、问题的提出
论坛中在企业与用户、用户与用户的互动氛围中衍生出了很多商业机会和运营难题。
比如,企业如何通过论坛发掘出有商业价值的用户?互联网公司如何通过激励用户来维持
论坛热度?回答这些问题和解决运营难题的首要条件是,企业能够对论坛内的用户进行有
效识别。
这些识别需要达到如下四个结果:
1、言论领袖:发现论坛言论领袖,即最具影响力的论坛人物。
2、话题用户:精确定位关注某一特定话题的用户
3、活跃用户:识别论坛活跃用户。
4、关系圈:发掘论坛人际关系圈。
由于影响四种结果都不相同,所以将四种结果分开进行识别。我们利用层次分析的方
法构建层次结构,在每种情况下进行得出排序结果进行排序选优。
三、基本假设
1.假设从互联网上获取的用户信息都是真实的,准确的;
2.假设用户信息数据可以准确量化;
3.假设量化时间以采集数据时间为准;
4.假设每个论坛中的用户信息格式都为用户名、UID、性别、注册日期、上次访问时间、帖子数量、
积分、跟帖数。
(一)论坛领袖的识别
言论领袖即最具影响力的论坛人物,影响言论领袖的因素有四个:跟帖数量、精华贴数、置顶时
间、发帖总数,我们根据各个因素的影响程度构造比较矩阵,形成层次结构,得出排序结果,识
别论坛领袖。
1.建立层次结构
问题的层次结构公分三层:第一层为目标层(O):综合选优排序;第二层为准则层(C):影响因
素,共有 4 个,依次为帖数量、精华贴数、置顶时间、发帖总数分别记为 C
k
(k=1,2,3,4);
第三层为方案层(P):论坛中有 N 个用户,依次记为 P
n
(n=1,2,…,N)。
2.确定准则层(C)对目标层(O)的权重 W
1
根据每个因素对评价结果的影响程度小组讨论得比较矩阵:
A=
�
�
�
�
�
�
�
�
�
�
�
�
12/113/1
212/16/1
1213/1
3631
式中
a
12
表示发帖数 C
1
与跟帖数 C
2
对选择言论领袖这个目标的重要之比为 3:1,
a
13
表示发帖数 C
1
与
其他因素 C
3
对选择言论领袖这个目标的重要之比为 6:1,
a
ij
表示 Ci 与 Cj 对选择言论领袖的重要之比,
全部比较结果构成上式。 进行成对定性比较时参考了如下表:
尺 度
a
ij
含 义
1
Bi 与 Bj 的影响相同
3
Bi 比 Bj 的影响稍强
5
Bi 比 Bj 的影响强
7
Bi 比 Bj 的影响明显的强
9
Bi 比 Bj 的影响绝对的强
2, 4, 6, 8
Bi 与 Bj 的影响之比在上述两个相邻等级之间
1,1/2 , … , 1/9
Bi 与 Bj 的影响之比为上面
a
ij
的互反数
表 1 1-9 尺度
a
ij
的含义
经计算求得 A 的最大特征值为
�
max
�
4.0015,相应的特征向量作为归一化有,W
1
=(2.1534,0.7177,0.3276,0.8011)
T
则一致性指标 CI
1
�
0.0005,一致性指标 CR
1
<0.1,于是 W
1
作为 C 层对 O 层的权重向量。
3.确定方案层(P)对准则层(C)的权重 W
2
每个因素都能影响论坛领袖的排序结果,于此可以分别构造 P 层对准则 C
k
的比较矩阵
B
k
=(b
)(
,
k
ji
)
NXN
,
剩余19页未读,继续阅读
猫一样的女子245
- 粉丝: 96
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0