没有合适的资源?快使用搜索试试~ 我知道了~
中国科学院信息工程研究所-田甜-挑战2-答卷1
需积分: 0 0 下载量 6 浏览量
2022-08-03
16:08:45
上传
评论
收藏 1.59MB PDF 举报
温馨提示
试读
11页
2016 年中国可视化与可视分析大会数据可视分析挑战赛-挑战 2(ChinaVis Data Challenge 2016 - mini challenge 2
资源详情
资源评论
资源推荐
2016 年中国可视化与可视分析大会
数据可视分析挑战赛-挑战 2
(ChinaVis Data Challenge 2016 - mini challenge 2)
答 卷
参赛队名称: 中国科学院信息工程研究所-田甜
团队成员: 田甜,中国科学院信息工程研究所,t[email protected],队长
陈璐,中国科学院信息工程研究所,chenlu. seu@gmail.com
刘松,中国科学院信息工程研究所,lstp678@yeah.net
汪鑫,中国科学院信息工程研究所,wangxin32@126.com
刘俊荣,中国科学院信息工程研究所,ljr_0527@163.com,指导老师
是否学生队(是或否): 是
使用的分析工具或开发工具(如果使用了自己研发的软件或工具请具体说明):D3,Gephi,Echarts
共计耗费时间(人天): 30 人天
本次比赛结束后,我们是否可以在网络上公布该答卷与视频(是或否):是
(灰色字为参赛信息填写模板,请参赛者在提交时参照模板填写)
挑战 2.1: 从邮件数据中找出 Hacking Team 公司内部员工列表,并尝试对员工进行分类,分
类标准不限,可以同时综合考虑多种分类方式,比如:按员工在公司的重要程度分,按员工
在公司的角色分,按员工在公司的工作职责分,或按员工的行为特点分。(请将回答尽量控
制在 2000 个字和 10 张图片内)
HT 人员名单的确定:
如果一个账户多次使用 hackingteam 的域名进行发收邮件我们初步认为其是 HT 成员。得到
初始名单后进一步对其进行筛选。设定如果某人发送的邮件数等于 0 并且收发邮件的数量小于
500 则不是有效的 HT 人员。经过筛选最终得到了 132 名 HT 成员列表。利用 Gephi 生成员工关
联关系拓扑图如图 1 所示。为了方便、快捷的对各个维度的进行统计,采用 Spark 对邮件进行
各种数据处理与统计,Spark 提供了丰富的算子可以完成各种各样的统计任务,并且通过 Spark
GraphX 构建整个人员沟通拓扑图基本信息,从而方便的了解每一个人的各种信息。
图 1 Hacking team 人员关联关系拓扑图
对于员工的分类,采用了两种分类思路:
1)员工在公司的重要程度
2)通过公司的业务对员工进行分类
1.员工在公司的重要程度
首先我们对 Hacking Team 的成员依据其在公司的重要程度做分类,重要程度的评判标准
选取了四个维度:该员工收到的重要程度为 2 的邮件数量、邮件关联人数的多少、该员工的入
职时间以及该员工收发邮件的总量。如果这四个维度都显示该成员有较高的重要程度的话,那
么我们就可以认为该成员级别比较高,如图 2 所示。
图 2 人员重要程度可视化展示
由图 2 可以发现,四个维度的权值都比较高的员工,得出下面的这些人在公司很重要:David
Vincenzetti、Marco Valleri、Giancarlo Russo、Marco Bettini、Alessandra Mino、Daniele
Milan、Serge Woon、Daniel Maglietta、Massimiliano Luppi、Giancarlo Russo、 Alberto
剩余10页未读,继续阅读
蓝洱
- 粉丝: 23
- 资源: 316
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0