代码须知
1 代码与 DS 数模出售的 D 题思路需配套使用!代码附近写了注释
2 代码是 ipynb 格式,推荐大家下载 anaconda,在百度云群内有 win 和 mac 的安装包。
notebook 可以打开文件。
3 这个博客介绍了打开方式:https://www.cnblogs.com/kejixiaoqi/p/12594939.html
4 代码仅有部分,另外的需自己做,不然大家都会重复,即使我写的思路比较粗糙,但能完
整做下来的估计不是很多,通过代码可以省去不少功夫。
5 切记不可完全照搬,可能会出大问题!!
6 对于有人提出的关于始祖的问题,我的队友解释如下:(还是有一点问题,但是并查集并
不能解决这一问题,我让朋友明天再想想办法,如果有办法明天会更新)
始祖的定义:在同一流派中没有参考过其他人
根据下图,follower_genre 都是 unknown,但 是 他 们 没 有 参 考 unkonw,参 考 的 是其他流派,
然后创建了一个“新的”流派,因此他们 9 个人都是 unknown 流派的始祖
注:follower_id 去重后的数量大于 influencer_id 所有是以 follower_id 作为基础节点对比参
考的。
7 对于 02 代码的重要修正:02 中的聚类分析,由于数据量过大导致聚类结果非常糊。因此
我设计为每个领域抽取 20 个数据(不足 20 个则有多少个用多少个),然后进行聚类分析。
聚类分析代码见 jinjie02gengxin.ipynb,数据提取(提取 20 个)见 jinjie03tiqushuju。然后对
得到的结果进行分析即可。