没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
______________________________________________________________________________________________________________
-可编辑修改-
Citespace 软件操作问答(摘自陈超美博士的科学网博客)
(8)
如何在 CiteSpace 中控制节点的取舍
CiteSpace 提供了几种方式来控制最终生成的网络将由哪些节点构成:
1.
Top N
2.
Top N%
3.
Threshold Interpolation
4.
Select Citers
第一种办法最简单,最适于初学阶段,所以目前版本将其放在首位。其余几种办法逐渐变得复杂,
最好等熟悉系统之后再考虑。下面简要介绍一下各个方法的细节。
Top N:系统设定 N=30,意为在每个 time slice 中提取 N 个被引次数最高的文献。N 越大生成
的网络将相对更全面一些。
Top N%: 将每个 time slice 中的被引文献按被引次数排序后,保留最高的 N%作为节点。
Threshold Interpolation:设定三个 time slices 的值,其余 time slices 的值由线性插值赋值。三
组需要设置的 slices 为第一个,中间一个,和最后一个 slice。每组中的三个值分别为 c,cc,和
ccv。c 为最低被引次数。只有满足这个条件的文献才能参加下面的运算。cc 为本 slice 内的共被
引次数。ccv 为规范化以后的共被引次数(0~100)。
Select Citers:与以上方法不同的是这个方法先选施引文献,然后需再用方法 1-3 之一。先 Check
TC Distribution 然后填写 Use TC Filter 后面的两个数字:最低和最高 TC 值(Time Cited),
选定 User TC Filter 前的选项。按 Continue,再设定方法 1,2,或 3。
______________________________________________________________________________________________________________
-可编辑修改-
节点总数在 Progress Reports 中给出。节点总数越大需要内存越多。下回将介绍如何选择网络
的连接密度。
CiteSpace 提供了多项参数选择,初学者难免有时不知从何下手。这里介绍一些
要点以供参考。
CiteSpace 的功能类似一架照相机,只是它拍摄的对象是科学文献而不是自然景
色。设置 CiteSpace 的各项参数大致相当于取景,调焦,对光圈。不过这些过
程在如今的相机中基本都已完全透明。所以,参数设置对 CiteSpace 所产生的
图谱有直接影响。最初使用时,最简单的办法是先采用系统的预定参数;熟悉之
后,再按下面提供的要点调整参数。
那么什么样的 CiteSpace 图谱才算好图谱呢?CiteSpace 的设计实际上是有针对
性的。能满足 CiteSpace 设计要求的图谱才视为好图谱。CiteSpace 要展现的是
一个领域的知识发展的历史和现状。这是 CiteSpace 的取景范围。由于深受库
恩《科学革命的结构》的影响,对 CiteSpace 来说,焦点自然是在范式(paradigm)
和范式转移(paradigm shift)。近年来大家倾向于这种认识:范式是一种更为
广泛的现象,可以在各个层次上出现。换句话说,并非 50 年一遇或 100 年一遇。
所以 CiteSpace 竭尽全力所要甄别,显示,突出的就是在广义的范式转移中起
关键作用的转折点。与广义范式相对应的是科学文献中自然呈现的聚类。转折点
便是联结不同聚类的桥梁。如果 CiteSpace 生成的图谱能清晰的显示出这些要
素,这种图谱便属上乘之作。关于解读 CiteSpace 图谱的要点,来日再写。
有了这个目标以后,图谱如能显示俩三个或更多的自然网络聚类,而且各聚
类之间有少量的联系,便为最佳。这样的图谱很容易带来有趣的和有意义的发现。
相反,如果图谱中所有节点都纠缠在一起,则很难理出头绪。如果碰到这种情况,
______________________________________________________________________________________________________________
-可编辑修改-
检查下面几种原因:数据范围是否过窄,门槛设置是否过高( threshold),曝
光时间是否过短(time slice)。另外,可用 CiteSpace 中的链接剔除功能(pruning)
来剔除一些次要的链接以突出核心结构。成像以后,CiteSpace 可提供进一步的
指标。比如,modularity 大约在 0.4~0.8 时的图谱通常会符合或接近上述要求。
另外,如果可能从每年或每个时间段中选取数量大致相当的数据,会比每年都使
用同样的门槛要更有效(相对于上述目标而言)。
做专利分析的时候,发现转换德温特专利的数据;还有就是,C、CC 和 CCV 阈值的选
择有没有什么标准呢?TopN 和 TopN% 更直接,建议你用这两项。c,cc,ccv 的选择灵
活但较为复杂,参考 2004 年我的 PNAS 文章。从前,c 有选 5 次以上的,ccv 有选 25%以
上等等在文献中都可见到。阈值低的覆盖面会稍微广一些。考虑到文献数据本身的误差,以
及大部分人的注意力往往集中在最有代表性的工作,所以阈值的选择总是相对的。WOS 并
不包括所有的文献。另外,信息和噪音比也是一个考虑因素。关于阙值的选择,我是不是可
以这样理解,就是说,知识图谱是需要不断探索和试验的,对所选择领域文献的分析必须是
基于文献实际情况的,而不只是就图说图,理想的知识图谱应该是能够正确反映文献实际情
况的那一张图。所以,知识图谱的绘制并不是一蹴而就的,阈值的不断切换就是为了找到符
合实际情况的知识图谱;在操作过程中经常会遇到有的文献被引频次很高,但是中心度却很
低,而有的文献被引频次很低,中心度却很高,对于这样的现象我该怎样去理解?这两类文
献中那一种才是关键文献或重要文献?为什么会出现这样的情况。另外,阈值设定中:top N
per slice 或者 Threshold(c,cc,ccv)数值大小,选用 Pathfinder 或者 Minimum Spanning
Tree,即使小小的变化,软件选择出的被引文献或者关键词其中心度变化很大。如果选择
了其中的一组数据进行分析,自己都无法解释选择为什么要选择这组数据?我应该依据什么
去选择分析?被引频次和中心度是两种不同的度量。中心度是定义在网络结构上的。至于什
剩余15页未读,继续阅读
资源评论
hhappy0123456789
- 粉丝: 72
- 资源: 5万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功