数据挖掘第一次作业
! 数据来源
− the$DBLP$computer$science$bibliography$(目前300万文章,上千个会议
期刊)
! 数据要求
! 使用SDM,$ICDM,$ECML?PKDD,$PAKD D,$WSDM,$DMKD,$TKDE,$KDD$
Explorations,$ACM$Trans.$On$KDD,$CVPR,$ICML,$NIPS,$COL T、
CVPR、SIGIR、SIGKDD 十六个会议,至少从2000年至今的所有数据。
− 数据使用方法
− 数据可以在dblp网站上打包下载下来,或者用自己写爬虫下载(不鼓励)
− 下载的数据是xml文档格式,主页有详细格式说明,需要解析后使用
! 若要使用java语言解析处理,可参考dblp主页上给出的说明及示例
! 若要使用python语言解析,可以参考使用dblplib这个包(目前发现
这个程序包有一点bug)
! 使用编程语言、数据处理方法 不限。