数据挖掘论文合集之数据预处理篇_数据预处理高质量论文资源-CSDN文库

共10个文件

pdf：10个

4星 · 超过85%的资源需积分: 34 49 浏览量 2009-10-06 20:37:27 上传评论 2 收藏 1.86MB RAR 举报

数据挖掘是IT领域中一个关键的研究方向，它涉及从海量数据中发现有价值的模式和知识。在数据挖掘过程中，数据预处理是至关重要的第一步，因为原始数据往往存在诸多问题，如缺失值、异常值、噪声、不一致性等，这些问题会影响后续分析的准确性和有效性。本论文合集专注于数据预处理阶段，旨在探讨如何有效地清洗、转换和优化数据，以提高数据挖掘的效果。预处理中的数据清洗是核心环节。这包括处理缺失值，可以采用删除、插补或使用统计方法如均值、中位数或模式填充。异常值检测和处理则需要识别出与正常值显著偏离的数据点，可以使用箱线图、Z-score或IQR方法来识别，并进行修正或剔除。此外，去除噪声也是预处理的重要任务，通过平滑技术、滤波或去噪算法来降低数据的随机波动。数据转换对提升模型性能有着显著作用。尺度变换如标准化（z-score标准化）和归一化（最小-最大归一化）能确保不同特征在同一尺度上比较，有利于算法的收敛和性能优化。编码处理则用于将分类或有序数据转化为数值形式，如one-hot编码、哑变量编码等。主成分分析（PCA）和因子分析等降维技术则用于减少特征维度，降低计算复杂度，同时保留主要信息。接着，数据集成是将来自多个源的数据合并为单一视图的过程，这涉及到解决数据不一致性和冲突的问题。此外，数据规约是通过抽样、近似或概念层次构建来减小数据集大小，但保持数据的代表性，这对于大数据环境下的挖掘尤其重要。预处理还涵盖了特征选择，它旨在确定最能影响目标变量的特征子集。过滤式方法基于统计测试或相关性评分来评估每个特征，而包裹式和嵌入式方法则考虑特征组合，以最大化预测性能。数据预处理的目的是提供更高质量的输入，以供数据挖掘算法使用。这些算法可能包括关联规则学习、聚类分析、决策树构建、神经网络、支持向量机等。通过有效的预处理，可以显著提升模型的预测精度、稳定性和解释性。本论文合集不仅包含数据预处理的理论探讨，还可能包含实际案例研究，展示了预处理技术在各种数据挖掘应用中的效果，如市场趋势预测、客户细分、健康数据分析等。这些论文将为读者提供深入理解数据预处理的重要性和实施策略，帮助他们在实际项目中实现更好的数据驱动决策。

资源推荐

资源详情

资源评论

收起资源包目录

.rar （10个子文件）

预处理

数据挖掘中的数据预处理方法.pdf 204KB

Web日志挖掘中数据预处理技术的研究.pdf 134KB

数据挖掘中的数据预处理技术.pdf 101KB

数据挖掘中的数据预处理.pdf 300KB

数据挖掘中数据预处理的研究与实现.pdf 186KB

数据挖掘中的预处理技术.pdf 138KB

基于GoogleScholar的文献计量分析研究的数据预处理技术.pdf 488KB

数据挖掘中数据预处理技术综述.pdf 83KB

数据挖掘中数据预处理技术在教育研究中的应用.pdf 126KB

数据挖掘中不可忽视的环节_数据预处理.pdf 370KB

基金项目 :浙江省哲学社会科学规划课题“词频统计法应用于学科动态分析的综合研究”

(

编号 :07WTTQ001 YBM

)

。

作者简介 :虞飞华 ,男 ,1983 年生 ,硕士 ,研究方向为数据挖掘、智能信息处理。

基于 Google Scholar 的文献计量分析

研究的数据预处理技术

Preprocess Technology in Bibliometric and Analytic Research Based on Google Scholar

虞飞华

(

浙江树人大学科学计量学研究中心　杭州　310015

)

摘　要　随着网络的普及与文献计量分析研究的自动化发展趋势 , Google Scholar 的出现 ,极大地丰富了文献计量研

究的数据来源。针对 Google Scholar 的数据 ,分析其特征并设计数据预处理过程 ,借助算法与开发程序 ,快速、准确地

获取符合文献计量分析研究的原始规范数据。

关键词　文献计量分析　Google Scholar 　数据预处理　VBA

中图分类号　TP311 　G35

　　Google Scholar 是 Google 公司于 2004 年底推出的专门面

向学术资源的免费搜索工具 ,它能够帮助用户查找包括期刊

论文、学位论文、书籍、预印本、文摘和技术报告在内的学术文

献 ,内容涵盖自然科学、人文科学、社会科学等多种学科。

Google Scholar 的资料来源主要是网络免费的学术资源、开放

获取的期刊网站、付费电子资源提供商

(

中文的维普数据库和

万方数据库也与 Google 合作

)

、图书馆链接等四个部分

[1～2 ]

。

因此 , Google Scholar 可以成为一个很好的学术资源发现工

具 ,它相当于同时对多个数据库资源进行检索 ,可以给文献计

量分析研究提供很广泛的数据资料。

文献计量分析一般包含五个步骤 :数据收集、数据预处

理、数据挖掘、数据分析和报告撰写 ,其中数据收集和数据预

处理这两个阶段在整个文献计量分析过程中所占的时间最

多

[3 ]

,因此 ,如何提高这两个阶段的工作效率是一个非常关键

的问题。

1 　Google Scholar 的优势与主要特点

Google Scholar 学术搜索从专用网址 : http :/ / scholar.

google. com 进入 ,就可以在一台与因特网互联的计算机上方

便、免费地利用 Google Scholar 中文版的功能与资源 ,获取用

于文献计量分析研究的原始数据。

Google Scholar 学术搜索的每一个搜索结果都代表一组

学术研究成果 ,其中可能包含一篇或多篇相关文章甚至是同

一篇文章的多个版本。例如 ,某项搜索结果可以包含与一项

研究成果相关的一组文章 ,其中有文章的预印版本、学术会议

上宣读的版本、期刊上发表的版本以及编入选集的版本等等。

将这些文章组合在一起 ,可以更为准确地衡量研究工作的影

响力 ,并且更好地展现某一领域内的各项研究成果。

通过 Google Scholar 的多次检索 ,可以发现其还有两个优

点 :一是检索操作的便捷化 :可以通过作者、文献标题、出版物

名称、出版时间、学科热点等具体关键词进程检索 ,这样就能

达到对文献、知识检索利用的简单化与方便化 ;二是检索结果

排序的科学化 :对目标关键词检索后 ,返回的检索结果在网页

显示为“全部文章”排序

(

此排序坚持被引因素优先 ,按照被引

因素值大小排序

)

,也可以点击网页左上方处“近期文章”,

就可以按照时间后先排序 , 发表或出版时间越近者越靠前 ,

两种结果排序的结合 , 极大地方便了科技文献信息的准确遴

选

[4 ]

。

2 　用 VBA 实现数据的转换

在检索页面输入框 ,输入关键词经检索后 ,返回的文献集

合页面是一个网页格式的数据 ,默认每页显示 10 条数据整体

信息 ,也可以在学术高级搜索里设置每页显示 100 项结果 ,这

样极大地方便了数据的快速获取。可以通过 Google Scholar

的结果页码功能 ,获取所有检索返回的数据。

文献集合页面中的有效数据 ,可以直接复制到办公软件

Excel 中 ,这样数据就成了二维表格的形式 ,所有的数据都在

工作表的第一列中 ,如图 1 所示。

由图 1 可见 ,第一列数据有一个很明显的特征 ,就是每个

文献记录数据之间有一个空格行 ,空格行的下一行就是篇名 ,

篇名下一行是作者、期刊、年份、来源等信息。因此 ,可以给第

一条记录篇名前加一个空格行 ,然后设计算法如示例 1 。

情报杂志 2008 年第 12 期　　　　　　　　　　　　　　　　　　J ournal of Inf ormation No. 12 ,2008

评论收藏

内容反馈

爱美的蓝精灵

2014-01-08

期刊论文虽说值得借鉴但作为学生党来看的话有些不妥一是自己只是跟不上二是引用起来不太实际总的来说不太适合
ts870904

2012-06-18

内容很全面，包含了10多篇的数据挖据论文的各个方面，大部分是期刊论文。。。。。
tf1008

2012-12-17

正在研究数据挖掘，内容挺多的。
stormericjj

2012-07-11

内容很全面，包含了10多篇的数据挖据论文的各个方面
k5341916

2012-11-21

内容不错，但都是期刊论文。

前往

页

zhywjw

粉丝: 16
资源: 10

数据挖掘论文合集之数据预处理篇

数据挖掘实验报告-数据预处理.pdf

数据挖掘中的数据预处理汇编.pdf

数据挖掘中的数据预处理技术.pdf

数据挖掘中数据预处理的分析.pdf

数据挖掘课件：第8章 数据预处理.pdf

数据挖掘实验报告-数据预处理.docx

3 数据挖掘_数据预处理_2021.pdf

数据挖掘 R语言 数据预处理.R

数据挖掘_数据挖掘；数据预处理；支持向量机_

论数据挖掘中的数据预处理技术

论文研究-数据挖掘中数据预处理的研究与实现.pdf

概述数据挖掘中的数据预处理技术

数据挖掘中数据预处理的研究与实现

数据挖掘，数据预处理，数据仓库，

web数据挖掘数据预处理理论

数据挖掘论文合集之应用篇

机器学习数据挖掘论文

数据挖掘中数据预处理关键技术研究.pdf

数据挖掘论文精选

《数据挖掘与大数据分析》实验报告-数据预处理

Python数据挖掘之数据预处理

【数据挖掘】数据预处理 思维导图

数据挖掘论文.rar

数据挖掘 论文 翻译 英汉

毕业论文-数据挖掘中数据预处理方法及应用.doc

基于电子政务的数据挖掘论文

10篇数据挖掘论文经典收藏.RAR

国际期刊数据挖掘论文

最新资源

数据挖掘课件：第8章数据预处理.pdf

数据挖掘 R语言数据预处理.R

【数据挖掘】数据预处理思维导图

数据挖掘论文翻译英汉