【免费】专栏-“数据挖掘”的data资源-CSDN文库

共29个文件

csv：18个

txt：6个

data：2个

需积分: 0 97 浏览量 2022-11-19 09:25:39 上传评论收藏 77.55MB ZIP 举报

数据挖掘是一种从海量数据中提取有价值知识的过程，它结合了计算机科学、统计学和机器学习等领域的技术。在这个“专栏-‘数据挖掘’”中，我们可能会深入探讨一系列与数据挖掘相关的理论、方法和实践应用。我们要理解数据挖掘的基本概念。数据挖掘可以分为两大类：描述性数据挖掘和预测性数据挖掘。描述性挖掘是揭示数据集中的模式、规律和关系，例如聚类分析、关联规则学习；预测性挖掘则是通过建立模型来预测未来趋势，如回归分析和分类算法。在数据挖掘流程中，首要任务是数据预处理。这包括数据清洗（处理缺失值、异常值和重复值）、数据转换（标准化、归一化）、数据集成（将来自不同源的数据合并）以及数据规约（降低数据复杂性）。这些步骤对于确保后续分析的准确性和效率至关重要。接下来，我们可能会讨论各种数据挖掘方法。例如，分类算法，如决策树、随机森林、支持向量机(SVM)和神经网络，它们用于根据特征将数据分为不同的类别。而聚类分析，如K-means、层次聚类，是无监督学习的一种，旨在发现数据的自然群体结构。还有回归分析，它用来预测连续变量，如线性回归、逻辑回归等。关联规则学习是另一个重要主题，如Apriori算法，用于发现项集之间的频繁模式，常应用于市场篮子分析，找出顾客购买商品之间的关联性。此外，序列模式挖掘和时间序列分析则关注数据的时间顺序和动态变化。在数据挖掘过程中，特征选择和模型评估也是关键环节。特征选择旨在减少冗余特征，提高模型的解释性和预测能力。模型评估通常使用交叉验证、ROC曲线、精确度、召回率和F1分数等指标来度量模型的性能。我们将可能涉及数据挖掘在实际问题中的应用，如市场营销、金融风险评估、医疗诊断、社交媒体分析等。在这些领域，数据挖掘可以帮助企业做出更明智的决策，优化业务流程，甚至预测未来趋势。这个“专栏-‘数据挖掘’”的数据集可能是用于上述各种分析的实例，涵盖了多个行业的案例，帮助读者通过实际操作加深对数据挖掘技术的理解。通过学习和练习这些数据，你将能够掌握数据挖掘的核心技能，并能够应用到自己的项目中去。

资源推荐

资源详情

资源评论

收起资源包目录

数据挖掘的data.zip （29个子文件）

数据挖掘的data

pandas

day_close.h5 41.65MB

breast-cancer-wisconsin.data 19KB

starbucks

directory.csv 3.92MB

Sarcasm_Headlines_Dataset.json 5.36MB

stock_day.csv 68KB

IMDB-Movie-Data.csv 303KB

拓展pca.pdf 555KB

决策树

titanic.txt 114KB

朴素贝叶斯data

stopwords.txt 13KB

书籍评价.csv 540B

seaborn的data

iris.csv 4KB

nba_2017_nba_players_with_salary.csv 58KB

tips.csv 10KB

SVM

train.csv 73.22MB

test.csv 48.75MB

K近邻算法

dating.txt 25KB

集成学习

集成学习data

otto

train.csv 11.86MB

sampleSubmission.csv 3.34MB

submission.csv 21.31MB

test.csv 26.62MB

titanic.txt 114KB

随机森林data

otto

train.csv 11.86MB

sampleSubmission.csv 3.34MB

submission.csv 21.31MB

test.csv 26.62MB

titanic.txt 114KB

安装命令.txt 271B

租房data

链家北京租房数据.csv 404KB

逻辑回归

breast-cancer-wisconsin.data 19KB

1.文本分布式表示

1.1 为什么要表示成分布式

1.1.1 词向量的one-hot表示

我们拿英文举例。

英语中大约有1300万个词组（token，自定义字符串，译作词组），不过他们全部是独立的吗？并不是

哦，比如有一些词组，“Feline猫科动物”和“Cat猫”，“Hotel宾馆“和”Motel汽车旅馆”，其实有一定的关联

或者相似性在。因此，我们希望用词向量编码词组，使它代表在词组的N维空间中的一个点（而点与点

之间有距离的远近等关系，可以体现深层一点的信息）。每一个词向量的维度都可能会表征一些意义

（物理含义）。例如，语义维度可以用来表明时态（过去与现在与未来），计数（单数与复数），和性

别（男性与女性）。

说起来，词向量的编码方式其实挺有讲究的。咱们从最简单的看起，最简单的编码方式叫做one-hot

vector：假设我们的词表（vocabulary）总共有n个词，那我们开一个1*n的高维向量，而每个词都会在

某个索引index下取到1，其余位置全部都取值为0.词向量在这种类型的编码中如下图所示：

这种词向量编码方式简单粗暴，我们将每一个词作为一个完全独立的个体来表达。遗憾的是，这种方式

下，我们的词向量没办法给我们任何形式的词组相似性权衡。例如:

究其根本你会发现，是你开了一个极高维度的空间，然后每个词语都会占据一个维度，因此没有办法在

空间中关联起来。因此我们可能可以把词向量的维度降低一些，在这样一个子空间中，可能原本没有关

联的词就关联起来了。

1.1.2 词的分布式表示

man - woman ≈ [-2,0,0,0,...]

Apple - Orange ≈ [0,0,0,0,...]

1.2 基于SVD降维的表示方法

这是一种构造词嵌入（即词向量）(word embedding)的方法，我们首先会遍历所有的文本数据集，然后

统计词出现的次数，接着用一个矩阵来表示所有的次数情况，紧接着对X进行奇异值分解得到一个

的分解。如果我们要对X进行降维，我们用 ( )作为降维后的词向量。对于矩阵，我

们有几种选择，咱们一起来比较一下。

1.2.1 词-文档矩阵

最初的想法是，我们猜测相互关联的词组同时出现在相同的文件中的概率很高。例如，“银行”、“债券”、

“股票”、“钱”等都可能出现在一起。但是，“银行”、“章鱼”、“香蕉”和“曲棍球”可能不会一直一起出现。基

于这个想法，我们建立一个词组文档矩阵，具体是这么做的：遍历海量的文件，每次词组i出现在文件j

中时，将的值加1。不过大家可想而知，这会是个很大的矩阵，而且矩阵大小还和文档

个数M有关系。所以咱们最好想办法处理和优化一下。

1.2.2 基于窗口的共现矩阵X

我们还是用一样的逻辑，不过换一种统计方式，把矩阵记录的词频变成一个相关性矩阵。我们先规定

一个固定大小的窗口，然后统计每个词出现在窗口中次数，这个计数是针对整个语料集做的。可能说得

有点含糊，咱们一起来看个例子，假定我们有如下的3个句子，同时我们使用对称窗口，且窗口大小设定

为1（把原始的句子分拆成一个一个的词）：

1. I enjoy flying.

2. I like NLP.

3. I like deep learning.

由此产生的计数矩阵如下：

1.3.1 SVD降维



假设我们的矩阵A是一个的矩阵，那么我们定义矩阵A的SVD为：

其中U是一个的矩阵，Σ是一个的矩阵，除了主对角线上的元素以外全为0，主对角线上的

每个元素都称为奇异值，V是一个的矩阵。U和V都是正交矩阵，即满足，。下

图可以很形象的看出上面SVD的定义：

评论收藏

内容反馈

钰涵雨辰

粉丝: 475
资源: 4

专栏-“数据挖掘”的data

beauty_of_data_structures_and_algorithms:极客时间-数据结构与算法之美-专栏实践

数据挖掘数据

数据挖掘

专栏

中文文档分类数据集-数据挖掘

Java排列组合算法 - 郭睿的专栏 - CSDN博客

数字经济与大数据企业跨境数据合规专栏之--大数据企业数据跨境实践的壁垒.pdf

Asp_Net 分页显示控件 - faunjoe的专栏 - CSDN博客.htm

Linux下Socket编程 - aobai219的专栏 - CSDN博客

关于大数据量下Core Data的数据迁移 - JasonLee的专栏 - 博客频道 - CSDN.NET1

WebWork教程-表达式与言EL和OGNL- babydavic(王汉祥)的专栏- CSDNBlog.zip

炮灰的专栏源码打包

Apache and WebLogic Two-Way SSL Configuration Kick Start - orctom的专栏 - CSDNBlog.mht

csdn24篇专栏-关于CCEI考试.rar

Struts+Spring+Ibatis环境配置（一） - zwjxf的专栏 - 博

web开发的珍藏代码积累 - cchheennhhaaoo119的专栏 - CSDNBlog.htm

拉勾教育专栏-计算机网络通关 29 讲

USB CDC从理论到实践-9527的专栏-CSDN博客 - blog.csdn.net

JSON傳送與接收 - 林信良（良葛格）的专栏 - CSDNBlog

包教会专栏-WpfDataContextDemo

elimago的专栏 - 博客频道 - CSDN.NET_files\Java-Excel报表开发POI

米斯特白帽培训讲义 漏洞篇 SQL 注入 - wizardforcel的专栏 - 博客频道 - CSDN.NET.mhtml

Javascript中最常用的55个经典技巧 - java060515的专栏 - CSDN博客.htm

Fleury (弗罗莱) 算法通俗解释 - guomutian911的专栏 - 博客频道 - CSDN.NET.mhtml

Linux下的多线程编程（转载） - wintree的专栏 - 博客频道 - CSDN.NET.html

Pinyin4j的基本用法 - 玄机逸士的专栏 - 博客频道 - CSDN.NET.html

计算机视觉领域的一些牛人博客，超有实力的研究机构等的网站链接 - Mittens 的专栏 - 博客频道 - CSDN.NET.html

Java面试题全集（上） - 骆昊的技术专栏 - 博客频道 - CSDN.NET(1).mhtml

ArcGIS Geostatistical Analyst 教程练习 1-ArcGIS入门与应用-技术专栏-GIS空间站.html

数据分析专栏二-数据预处理与探索性分析数据集

最新资源

米斯特白帽培训讲义漏洞篇 SQL 注入 - wizardforcel的专栏 - 博客频道 - CSDN.NET.mhtml