# sklearn特征抽取API
- ### sklarn.feature_extraction ###
> ## 字典特征抽取
作用:对字典数据进行特征值化
类:sklarn.feature_extraction.DictVectorizer
> ## DictVectorizer语法
**DictVectorizer (sparse=True, ...)**
DictVectorizer.fit_transform(x)
x:字典或者包含字典的迭代器
返回值:返回sparse矩阵
DictVectorizer.inverse_transform(x)
x:array数组或者sparse矩阵
返回值:转换之前数据格式
DictVectorizer.get_feature_names()
返回类别名称
DictVectorizer.transform(x)
按照原先的标准转换
**流程**
1.实例化类DictVectorizer
2.调用fit_transform方法输入数据并转换
**练习题1**
[{"city": "北京", "temperture": 100},
{"city": "上海", "temperture": 200},
{"city": "深圳", "temperture": 30}]
[练习题1代码](https://github.com/zhouf00/video-190420/blob/master/code/1.1%E6%96%87%E6%9C%AC%E7%89%B9%E5%BE%81%E6%8A%BD%E5%8F%96.py)
![image](https://github.com/zhouf00/video-190420/raw/master/image/note3.png)
> ## CountVectorizer语法
类:sklearn.feature_extraction.text.CountVectorizer
**CountVectorizer() --不支持中文**
文本分类、情感分析
返回词频矩阵
CountVectorizer.fit_transform()
x:文本或者包含文本字符串的可迭代对象
返回值:返回sparse矩阵
CountVectorizer.inverse_transform(x)
x:array数据或者sparse矩阵
返回值:转换之前数据格式
CountVectorizer.get_feature_names()
返回值:单词列表
**流程**
1.实例化类CountVectorizer
2.调用fit_transform方法输入数据并转换
**注意返回格式,利用toarray()矩阵转换array数组**
**练习题2**
["life is is short, i like python",
"life is too long, i dislike python"]
[练习题2代码](https://github.com/zhouf00/video-190420/blob/master/code/1.2%E6%96%87%E6%9C%AC%E7%89%B9%E5%BE%81%E6%8A%BD%E5%8F%96.py)
![image](https://github.com/zhouf00/video-190420/raw/master/image/note1.png)
> ## jieba分词
**jieba() --中文处理**
import jieba
jieba.cut("我是一个好程序员")
返回值:词语生成器
**练习题3**
1、今天很残酷,明天更残酷,后天很美好
但绝对大部分是死在明天晚上,所以每个人不要放弃今天
2、我们看到的从很远星系统来的光是在几百万年之前发出的,
这样当我们看到宇宙时,我们是在看它的过去
3、如果只用一种方式了解某样事物,你就不会真正了解它。
了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系
[练习题3代码](https://github.com/zhouf00/video-190420/blob/master/code/1.3%E6%96%87%E6%9C%AC%E7%89%B9%E5%BE%81%E6%8A%BD%E5%8F%96_%E4%B8%AD%E6%96%87%E5%A4%84%E7%90%86.py)
> ## TF-IDF
TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,
则认为此词或者短语具有很好的类别区分能力,适合用来分类
TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程序
类:sklearn.feature_extraction.text
> ## TfidfVectorizer语法
**TfidfVectorizer**
返回词的权重矩阵
TfidfVectorizer.fit_transform(x)
x:文本或者包含文本字符串的可迭代对象
返回值:返回sparse矩阵
TfidfVectorizer.inverse_transform(x)
x:array数组或者sparse矩阵
返回值:转换之前数据格式
TfidfVectorizer.get_feature_names()
返回值:单词列表
**练习题4**
练习三基础上进行tfidf处理
[练习题4代码](https://github.com/zhouf00/video-190420/blob/master/code/1.4Tfidf.py)
没有合适的资源?快使用搜索试试~ 我知道了~
机器学习视频学习的记录的资料,主要预处理(归一化,标准化),算法(k近邻、决策树).zip
共43个文件
png:20个
py:12个
md:6个
需积分: 5 0 下载量 18 浏览量
2024-04-16
22:46:17
上传
评论
收藏 2.09MB ZIP 举报
温馨提示
众所周知,人工智能是当前最热门的话题之一, 计算机技术与互联网技术的快速发展更是将对人工智能的研究推向一个新的高潮。 人工智能是研究模拟和扩展人类智能的理论与方法及其应用的一门新兴技术科学。 作为人工智能核心研究领域之一的机器学习, 其研究动机是为了使计算机系统具有人的学习能力以实现人工智能。 那么, 什么是机器学习呢? 机器学习 (Machine Learning) 是对研究问题进行模型假设,利用计算机从训练数据中学习得到模型参数,并最终对数据进行预测和分析的一门学科。 机器学习的用途 机器学习是一种通用的数据处理技术,其包含了大量的学习算法。不同的学习算法在不同的行业及应用中能够表现出不同的性能和优势。目前,机器学习已成功地应用于下列领域: 互联网领域----语音识别、搜索引擎、语言翻译、垃圾邮件过滤、自然语言处理等 生物领域----基因序列分析、DNA 序列预测、蛋白质结构预测等 自动化领域----人脸识别、无人驾驶技术、图像处理、信号处理等 金融领域----证券市场分析、信用卡欺诈检测等 医学领域----疾病鉴别/诊断、流行病爆发预测等 刑侦领域----潜在犯罪识别与预测、模拟人工智能侦探等 新闻领域----新闻推荐系统等 游戏领域----游戏战略规划等 从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展。
资源推荐
资源详情
资源评论
收起资源包目录
机器学习视频学习的记录的资料,主要预处理(归一化,标准化),算法(k近邻、决策树).zip (43个子文件)
content
code3
3.3MarketBasket.py 725B
3.2PCA.py 345B
3.1VarianceThreshold.py 379B
README.md 3KB
image
d3.3.png 39KB
d43.png 118KB
note2.png 115KB
3.png 58KB
datasets.png 180KB
1.png 95KB
book.png 388KB
d48.png 148KB
d44.png 97KB
d41.png 226KB
d3.2.png 23KB
d46.png 83KB
4.png 67KB
note1.png 10KB
d45.png 23KB
d42.png 185KB
d3.1.png 75KB
d47.png 123KB
2.png 80KB
note3.png 6KB
data
orders.csv 12KB
products.csv 24KB
aisles.csv 3KB
order_products_prior.csv 8KB
.idea
vcs.xml 180B
code2
2.3StandarScaler.py 320B
2.1MinMaxScalar.py 333B
2.2MinMaxScalar.py 541B
README.md 3KB
README.md 1KB
code4
README_jichu.md 4KB
4_k_neighbors.py 2KB
4_tree.py 1KB
README.md 1KB
code
1.4Tfidf.py 1KB
1.1文本特征抽取.py 942B
1.2文本特征抽取.py 410B
1.3文本特征抽取_中文处理.py 1KB
README.md 4KB
共 43 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3924
- 资源: 7441
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Java开发的日程管理FlexTime应用设计源码
- SM2258XT-BGA144-4BGA180-6L-R1019 三星KLUCG4J1CB B0B1颗粒开盘工具 , EC, 3A, 94, 43, A4, CA 七彩虹SL300这个固件有用
- GJB 5236-2004 军用软件质量度量
- 30天开发操作系统 第 8 天 - 鼠标控制与切换32模式
- spice vd interface接口
- 安装Git时遇到找不到`/dev/null`的问题
- 标量(scalar)、向量(vector)、矩阵(matrix)、数组(array)等概念的深入理解与运用
- 数值计算复习内容,涵盖多种方法,内容为gpt生成
- 标量(scalar)、向量(vector)、矩阵(matrix)、数组(array)等概念的深入理解与运用
- 网络综合项目实验12.19
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功