from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler,Imputer,StandardScaler
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba
import numpy as np
def dictvec():
"""
字典数据数据抽取
return NONE
"""
dict = DictVectorizer()
data = dict.fit_transform([{'city':'北京','temp':100},{'city':'上海','temp':27},{'city':'杭州','temp':50}])
print("fit_transform",data)
data = dict.transform([{'city':'北京','temp':100},{'city':'上海','temp':27},{'city':'杭州','temp':50}])
print("transform",data)
# 得到特征值
# print(dict.get_feature_names())
# print(dict.inverse_transform(data))
# print(data.toarray())
return None
# 对英文进行处理
def countvec():
"""
对文本进行特征值化
return None
"""
cv = CountVectorizer()
data = cv.fit_transform(["Life is short,i like python","life is too long , i dislike python"])
# 不支持中文,要用jieba进行分词
# data = "杨幂刘恺威离婚!将以亲人身份共同抚养孩子 ,气愤!不到3块钱 你的自拍竟被印在酒店小卡片上 ,皇马夺世俱杯三连冠;曼城蓝军爆大冷输球;索圣首秀大胜 ,灵活多变的MK-48垂发系统,为节省空间可以挂在直升机机库上 ,暴风集团巨亏 2千万资金能否偿还3日后2亿到期债券? ,“武汉号”有多牛?央视新闻:互联网要“上天”了 ,房地产“差别化调控”变“分类指导”,意味着什么? ,反转!“老太被电动车带倒诬陷公交车”事件司机道歉 ,日本抗议军机遭韩军舰雷达照射 韩军:反应过度 "
# data = jieba.cut(data)
# print(data)
# print("--------------------------\n")
# data = cv.fit_transform(data)
# data = cv.fit_transform(["人生苦短,我喜欢python","人生漫长 , 不用python"])
print(cv.get_feature_names())
#单个字母不进行统计
print(data.toarray())
return None
# 中文词汇切割
def cutword(data):
data = jieba.cut(data)
# 转化成列表
data_list = list(data)
# 列表转化成字符串
data_str = ' '.join(data_list)
return data_str
# 汉字特征处理
def hanzivec():
"""
中文特征值化
"""
cv = CountVectorizer()
data = open("./essays.txt")
# 转为字符串类型的
data = " ".join(data.readlines())
data = cutword(data)
# print(data)
data = cv.fit_transform([data])
data_feat = cv.get_feature_names()
#print(data_feat)
data_array = data.toarray()
#print(data_array)
print(np.where(data_array == 7))
print(data_feat[187])
return None
# tfidf文章分类优化
def tfidfvec():
"""
中文特征值化
"""
tf = TfidfVectorizer()
data_str1 = cutword("""那最美的花瓣是柔软的,那最绿的草原是柔软的,
那最广大的海是柔软的,那无边的天空是柔软的,那在天空自在飞翔的云,最是柔软!
我们心的柔软,可以比花瓣更美,比草更绿,比海洋更广,比天空更无边,比云还要自在
,柔软是最有力量,也是最恒常的。且让我们在卑湿污泥的人间,开出柔软清净的智慧之
莲吧!""")
data_str2 = cutword("他唱的是心中的荒凉之城吧!外在的城池,时而繁华,时而荒凉,内心那小小寂寞的城呀!虽也有兴衰起落,却总有一块无欢的幽州台,前不见古人,後不见来者,念天地之悠悠,独怆然而涕下!在最深最深的地方,这是诗人的大寂寞,也是诗人的荒城。")
data_str3 = cutword("柠檬花盛开时节,我走过柠檬园,花的浓郁的芬芳总是熏得我迷离。一切花中,柠檬花是最香甜的,有稠稠的蜜意;但是一切果里,柠檬果又是最酸涩的,其酸胜醋。这种迷离之感,使我忍不住会附身细细地端详柠檬花,看着一花五叶的纯白中,生起嫩嫩的黄,有的还描着细细的紫色滚边,让花的香甜流入我的胸腹。")
# print(data)
data = tf.fit_transform([data_str1,data_str2,data_str3])
data_feat = tf.get_feature_names()
print(data_feat)
data_array = data.toarray()
print(data_array)
# print(np.where(data_array == 7))
# print(data_feat[187])
return None
def mm():
"""
归一化处理
"""
mm = MinMaxScaler()
data = mm.fit_transform([[90,2,10,40],[60,4,15,45,],[75,3,13,46]])
print(data)
return None
def stand():
"""
标准化
"""
std = StandardScaler()
data = std.fit_transform([[1.,-1.,3.],[2.,4.,2.,],[4.,6.,-1]])
print(data)
return None
# def im():
# """
# 缺失值处理
# """
# Imputer()
def var():
"""
删除低方差的特征
"""
var = VarianceThreshold(threshold=0.0)
data = var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
print(data)
return None
def pca():
"""
主成分分析进行降维
"""
pca = PCA(n_components=0.9)
data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
print(data)
return None
if __name__ == "__main__":
dictvec()
没有合适的资源?快使用搜索试试~ 我知道了~
基本的一些绘图和机器学习的代码.zip
共26个文件
py:17个
csv:4个
md:3个
需积分: 5 0 下载量 40 浏览量
2024-04-16
22:47:39
上传
评论
收藏 41KB ZIP 举报
温馨提示
众所周知,人工智能是当前最热门的话题之一, 计算机技术与互联网技术的快速发展更是将对人工智能的研究推向一个新的高潮。 人工智能是研究模拟和扩展人类智能的理论与方法及其应用的一门新兴技术科学。 作为人工智能核心研究领域之一的机器学习, 其研究动机是为了使计算机系统具有人的学习能力以实现人工智能。 那么, 什么是机器学习呢? 机器学习 (Machine Learning) 是对研究问题进行模型假设,利用计算机从训练数据中学习得到模型参数,并最终对数据进行预测和分析的一门学科。 机器学习的用途 机器学习是一种通用的数据处理技术,其包含了大量的学习算法。不同的学习算法在不同的行业及应用中能够表现出不同的性能和优势。目前,机器学习已成功地应用于下列领域: 互联网领域----语音识别、搜索引擎、语言翻译、垃圾邮件过滤、自然语言处理等 生物领域----基因序列分析、DNA 序列预测、蛋白质结构预测等 自动化领域----人脸识别、无人驾驶技术、图像处理、信号处理等 金融领域----证券市场分析、信用卡欺诈检测等 医学领域----疾病鉴别/诊断、流行病爆发预测等 刑侦领域----潜在犯罪识别与预测、模拟人工智能侦探等 新闻领域----新闻推荐系统等 游戏领域----游戏战略规划等 从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展。
资源推荐
资源详情
资源评论
收起资源包目录
基本的一些绘图和机器学习的代码.zip (26个子文件)
content
数据分析
us.csv 164B
10_pandas.py 62B
09_.py 611B
06_tiaoxing2.py 713B
数据分析笔记.md 1KB
notebook
未命名.ipynb 3KB
uk.csv 165B
t1.png 23KB
油性皮肤.md 41B
07_csv.py 406B
08_.py 565B
03_sandian.py 293B
05_tiaoxing2.py 958B
dog.csv 125B
02_qiwen.py 967B
04_tiaoxing.py 923B
ceshi.csv 827B
01_zuobiao.py 352B
07_k-mean.py 1KB
sklearn
01_sklearn.py 5KB
笔记.md 7KB
06_huigui.py 3KB
04_tree.py 2KB
03_knn.py 4KB
02_huafen.py 507B
05_test.py 240B
共 26 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3562
- 资源: 2900
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功