最近有位做医疗项目的同学咨询有一批人员的身高、体重、性别、年龄、心电图、是否有心脏病等数
据是否可以根据这些数据预测某个人是否有心脏病的迹象。这当然是可以的,AI机器学习不就是干这
事的吗?这是一个典型的分类算法。根据这些人体特征来判断是否存在潜在的疾病。问题是如何对心
电图进行特征提取,提取出相关的特征,让模型进行学习和训练。
拿到数据后,我们首先来看一下数据。
一、数据探索
1、读入数据
导入numpy、pandas、matplotlib三大件,读入数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_csv('data_csv.csv')
df
数据集中有age年龄、ismale性别、Weight身高、Height体重、HRTrend心电图、label是否有心脏病
(1,是有心脏病、0是无心脏病)
这里看到主要的几个关键性的指标。HRTrend是csv中载入的时候数据是文本字符串格式,还有nan及
等字符串,我们要将这些数据进行清洗规则化,将其转化为数组。
2、数据处理
先拿一个样本数据来看看数据的情况。对它进行相应的处理,包括去掉回车换行符、去多余空格、然
后以空格作为分隔形成数组。
HRTrend_Data=df['HRTrend'][1][1:len(df['HRTrend'][1])-1]
HRTrend_Data=HRTrend_Data.replace('','') #替换掉换行符
HRTrend_Data=HRTrend_Data.replace('nan',str(0)) #将nan补0
HRTrend_Data=re.sub(' +', ' ', HRTrend_Data).strip() #去掉多余的空格
AI机器学习时序序列特征提取实战