5 个 Python 自动化 EDA 库
以前被称为 Pandas Profiling,在今年改了名字。如果你搜索任何与 EDA
自动化相关的内容时,它都会作为第一个结果出现,这也是有充分理由的
。
这个库最有用和最常用的是 ProfileReport()命令。它生成整个数据集的详
细摘要,报告对于获得数据的概览非常有用,特别是如果你不知道从哪里
或如何开始分析(通常是这种情况)。这对于那些想要节省时间的新手或有经
验的分析师来说非常有用。该报告提供单变量分布,突出数据质量问题,
并创建相关性。让我们看一下患者风险概况数据的报告:
patient_data = pd.read_csv('/kaggle/input/patient-risk-
profiles/patient_risk_profiles.csv')
zomato_data=pd.read_csv('/kaggle/input/zomato-data-40k-
restaurants-of-indias-100-cities/zomato_dataset.csv')
from ydata_profiling import ProfileReport
patient_report=ProfileReport(patient_data)
patient_report
zomato_report=ProfileReport(zomato_data)
zomato_report