没有合适的资源?快使用搜索试试~ 我知道了~
大数据分析工具:Statsmodels与Gensim
需积分: 5 0 下载量 54 浏览量
2024-03-14
21:44:19
上传
评论
收藏 23KB DOCX 举报
温馨提示
试读
6页
大数据分析工具:Statsmodels与Gensim
资源推荐
资源详情
资源评论
大数据分析工具:Statsmodels 与 Gensim
Statsmodels 是一个 Python 模块,它提供对许多不同统计模型估计
的类和函数,并且可以进行统计测试和统计数据的探索。
Gensim 是一个用于从文档中自动提取语义主题的 Python 库,足够
智能。Gensim 可以处理原生、非结构化的数值化文本(纯文本)。
7.1 Statsmodels
Statsmodels 是一个有很多统计模型的 Python 库,能完成很多统计
测试、数据探索以及可视化。它还包含一些经典的统计方法,比如贝
叶斯方法和一个机器学习的模型。
Statsmodels 中的模型和方法包括:
线性模型(linear models)、广义线性模型(generalized
linear models)和鲁棒线性模型(robust linear models)。
线性混合效应模型(Linear mixed effects models)。
方差分析(Analysis of Variance,ANOVA)方法。
时 间 序 列 处 理 ( Time Series Processes ) 和 状 态 空 间
(State Space)模型。
广义矩估计方法(Generalized Method of Moments)。
7.1.1 Statsmodels 统计数据库
Statsmodels 包含统计模型和统计数据的库。这个库里有样本数据
可以提供项目训练。以下代码列出了这个库包含的所有数据和每个数据的简短介绍。
【例 7.1】
输出结果如下(可以看到这个库里的数据还是比较多的,如
sunspots、scotland、china_smoking 等,可供项目训练使用):那么如何调用一组数据呢?
以 scotland 为例,想要查看 scotland
的数据,就用下面的几行代码。
【例 7.2】
#coding:utf-8
import statsmodels.api as sm
from pandas import DataFrame
china_smoking_data = sm.datasets.china_smoking.load_pandas()
# print(type(scotland_data))
# print(scotland_data)
df = china_smoking_data.data
print(type(df)) # DataFrame 类型的数据
print(df) 代码输出如下:
7.1.2 Statsmodels 典型的拟合模型概述
1.模型拟合和描述
Statsmodels 典型的拟合模型涉及 3 个简单的步骤:
# step 1 Describe model
mod = sm.OLS(y, X)
# step 2 Fit model
资源评论
妙屋山最后的真龙
- 粉丝: 188
- 资源: 31
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功