没有合适的资源?快使用搜索试试~ 我知道了~
USDA食品数据库 !git clone https://github.com/wesm/pydata-book 0 导入相关库 # 基础 import numpy as np # 处理数组 import pandas as pd # 读取数据&&DataFrame import matplotlib.pyplot as plt # 制图 import seaborn as sns from matplotlib import rcParams # 定义参数 from matplotlib.cm import rainbow # 配置颜色 %matplotlib inline import
资源详情
资源评论
资源推荐
USDA食品数据库食品数据库
USDA食品数据库食品数据库
!git clone https://github.com/wesm/pydata-book
0 导入相关库导入相关库
# 基础
import numpy as np # 处理数组
import pandas as pd # 读取数据&&DataFrame
import matplotlib.pyplot as plt # 制图
import seaborn as sns
from matplotlib import rcParams # 定义参数
from matplotlib.cm import rainbow # 配置颜色
%matplotlib inline
import warnings
warnings.filterwarnings('ignore') # 忽略警告信息
np.set_printoptions(precision=4) # 小数点后
pd.options.display.max_rows = 10 # 最大行数
1 读取文本文件读取文本文件(JSON、字典格式、字典格式)
import json
db = json.load(open('pydata-book/datasets/usda_food/database.json'))
len(db)
db[0]
db[0].keys()
db中的每个条目都是一个含有某种食物全部数据的字典
db[0]['nutrients'][0]
nutrients字段是一个字典 列表,其中的每个字典对应一种营养成分
2 数据预处理数据预处理
nutrients = pd.DataFrame(db[0]['nutrients'])
nutrients
取出食物的名称、分类、编号以及制造商等信息 -> DataFrame
info_keys = ['description', 'group', 'id', 'manufacturer'] info = pd.DataFrame(db, columns=info_keys)
info
查看食物类别的分布情况
pd.value_counts
pd.value_counts(info.group)[:10]
将各食物的营养成分列表转换为一个DataFrame
添加一个表示编号的列
将该DataFrame添加到一个列表中
通过concat连接
%%time
nutrients = [] for rec in db:
fnuts = pd.DataFrame(rec['nutrients'])
fnuts['id'] = rec['id'] nutrients.append(fnuts)
nutrients = pd.concat(nutrients, ignore_index=True)
剩余7页未读,继续阅读
weixin_38654220
- 粉丝: 10
- 资源: 931
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0