没有合适的资源?快使用搜索试试~ 我知道了~
DataScience-Foodie:一个实施数据科学管道的项目-提取原始数据,数据清理,特征提取,实体匹配,数据匹配,数据合并...
共752个文件
txt:651个
py:37个
csv:13个
需积分: 9 0 下载量 161 浏览量
2021-02-04
01:31:31
上传
评论
收藏 2.63MB ZIP 举报
温馨提示
一个实施数据科学管道的项目-提取原始数据,数据清理,特征提取,实体匹配,数据匹配,数据合并和OLAP样式探索。 选择的两个实体是Yelp和Zomato。 来自相同地点的餐厅数据将从这两个站点中提取,并且相似的餐厅将合并到一个大表中。 将会在该表上进行OLAP风格的探索,以从收集的数据中找到见解(例如,加利福尼亚州评价最高的餐厅)
资源详情
资源评论
资源推荐
收起资源包目录
DataScience-Foodie:一个实施数据科学管道的项目-提取原始数据,数据清理,特征提取,实体匹配,数据匹配,数据合并和OLAP样式探索。 选择的两个实体是Yelp和Zomato。 来自相同地点的餐厅数据将从这两个站点中提取,并且相似的餐厅将合并到一个大表中。 将会在该表上进行OLAP风格的探索,以从收集的数据中找到见解(例如,加利福尼亚州评价最高的餐厅) (752个子文件)
scrapy.cfg 270B
scrapy.cfg 266B
Tuple_pairs_after_blocking.csv 283KB
candidate_set.csv 276KB
C4_410.csv 276KB
zomato_list.csv 249KB
candidate_set_predictions.csv 242KB
predictions_rf_C4.csv 242KB
yelp_list.csv 212KB
match_data.csv 64KB
restaurant_details.csv 61KB
Sampled_tuple_pairs_with_label.csv 49KB
Set_I.csv 34KB
Set_J.csv 15KB
examine_matches.csv 0B
slicer.ini 193B
DataMerging.ipynb 256KB
DataMerging-checkpoint.ipynb 118KB
EM_restaurants.ipynb 107KB
EM_restaurants-checkpoint.ipynb 107KB
model.json 2KB
model_2.json 2KB
README.md 3KB
README.md 524B
candidate_set_predictions.metadata 83B
candidate_set.metadata 83B
predictions_rf_C4.metadata 83B
C4_410.metadata 83B
features.npy 707KB
test_features.npy 343KB
training_words.npy 304KB
testing_words.npy 105KB
target_label.npy 79KB
test_target_label.npy 38KB
feature_names.npy 314B
Stage2_Report.pdf 116KB
Stage1_Report.pdf 45KB
candidate_set.pkl 313KB
C4_410.pkl 313KB
C4.pkl 310KB
candidate_set_predictions.pkl 290KB
predictions_rf_C4.pkl 290KB
GoldenData.pkl 183KB
G_4thApril.pkl 183KB
GoldenData2.pkl 183KB
match_data.pkl 112KB
Drilldown_on_State.png 94KB
Higest_Review_City_NY_State.png 85KB
Drilldown_SanJose_rating.png 76KB
Drilldown_Seattle_PriceRange.png 71KB
Drilldown_Austin_Zipcode_Rating.png 68KB
Corrected_Group_By.png 68KB
EM_restaurants.py 18KB
gen_fys_test.py 8KB
gen_pos_fys.py 6KB
data_merge.py 6KB
train_classifier.py 4KB
gen_neg_fys.py 4KB
settings.py 3KB
settings.py 3KB
blocking.py 3KB
process_match_data.py 3KB
FoodieSpider.py 3KB
DecisionTree.py 2KB
aggregate.py 2KB
LogisticRegression.py 2KB
SVM.py 2KB
middlewares.py 2KB
middlewares.py 2KB
TagAdjectives.py 2KB
LinearRegression.py 2KB
FoodieSpider.py 2KB
gridsearch_svm.py 1KB
test_classifier.py 1KB
test_RandomForest.py 1KB
prepare_data.py 1020B
RandomForest.py 801B
precision_recall_curve.py 613B
pipelines.py 292B
items.py 291B
pipelines.py 290B
items.py 289B
__init__.py 161B
__init__.py 161B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
README 186B
Rollup_on_state 64KB
Scores 393B
RemoveNoiseFromData.sh 3KB
copy_script.sh 116B
DataAnalysis.sql 1KB
restaurant.sqlite 96KB
.EM_restaurants.ipynb.swp 16KB
sys 413KB
testLogisticRegression 1KB
features.txt 2.16MB
共 752 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8
陈菌菇
- 粉丝: 28
- 资源: 4553
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0