没有合适的资源?快使用搜索试试~ 我知道了~
PDX-Council-Minutes-Data:使用Luigi流程框架运行ETL作业的演示项目
共49个文件
py:22个
go:8个
html:4个
需积分: 10 0 下载量 15 浏览量
2021-05-16
15:15:00
上传
评论
收藏 129KB ZIP 举报
温馨提示
PDX委员会会议记录数据 尝试提取和清理PDX Council Minutes数据并使其可搜索。 当前,数据以令人讨厌的PDF格式格式化,这使解析变得比期望的更为复杂。 该项目也是使用Luigi流程框架运行Web数据的ETL作业的演示。 ##概述###提取使用请求,提取Web资产并解析html数据以获取主题数据。 向上拉波特兰议会会议页面,索引每个年度会议列表的链接。 构造可用的Minutes文档列表 拉出所有先前未处理的Minute文档每分钟文档是它自己的目录/任务,由UID分隔 ### Transform Sanitize示例,清理/处理/处理/提取nlp提取的数据以进行记录。 每个Minutes文件都是一个pdf文件,需要对其进行分析以提取标题和内容数据。 使用PyPDF2提取文本。 确定是否仅需要文本转换。 清理数据 从PDF文本中提取标题信息包含会议信息,但大多无用
资源推荐
资源详情
资源评论
收起资源包目录
PDX-Council-Minutes-Data-master.zip (49个子文件)
PDX-Council-Minutes-Data-master
tasks
common.py 370B
loading.py 2KB
auth.py 257B
__init__.py 13B
transform.py 5KB
extract.py 3KB
loading_test.go 2KB
query_test.go 2KB
tests
test_luigi.py 2KB
resources
index.cfm?c=56676 29KB
minutes_list.html 45KB
lebowskiIpsum 2KB
2011-1-19raw.txt 53KB
test_tram.py 397B
__init__.py 0B
test_transform.py 11KB
test_extract.py 2KB
api
api.go 639B
query.go 1KB
LICENSE 1KB
orm
__init__.py 0B
conn.py 667B
tables.py 2KB
ops
loading.py 2KB
tram.py 912B
__init__.py 0B
transform.py 5KB
extract.py 3KB
elastic.go 279B
sql
subselect.sql 278B
groupby.sql 287B
TokensFollowingPortland.sql 318B
loading.go 1KB
pathfinder_test.go 234B
.gitignore 321B
requirement.txt 102B
pathfinder.go 699B
flaskr
engine.py 893B
templates
index.html 224B
token.html 1KB
layout.html 332B
static
d3full.js 319KB
style.css 1KB
__init__.py 0B
queries.py 858B
README.md 3KB
Godeps
Godeps.json 469B
_workspace
.gitignore 10B
Readme 136B
共 49 条
- 1
资源评论
大英勋爵汉弗莱
- 粉丝: 35
- 资源: 4492
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功